热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

机器学习基础之半监督学习

文章目录生成式方法半监督支持向量机图半监督学习基于分歧的方法半监督聚类转自:https:www.zhenxiangsimple.com20190411tech-ml

文章目录

  • 生成式方法
  • 半监督支持向量机
  • 图半监督学习
  • 基于分歧的方法
  • 半监督聚类



转自:
https://www.zhenxiangsimple.com/2019/04/11/tech-ml-bjdxx/

  半监督学习是指让学习器的训练不仅仅依赖于对训练样本的标记,而是可以利用未标记的样本实现自主学习的一种方式。相对应的常规基于已标记的样本进行模型训练,然后使用训练的结果对待预测数据进行预测的方式称为主动学习。

生成式方法

  生成式方法是直接假设所有的样本数据,不论是否进行了标记,都由同一个未知的模型生成,因此可以通过该模型将未标记的数据跟学习目标建立联系,最终使用EM算法(目标和参数相互迭代)求解得到模型,进而可以实现未标记样本的分类。
  如上所述,假定数据分布属于某个模型后,记得得到对应模型的的生成式半监督学习模型,常用的有高斯混合模型、混合专家模型及朴素贝叶斯模型等。但是,如果模型的假设不准确,及模型跟样本分布不一致,则可能会出现较差的结果,具体模型的假设通常需要一定的先验知识,或者对样本数据的领域知识。

半监督支持向量机

  半监督支持向量机是支持向量机在半监督学习方向的拓展,标准的支持向量机的目标是找到最大间隔划分的超平面,而板件的支持向量机的目标是穿过低数据密度区域的划分超平面,当然,相同点都是针对二分类问题的学习方法。

图半监督学习

  对于一个样本数据集,可以映射为一个图,每个样本集可以对应于图中的节点,如果两个样本之间的相似度高或相关性强,则节点之间可以建立一条边,边的强度对应于样本之间的相似度。
  该方法有两个缺陷,第一,存储上开销较大,是空间复杂度为O(m2)O(m^2)O(m2),因此很难处理大样本集;第二,图的构建过程仅考虑训练样本集,无法判断待测样本,因此有新样板或待测样本时需要重进建图。

基于分歧的方法

  前面介绍的方法都是基于单个学习器的,而基于分歧的方法使用多学习器,考虑多学习器之间的分歧的选择,来决定未标记数据的结果,协同训练是常用的基于分歧的方法。
  协同训练的原理是,首先选择多个学习器分别基于已标记样本训练得到分类器,然后在未标记样本中选择最大概率的分类作为伪标记,最后将伪标记提供给其他学习器进行训练;持续迭代这种交叉学习,直到所有学习器的结果不再变化,或者学习次数达到某个预定值。

半监督聚类

  聚类本身是一种无监督学习方法,不过常规的样本中都有一些监督的信息,因此可以利用这些监督信息来进行半监督聚类学习,常见的监督信息分两类:第一类基于样本之间关系的必连和勿连,必连指样本必属于同一类,勿连指样本必不属于同一类;第二类是存在已标记的样本。
  对于第一类监督信息,约束k均值算法是常用的半监督聚类方法,原理是在保持必连和勿连的前提下,寻找距离当前样本最近的类别,直到分类不再变化。对于第二类监督信息,约束种子k均值算法是常用方法,原理是在保持已标记样本所属分类不变的前提下,寻找距离当前样本最近的类别,直到分类不再变化。

点击查看 (人工智能) 系列文章



推荐阅读
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 自学编程与计算机专业背景者的差异分析
    本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处,结合实际案例分析两者的优势与劣势。 ... [详细]
  • 精选30本C# ASP.NET SQL中文PDF电子书合集
    欢迎订阅我们的技术博客,获取更多关于C#、ASP.NET和SQL的最新资讯和资源。 ... [详细]
  • 通过与阿里云的合作,牛客网成功解决了跨国视频面试中的网络卡顿问题,为求职者和面试官提供了更加流畅的沟通体验。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者,本文将为您提供实用建议和资源,帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
author-avatar
toelleconneely_348
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有