热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

局部线性嵌入LLE算法学习笔记

流形学习是一大类基于流形的框架,形象说明流形降维:ISOMAP(更多细节可参考:isomap降维算法--学习笔记_Wsyoneself的博
  1. 流形学习是一大类基于流形的框架,形象说明流形降维:

  2. ISOMAP(更多细节可参考:isomap降维算法--学习笔记_Wsyoneself的博客-CSDN博客):

  3. LLE:
    1. 和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。
    2. LLE属于流形学习(Manifold Learning)的一种。数学意义上的流形比较抽象,不过可以认为LLE中的流形是一个不闭合的曲面。这个流形曲面有数据分布比较均匀,且比较稠密的特征,有点像流水的味道。基于流行的降维算法就是将流形从高维到低维的降维过程,在降维的过程中希望流形在高维的一些特征可以得到保留
    3. 数据特征的方法有很多种,不同的保持方法对应不同的流形算法。比如等距映射(ISOMAP)算法在降维后希望保持样本之间的测地距离而不是欧式距离,因为测地距离更能反映样本之间在流形中的真实距离。但是等距映射算法有一个问题就是他要找所有样本全局的最优解,当数据量很大,样本维度很高时,计算非常的耗时,鉴于这个问题,LLE通过放弃所有样本全局最优的降维,只是通过保证局部最优来降维。同时假设样本集在局部是满足线性关系的,进一步减少的降维的计算量。
    4. LLE的算法思想:
      1. 首先假设数据在较小的局部是线性的,也就是说,某一个数据可以由它邻域中的几个样本来线性表示。比如有一个样本x1,在它的原始高维邻域里用K-近邻思想找到和它最近的三个样本x2,x3,x4. 然后假设x1可以由x2,x3,x4线性表示,即:x1=w_12 x2+w_13 x3+w_14 x4(其中,w12,w13,w14为权重系数)。在通过LLE降维后,希望x1在低维空间对应的投影x′1和x2,x3,x4对应的投影x′2,x′3,x′4也尽量保持同样的线性关系,即x′1≈w_12x′2+w_13x′3+w_14x′4,即投影前后线性关系的权重系数w_12,w_13,w_14是尽量不变或者最小改变的。
      2. 从上面可以看出,线性关系只在样本的附近起作用,离样本远的样本对局部的线性关系没有影响,因此降维的复杂度降低了很多。
    5. 具体实现:
      1. 首先要确定邻域大小的选择,即需要多少个邻域样本来线性表示某个样本。假设这个值为k。可以通过和KNN一样的思想通过距离度量比如欧式距离来选择某样本的k个最近邻。
      2. 在寻找到某个样本的xi的k个最近邻之后就需要找到找到xi和这k个最近邻之间的线性关系,也就是要找到线性关系的权重系数。找线性关系,这显然是一个回归问题。假设有m个n维样本{x1,x2,...,xm},可以用均方差作为回归问题的损失函数:其中,Q(i)Q(i)表示ii的k个近邻样本集合。一般也会对权重系数wijwij做归一化的限制,即,对于不在样本xixi邻域内的样本xjxj,令对应的wij=0wij=0,这样可以把ww扩展到整个数据集的维度。一般可以通过矩阵和拉格朗日子乘法来求解这个最优化问题。
        1. 对于第一个式子,先将其矩阵化:
  4. 总结整个LLE算法(主要分三步):

    1. 求K近邻的过程,这个过程使用了和KNN算法一样的求最近邻的方法。
    2. 对每个样本求它在邻域里的K个近邻的线性关系,得到线性关系权重系数W。
    3. 利用权重系数来在低维里重构样本数据。
    4. 具体过程:
  5. 总结分析:LLE是广泛使用的图形图像降维方法,它实现简单,但是对数据的流形分布特征有严格的要求。比如不能是闭合流形,不能是稀疏的数据集,不能是分布不均匀的数据集等等,这限制了它的应用。下面总结下LLE算法的优缺点。
    1. 主要优点有:
      1. 可以学习任意维的局部线性的低维流形
      2. 算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易。
    2. 主要缺点有:
      1. 算法所学习的流形只能是不闭合的,且样本集是稠密均匀的。
      2. 算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。

推荐阅读
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • 吴恩达推出TensorFlow实践课程,Python基础即可入门,四个月掌握核心技能
    量子位报道,deeplearning.ai最新发布了TensorFlow实践课程,适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 《计算机视觉:算法与应用》第二版初稿上线,全面更新迎接未来
    经典计算机视觉教材《计算机视觉:算法与应用》迎来了其第二版,现已开放初稿下载。本书由Facebook研究科学家Richard Szeliski撰写,自2010年首版以来,一直是该领域的标准参考书。 ... [详细]
  • 专注于模式识别与机器学习的研究生,对于该领域内的就业方向及具体职位要求有着浓厚的兴趣。本文将探讨智能图像/视频处理工程师的岗位要求,并为相关专业的学生提供学习建议。 ... [详细]
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 在《数字图像处理及应用(MATLAB)第4章》中,详细探讨了“逢七必过”游戏规则的实现方法,并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例,展示了如何利用MATLAB实现这一游戏规则,并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面,为读者提供了全面的技术支持和实践指导。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 本文探讨了利用MATLAB实现图像相似度分析的方法,重点介绍了余弦相似度算法的实现及其在实际应用中的效果。通过实验验证,该方法在图像匹配和检索任务中表现出较高的准确性和效率,为图像处理领域提供了有力的技术支持。 ... [详细]
  • 图像分类:KNN算法(K—最近邻算法) 一.定义 定义:KNN是通过测量不同特征值之间的距离进行分类。它的的思路是ÿ ... [详细]
  • MATLAB人体行为检测与识别
    人体行为检测与识别摘要人体行为检测与识别是当前研究的重点,具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]
  • 到了今天,已经很少有人再提人工智能音箱了。使用率低、售价跳水、缺乏销售数据……我们不能武断地说智能音箱凉了,但的确不少所谓的AI企业的硬件梦碎了。相对于一 ... [详细]
author-avatar
幸福蜗牛yeshi牛
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有