机器学习_机器学习算法总结——流形学习（ManifoldLearning）

作者：吴沫燃2502934477 | 来源：互联网 | 2023-09-17 14:24

本文由编程笔记#小编为大家整理，主要介绍了机器学习算法总结——流形学习（ManifoldLearning）相关的知识，希望对你有一定的参考价值。1、什么是

本文由编程笔记#小编为大家整理，主要介绍了机器学习算法总结——流形学习（Manifold Learning）相关的知识，希望对你有一定的参考价值。

1、什么是流形

　　流形学习的观点：认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。由于数据内部特征的限制，一些高维中的数据会产生维度上的冗余，实际上这些数据只要比较低的维度就能唯一的表示。所以直观上来讲，一个流形好比是一个d维的空间，在一个m维的空间中（m > d）被扭曲之后的结果。需要注意的是流形并不是一个形状，而是一个空间。举个例子来说，比如说一块布，可以把它看成一个二维的平面，这是一个二维的空间，现在我们把它扭一扭（三维空间），它就变成了一个流形，当然不扭的时候，它也是一个流形，欧式空间是流形的一种特殊情况。如下图所示

　　技术分享图片

　　再比如对于一个球面上的一点（其实就是三维欧式空间上的点），可以用一个三元组来表示其坐标：

　　技术分享图片

　　但事实上这三维的坐标只由两个变量θ和φ生成的，也可以说成是它的自由度是2，也正好对应了它是一个二维的流形。

　　流形具有在局部与欧式空间同胚的空间，也就是它在局部具有欧式空间的性质，能用欧式距离来进行距离计算。这就给降维带来了很大的启发，若低维流形嵌入到了高维空间，此时样本在高维空间的分布虽然复杂，但在局部上仍具有欧式空间的性质，因此可以在局部建立降维映射关系，然后再设法将局部映射关系推广到全局。而且当数据被降维到二维和三维时，就可以进行可视化，因此流形学习也可以被用于可视化。

2、等度量映射（Isomap）

　　首先介绍下MDS算法，MDS算法的核心思想：找到一个低维空间使得样本间的距离在高维空间和低维空间基本一致。所以MDS算法是利用样本间的相似性来保持降维后的输出结果与降维前一致（此种算法的计算两很大），然而对于高维空间直接计算样本之间的直线距离（欧式距离）是具有很大的误导性的。举个例子，计算地球上南极到北极之间的距离，可以直接计算这两点之间的距离，但是这种距离是毫无意义的（你总不能从南极打个洞到北极吧），因此引入了测地距离，测地距离才是两点之间的本真距离。具体如下如所示

　　技术分享图片

　　然而如何计算两点之间的测地距离呢，毕竟从南极到北极有很多条路径，不过我们要求的是从南极到北极之间的最短的测地距离。这时就可以利用流形在局部上与欧式空间同胚这个性质，对于每个点基于欧式距离找出其最近邻点，然后就能建立一个近邻连接图，于是计算两点之间的测地距离的问题，就转变成为计算近邻连接图上两点之间的最短路径问题（Dijkstra算法）。

　　那么什么是Isomap算法呢？其实就是MDS算法的变种，其思想和MDS一样，只不过在计算高维空间的距离时是采用测地距离的，而不是无法真实的表达两点之间的欧式距离。具体算法流程如下（来源：机器学习周志华版）

　　技术分享图片

　　Isomap算法是全局的，它要找到所有样本全局的最优解，当数据量很大时或者样本维度很高时，计算量非常大。因此更常用的算法是LLE（局部线性嵌入），LLE放弃所有样本全局最优的降维，只是通过保证局部最优来降维。

3、局部线性嵌入（LLE）

　　局部线性嵌入的思想：只是试图去保持领域内样本之间的关系。具体如下图所示，样本从高维空间映射到低维空间后，各个领域内的样本之间的线性关系不变。

　　技术分享图片

　　即样本点x_i 的坐标能通过它的领域样本x_j，x_l，x_k重构出来，而这里的权值参数在低维和高维空间是一致的。

　　技术分享图片

　　LLE算法可以分为两步：

　　第一步根据领域关系计算出所有的样本的领域重构系数w，也就是找出每一个样本和其领域内的样本之间的线性关系

　　技术分享图片

　　第二步就是根据领域重构系数不变，去求每个样本在低维空间的坐标

　　技术分享图片

　　利用M矩阵，可以将问题写成

　　技术分享图片

　　因此问题就成了对M矩阵进行特征分解，然后取最小的d‘个特征值对应的特征向量组成低维空间的坐标Z。LLE算法具体的流程如下（来源：机器学习周志华版）

　　技术分享图片

　　LLE算法总结：

　　主要优点：

　　1）可以学习任意维的局部线性的低维流形

　　2）算法归结为稀疏矩阵特征分解，计算复杂度相对较小，实现容易。

　　3）可以处理非线性的数据，能进行非线性降维

　　主要缺点：　　

　　1）算法所学习的流形只能是不闭合的，且样本集是稠密的

　　2）算法对最近邻样本数的选择敏感，不同的最近邻数对最后的降维结果有很大影响。

推荐阅读

text
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
get
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
php
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
future
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
php
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
ascii
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
php
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
php
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
get
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
get
Unity中简易广告牌着色器的实现

本文详细介绍了如何在Unity中实现一个简单的广告牌着色器，帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-12 14:50:43
get
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
php
Flutter中计算文本尺寸的方法

在Flutter开发中，有时需要计算文本的宽度和高度。本文介绍了一种利用TextPainter类实现这一功能的方法。 ... [详细]

蜡笔小新 2024-11-12 00:43:44
web
R语言中向量（Vector）数据类型的元素索引与访问：利用中括号[]和赋值操作符在向量末尾追加数据以扩展其长度

在R语言中，向量（Vector）数据类型的元素可以通过中括号 `[]` 进行索引和访问。此外，利用中括号和赋值操作符，可以在向量的末尾追加新数据，从而动态地扩展向量的长度。这种方法不仅简洁高效，还能灵活地管理向量中的数据。 ... [详细]

蜡笔小新 2024-11-10 06:24:16
web
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31

吴沫燃2502934477

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章