深入浅出解读奇异值分解，助你轻松掌握核心概念

作者：mobiledu2502912677 | 来源：互联网 | 2024-11-03 15:12

一文让你通俗理解奇异值分解觉得有用的话,欢迎一起讨论相互学习~ 原文来源七月在线&＃xff0c;本文仅做学术分享&＃xff0c;如有侵权请联系后台删除特征值和奇异值在大部分人的印象中&＃xff0c

一文让你通俗理解奇异值分解

觉得有用的话,欢迎一起讨论相互学习~

原文来源七月在线&＃xff0c;本文仅做学术分享&＃xff0c;如有侵权请联系后台删除

特征值和奇异值在大部分人的印象中&＃xff0c;往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面&＃xff0c;也很少讲任何跟特征值与奇异值有关的应用背景。

奇异值分解是一个有着很明显的物理意义的一种方法&＃xff0c;它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示&＃xff0c;这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样&＃xff0c;给别人描述说这个人长得浓眉大眼&＃xff0c;方脸&＃xff0c;络腮胡&＃xff0c;而且带个黑框的眼镜&＃xff0c;这样寥寥的几个特征&＃xff0c;就让别人脑海里面就有一个较为清楚的认识&＃xff0c;实际上&＃xff0c;人脸上的特征是有着无数种的&＃xff0c;之所以能这么描述&＃xff0c;是因为人天生就有着非常好的抽取重要特征的能力&＃xff0c;让机器学会抽取重要的特征&＃xff0c;SVD是一个重要的方法。

在机器学习领域&＃xff0c;有相当多的应用与奇异值都可以扯上关系&＃xff0c;比如做feature reduction的PCA&＃xff0c;做数据压缩&＃xff08;以图像压缩为代表&＃xff09;的算法&＃xff0c;还有做搜索引擎语义层次检索的LSI&＃xff08;Latent Semantic Indexing&＃xff09;

一、特征值与奇异值

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系&＃xff0c;接下来会谈到特征值分解和奇异值分解的目的都是一样&＃xff0c;就是提取出一个矩阵最重要的特征。先谈特征值分解。

1.1 特征值

如果说一个向量v是方阵A的特征向量&＃xff0c;将一定可以表示成下面的形式&＃xff1a;

这时候λ就被称为特征向量v对应的特征值&＃xff0c;一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式&＃xff1a;

其中Q是这个矩阵A的特征向量组成的矩阵&＃xff0c;Σ是一个对角阵&＃xff0c;每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。

首先&＃xff0c;要明确的是&＃xff0c;一个矩阵其实就是一个线性变换&＃xff0c;因为一个矩阵乘以一个向量后得到的向量&＃xff0c;其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵&＃xff1a;

它其实对应的线性变换是下面的形式&＃xff1a;

因为这个矩阵M乘以一个向量(x,y)的结果是&＃xff1a;

上面的矩阵是对称的&＃xff0c;所以这个变换是一个对x&＃xff0c;y轴的方向一个拉伸变换&＃xff08;每一个对角线上的元素将会对一个维度进行拉伸变换&＃xff0c;当值>1时&＃xff0c;是拉长&＃xff0c;当值<1时时缩短&＃xff09;&＃xff0c;当矩阵不是对称的时候&＃xff0c;假如说矩阵是下面的样子&＃xff1a;

它所描述的变换是下面的样子&＃xff1a;

这其实是在平面上对一个轴进行的拉伸变换&＃xff08;如蓝色的箭头所示&＃xff09;&＃xff0c;在图中&＃xff0c;蓝色的箭头是一个最主要的变化方向&＃xff08;变化方向可能有不止一个&＃xff09;&＃xff0c;如果我们想要描述好一个变换&＃xff0c;那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子&＃xff0c;分解得到的Σ矩阵是一个对角阵&＃xff0c;里面的特征值是由大到小排列的&＃xff0c;这些特征值所对应的特征向量就是描述这个矩阵变化方向&＃xff08;从主要的变化到次要的变化排列&＃xff09;。

考虑更一般的非对称矩阵

很遗憾&＃xff0c;此时我们再也找不到一组网格&＃xff0c;使得矩阵作用在该网格上之后只有拉伸变换&＃xff08;找不到背后的数学原因是对一般非对称矩阵无法保证在实数域上可对角化&＃xff0c;不明白也不要在意&＃xff09;。

我们退而求其次&＃xff0c;找一组网格&＃xff0c;使得矩阵作用在该网格上之后允许有拉伸变换和旋转变换&＃xff0c;但要保证变换后的网格依旧互相垂直&＃xff0c;这是可以做到的&＃xff0c;如下图所示。

简言之&＃xff0c;当矩阵是高维的情况下&＃xff0c;那么这个矩阵就是高维空间下的一个线性变换&＃xff0c;这个变换也同样有很多的变换方向&＃xff0c;我们通过特征值分解得到的前N个特征向量&＃xff0c;那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向&＃xff0c;就可以近似这个矩阵&＃xff08;变换&＃xff09;。

也就是之前说的&＃xff1a;提取这个矩阵最重要的特征。总结一下&＃xff0c;特征值分解可以得到特征值与特征向量&＃xff0c;特征值表示的是这个特征到底有多重要&＃xff0c;而特征向量表示这个特征是什么&＃xff0c;可以将每一个特征向量理解为一个线性的子空间&＃xff0c;我们可以利用这些线性的子空间干很多的事情。不过&＃xff0c;特征值分解也有很多的局限&＃xff0c;比如说变换的矩阵必须是方阵。

下面我们就可以自然过渡到奇异值分解的引入。

1.2 奇异值

下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法&＃xff0c;但是它只是对方阵而言的&＃xff0c;在现实的世界中&＃xff0c;我们看到的大部分矩阵都不是方阵&＃xff0c;比如说有N个学生&＃xff0c;每个学生有M科成绩&＃xff0c;这样形成的一个N * M的矩阵就不可能是方阵&＃xff0c;我们怎样才能描述这样普通的矩阵呢的重要特征呢&＃xff1f;奇异值分解可以用来干这个事情&＃xff0c;奇异值分解是一个能适用于任意的矩阵的一种分解的方法&＃xff1a;

假设A是一个N * M的矩阵&＃xff0c;那么得到的U是一个N * N的方阵&＃xff08;里面的向量是正交的&＃xff0c;U里面的向量称为左奇异向量&＃xff09;&＃xff0c;Σ是一个N * M的矩阵&＃xff08;除了对角线的元素都是0&＃xff0c;对角线上的元素称为奇异值&＃xff09;&＃xff0c;V’(V的转置)是一个N * N的矩阵&＃xff0c;里面的向量也是正交的&＃xff0c;V里面的向量称为右奇异向量&＃xff09;&＃xff0c;从图片来反映几个相乘的矩阵的大小可得下面的图片

那么奇异值和特征值是怎么对应起来的呢&＃xff1f;首先&＃xff0c;我们将一个矩阵A的转置 * A&＃xff0c;将会得到一个方阵&＃xff0c;我们用这个方阵求特征值可以得到&＃xff1a;

这里得到的v&＃xff0c;就是我们上面的右奇异向量。此外我们还可以得到&＃xff1a;

这里的σ就是上面说的奇异值&＃xff0c;u就是上面说的左奇异向量。奇异值σ跟特征值类似&＃xff0c;在矩阵Σ中也是从大到小排列&＃xff0c;而且σ的减少特别的快&＃xff0c;在很多情况下&＃xff0c;前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说&＃xff0c;我们也可以用前r大的奇异值来近似描述矩阵&＃xff0c;这里定义一下部分奇异值分解&＃xff1a;

r是一个远小于m、n的数&＃xff0c;这样矩阵的乘法看起来像是下面的样子&＃xff1a;

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵&＃xff0c;在这儿&＃xff0c;r越接近于n&＃xff0c;则相乘的结果越接近于A。而这三个矩阵的面积之和&＃xff08;在存储观点来说&＃xff0c;矩阵面积越小&＃xff0c;存储量就越小&＃xff09;要远远小于原始的矩阵A&＃xff0c;我们如果想要压缩空间来表示原矩阵A&＃xff0c;我们存下这里的三个矩阵&＃xff1a;U、Σ、V就好了。

说句大白话&＃xff0c;称作「奇异值」可能无法顾名思义迅速理解其本质&＃xff0c;那咱们换个说法&＃xff0c;称作「主特征值」&＃xff0c;你可能就迅速了然了。

而奇异值分解的几何含义为&＃xff1a;对于任何的一个矩阵&＃xff0c;我们要找到一组两两正交单位向量序列&＃xff0c;使得矩阵作用在此向量序列上后得到新的向量序列保持两两正交。

继续拿1.1节的例子进一步阐述&＃xff0c;奇异值的几何含义为&＃xff1a;这组变换后的新的向量序列的长度。

奇异值的计算是一个难题&＃xff0c;是一个O(N^3)的算法。在单机的情况下当然是没问题的&＃xff0c;matlab在一秒钟内就可以算出1000 * 1000的矩阵的所有奇异值&＃xff0c;但是当矩阵的规模增长的时候&＃xff0c;计算的复杂度呈3次方增长&＃xff0c;就需要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候&＃xff0c;说起Google实现了SVD的并行化算法&＃xff0c;说这是对人类的一个贡献&＃xff0c;但是也没有给出具体的计算规模&＃xff0c;也没有给出太多有价值的信息。

其实SVD还是可以用并行的方式去实现的&＃xff0c;在解大规模的矩阵的时候&＃xff0c;一般使用迭代的方法&＃xff0c;当矩阵的规模很大&＃xff08;比如说上亿&＃xff09;的时候&＃xff0c;迭代的次数也可能会上亿次&＃xff0c;如果使用Map-Reduce框架去解&＃xff0c;则每次Map-Reduce完成的时候&＃xff0c;都会涉及到写文件、读文件的操作。个人猜测Google云计算体系中除了Map-Reduce以外应该还有类似于MPI的计算模型&＃xff0c;也就是节点之间是保持通信&＃xff0c;数据是常驻在内存中的&＃xff0c;这种计算模型比Map-Reduce在解决迭代次数非常多的时候&＃xff0c;要快了很多倍。

Lanczos迭代就是一种解对称方阵部分特征值的方法&＃xff08;之前谈到了&＃xff0c;解A’* A得到的对称方阵的特征值就是解A的右奇异向量&＃xff09;&＃xff0c;是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看&＃xff0c;Google应该是用这种方法去做的奇异值分解的。请见Wikipedia上面的一些引用的论文&＃xff0c;如果理解了那些论文&＃xff0c;也“几乎”可以做出一个SVD了。

二、奇异值的直观应用

2.1 女神图片压缩

下面&＃xff0c;咱们从女神上野树里&＃xff08;Ueno Juri&＃xff09;的一张像素为高度450*宽度333的照片&＃xff0c;来直观理解奇异值在物理上到底代表什么意义&＃xff08;请屏幕前的痴汉暂停舔屏&＃xff09;。

我们都知道&＃xff0c;图片实际上对应着一个矩阵&＃xff0c;矩阵的大小就是像素大小&＃xff0c;比如这张图对应的矩阵阶数就是450*333&＃xff0c;矩阵上每个元素的数值对应着像素值。我们记这个像素矩阵为A 现在我们对矩阵A进行奇异值分解。直观上&＃xff0c;奇异值分解将矩阵分解成若干个秩一矩阵之和&＃xff0c;用公式表示就是&＃xff1a;

如果不满足的话重新排列顺序即可&＃xff0c;这无非是编号顺序的问题。既然奇异值有从大到小排列的顺序&＃xff0c;我们自然要问&＃xff0c;如果只保留大的奇异值&＃xff0c;舍去较小的奇异值&＃xff0c;这样(1)式里的等式自然不再成立&＃xff0c;那会得到怎样的矩阵——也就是图像&＃xff1f;

结果就是完全看不清是啥……我们试着多增加几项进来&＃xff1a;

再作图

隐约可以辨别这是短发伽椰子的脸……但还是很模糊&＃xff0c;毕竟我们只取了5个奇异值而已。下面我们取20个奇异值试试&＃xff0c;也就是(1)式等式右边取前20项构成

虽然还有些马赛克般的模糊&＃xff0c;但我们总算能辨别出这是Juri酱的脸。当我们取到(1)式等式右边前50项时&＃xff1a;

奇异值往往对应着矩阵中隐含的重要信息&＃xff0c;且重要性和奇异值大小正相关。每个矩阵A都可以表示为一系列秩为1的“小矩阵”之和&＃xff0c;而奇异值则衡量了这些“小矩阵”对于A的权重。

2.2 图像去噪

在图像处理领域&＃xff0c;奇异值不仅可以应用在数据压缩上&＃xff0c;还可以对图像去噪。如果一副图像包含噪声&＃xff0c;我们有理由相信那些较小的奇异值就是由于噪声引起的。当我们强行令这些较小的奇异值为0时&＃xff0c;就可以去除图片中的噪声。如下是一张25*15的图像

但往往我们只能得到如下带有噪声的图像&＃xff08;和无噪声图像相比&＃xff0c;下图的部分白格子中带有灰色&＃xff09;&＃xff1a;

通过奇异值分解&＃xff0c;我们发现矩阵的奇异值从大到小分别为&＃xff1a;14.15&＃xff0c;4.67&＃xff0c;3.00&＃xff0c;0.21&＃xff0c;……&＃xff0c;0.05。除了前3个奇异值较大以外&＃xff0c;其余奇异值相比之下都很小。强行令这些小奇异值为0&＃xff0c;然后只用前3个奇异值构造新的矩阵&＃xff0c;得到

可以明显看出噪声减少了&＃xff08;白格子上灰白相间的图案减少了&＃xff09;。奇异值分解还广泛的用于主成分分析&＃xff08;Principle Component Analysis&＃xff0c;简称PCA&＃xff09;和推荐系统&＃xff08;如Netflex的电影推荐系统&＃xff09;等。在这些应用领域&＃xff0c;奇异值也有相应的意义。

参考文献

1 https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

2 https://www.zhihu.com/question/22237507 3 We Recommend a Singular Value Decomposition&＃xff08;Feature Column from the AMS&＃xff09;

————

编辑 ∑Pluto

来源&＃xff1a;七月算法
acc&scene&＃61;21#wechat_redirect)

推荐阅读

jsp
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
uri
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
uri
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
jsp
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
nodejs
PHP Eloquent ORM 中的关联查询扩展

本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询，并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率，还简化了代码逻辑。 ... [详细]

蜡笔小新 2024-12-25 18:14:14
int
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
int
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
jsp
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
sum
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
int
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
input
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
input
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
sum
POJ 1691 矩形涂色问题 (DFS/状态压缩DP)

本题通过将每个矩形视为一个节点，根据其相对位置构建拓扑图，并利用深度优先搜索（DFS）或状态压缩动态规划（DP）求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ... [详细]

蜡笔小新 2024-12-25 18:27:21
sum
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32

mobiledu2502912677

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章