热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

线性代数应该这样讲(四)奇异值分解与主成分分析

在《线性代数这样讲(二)》(以下简称「二」)中,小夕详细讲解了特征值与特征向量的意义,并且简单描

在《线性代数这样讲(二)》(以下简称「二」)中,小夕详细讲解了特征值与特征向量的意义,并且简单描述了一下矩阵的特征值分解的意义和原理。本文便基于对这几个重要概念的理解来进一步讲解SVD分解。

 

回顾一下,在「二」中,小夕讲过一个方阵W可以分解为它的特征向量矩阵eVec与特征值矩阵eVal相乘的形式,即用 eVec * eVal * eVec-1 来近似原方阵W。

 

那么问题来啦,如果我们的矩阵不是方阵呢,比如是一个m*n(m≠n)的矩阵呢?可不可以也分解成特征值和特征向量的形式呢?

显然,严格的特征值和特征向量当然不可以啦,由于分解后,存在eVec的逆矩阵eVec-1,因此eVec一定是方阵,而eVec是方阵的话,eVec * eVal * eVec-1的结果也肯定是方阵啦,当然不能近似原矩阵。但是我们可以定义一个意义类似,但是数学上行得通的定义:

 

对于维度为m*n且m≠n的矩阵W,我们可以将其分解为U*∑*V的形式,其中U的维度为m*m,∑的维度为m*n,V的维度是n*n,这样让U依然代表着“特征向量”的意思,V也代表“特征向量”的意思,∑就代表“特征值”的意思,可以吗?

等等!在《线性代数这样讲(一)》中讲过矩阵乘法,那么在计算U*∑的时候,是拿U中的每一去乘以特征值矩阵,因此U中的每一就是一个特征向量(回顾一下,每个特征向量对应一个特征值。还不理解的童鞋用笔和纸体会一下),但是到了(U*∑)的结果去乘V的时候,是拿V的每一列去跟之前的结果相乘,因此显然V的每一行是一个特征向量,所以这里为了避免分解后在使用U和V时发生歧义,我们用U*∑*VT来描述分解的结果,这样U和V就都是一一个“特征向量”啦。

 

这里,U里的向量我们定义为左奇异向量,V里的向量我们定义为右奇异向量,它们的意义就暂且理解为跟特征向量差不多。显然,∑就可以理解为跟之前的特征值矩阵意义差不多啦,因此∑的对角线上的值就相当于之前的特征值,这里叫做奇异值,对角线之外的值也跟以前一样,全为0。这个分解过程就叫奇异值分解

 

好啦,定义好了,那么如何将一个m*n的矩阵分解成这三个奇异矩阵呢?

 

前方低能预警!下面这部分可看可不看,纯数学过程我们就不多care啦,不感兴趣的童鞋可以快速往下划~

对于m*n的矩阵W,其转置W­T当然就是n*m啦,所以WT*W就是n*n的方阵,然后利用「二」中提到的特征值分解将其分解出若干特征值及其特征向量,因此对于分解出的每个特征值\lambda_i及其对应的特征向量,都有:

 

 

这里的每个特征向量就是右奇异矩阵中的一个奇异向量,即右奇异向量。

 

然后我们对每个开根号,得到,这里得到的每个就是奇异值矩阵∑中的一个奇异值。

 

然后我们对于每个及其对应的,都令,这样得到的每个就是左奇异矩阵中的一个奇异向量,即左奇异向量。

 

Over。

 

那么奇异值分解得到的奇异值和左右奇异向量跟特征值与特征向量相比,除了意义相似,有没有什么不同呢?

 

这里很重要的一点性质就是,将奇异值从大到小排序后,大部分情况下,前几个奇异值(约前10%甚至前1%)的和就占据了全部奇异值之和的99%!

而在「二」中,我们讲过,特征值越接近0,就代表这个特征值对应的特征向量越没有意义(越没有存在感),当特征值为0时,直接表示可以删掉这个特征向量(这个坐标轴),删掉后不会给原矩阵(原映射)带来任何信息量损失。因此,奇异值分解的这个性质在非常多的机器学习场合下可以发挥重要的作用。

 

比如我们的机器学习任务中,由专家选取或者深度学习的前几层学习到了10000个特征,而这10000个特征完全有可能是高度冗余的,(比如某一维度x1与另一维度x2恒满足x1=2*x2,这时就完全可以删掉其中一个维度,因为一个维度的值完全可以由另一维度计算出来,因此删掉后不会损失任何信息),那么我们想要除掉其中的冗余特征,或者说我们仅仅想用100个特征去描述这10000个特征所描述的东西,怎么办呢?

 

用奇异值分解就会非常简单。假如我们有9000个样本,那么样本及其对应的特征就组成了一个9000*10000的矩阵X,那么我们用U*∑*VT去逼近X,并且将U限制为9000*100,∑为100*100,VT为100*10000(标准的、一定无信息损耗的奇异值分解是U为9000*9000,∑为9000*10000,VT为10000*10000),这时运用奇异值分解后,就得到了9000*100的左奇异矩阵,显然这就代表着用100维的新特征去重新描述这9000个样本。而右奇异矩阵就代表着如何将100维的新特征映射回10000维的旧特征。显然,奇异值矩阵中的每个奇异值就代表着每个新特征对于描述样本的重要性啦。

 

这样就成功的完成了降维的操作。

 

当然啦,实际中,我们往往不知道降到多少维是性价比最高的,因此,我们可以选择保留旧特征描述的99%的信息量。

这时,比如10000维的旧特征,通过前面所述的计算和排序奇异值,算出保留99%的信息量(即前n个奇异值之和除以总奇异值之和大于99%)时需要保留前多少个奇异值,比如算出来的值是前87个大奇异值,那么我们就可以将原来10000维的旧特征空间用仅有87维的新特征空间描述啦~而仅仅会丢失1%的信息量哦。

 

诶?我好想不小心把PCA给讲完了。。。没错,通过上面的方式将SVD应用于维度的压缩的方法,就是每个学机器学习的人一定听说过的主成分分析(PCA)

 

(走过路过不要错过~买SVD送PCA啦~还送美美的老板娘哦)



推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • mapreduce数据去重的实现方法
    本文介绍了利用mapreduce实现数据去重的方法,同时还介绍了人工智能AI领域中常用的框架和工具,包括Keras、PyTorch、MXNet、TensorFlow和PaddlePaddle,并提供了深度学习实战的代码下载链接。 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
author-avatar
路人不会编程
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有