LSA和SVD两种矩阵分解

作者：手机用户2602921555 | 来源：互联网 | 2023-09-01 21:37

谈谈SVD和LSA首先SVD和LSA是什么呢，SVD全称是singularvaluedecomposition，就是俗称的奇异值分解，SV

谈谈SVD和LSA

首先SVD和LSA是什么呢&＃xff0c;SVD全称是singular value decomposition&＃xff0c;就是俗称的奇异值分解&＃xff0c;SVD的用处有很多&＃xff0c;比如可以做PCA(主成分分析)&＃xff0c;做图形压缩&＃xff0c;做LSA&＃xff0c;那LSA是什么呢&＃xff0c;LSA全称Latent semantic analysis&＃xff0c;中文的意思是隐含语义分析&＃xff0c;LSA算是topic model的一种&＃xff0c;对于LSA的直观认识就是文章里有词语&＃xff0c;而词语是由不同的主题生成的&＃xff0c;比如一篇文章包含词语计算机&＃xff0c;另一篇文章包含词语电脑&＃xff0c;在一般的向量空间来看&＃xff0c;这两篇文章不相关&＃xff0c;但是在LSA看来&＃xff0c;这两个词属于同一个主题&＃xff0c;所以两篇文章也是相关的。

特征值特征向量

要谈到SVD&＃xff0c;特征值和特征向量是需要首先交代的。具体内容可以在wiki上看&＃xff0c;这里我做个简单的介绍。对于方阵M如果有

M∗v&＃61;λ∗v

v是个向量&＃xff0c;λ是个数&＃xff0c;那么我们称v是M的特征向量&＃xff0c;λ是M的特征值&＃xff0c;并且我们可以对M进行特征分解得到

M&＃61;Q∗Λ∗Q−1

其中Q是特征向量组成的矩阵&＃xff0c;Λ是对角阵&＃xff0c;对角线上的元素就是特征值。对于特征的几何理解就是矩阵M其实是一种线性变换&＃xff0c;而线性变换对于向量的影响有两种&＃xff0c;旋转和拉伸&＃xff0c;而特征向量就是在这种线性变换下方向保持不变的向量&＃xff0c;但是长度还是会作相应的拉伸&＃xff0c;特征值就是拉伸的程度。

从另一个角度说如果我们取特征值比较大的几项&＃xff0c;那么就是对原矩阵做了一种近似。

M≈Q1..k∗Λ1..k∗Q−11..k

这样我们就可以用更少的元素去近似的表示原矩阵&＃xff0c;但是特征分解的限制比较多&＃xff0c;比如要求矩阵必须是方阵

奇异值分解

wiki是个好东西&＃xff0c;你要想深入了解的话&＃xff0c;建议还是去看wiki。奇异值分解是将矩阵变成了这样的形式

M&＃61;U∗Σ∗VT

其中Σ依旧是对角阵&＃xff0c;而U和V是正交矩阵正交矩阵是说U∗UT&＃61;I。

我们还是先回到矩阵是线性变换这个思路上。

如果我们用M去作用空间里的一组基&＃xff0c;那么我们就会得到另一组基&＃xff0c;如上图那样。那么我们旋转一下最初的一组基。

这样我们经过M的变换由一组正交基变换到了另一组正交基上面。也是也就是下面这样。

也就是我们有

M∗v1&＃61;σ1∗u1

M∗v2&＃61;σ2∗u2

并且对于任意一个向量x&＃xff0c;我们有

x&＃61;v1∗(vT1∗x)&＃43;v2∗(vT2∗x)

于是我们可以得到

M∗x&＃61;M∗v1∗(vT1∗x)&＃43;M∗v2∗(vT2∗x)

M∗x&＃61;σ1∗u1∗(vT1∗x)&＃43;σ2∗u2∗(vT2∗x)

M&＃61;σ1∗u1∗vT1&＃43;σ2∗u2∗vT2

M&＃61;U∗Σ∗VT

恩&＃xff0c;我们得到了和特征值和特征向量相似的东西&＃xff0c;SVD分解出来的就是在M的线性变换下&＃xff0c;正交基变换仍是正交基&＃xff0c;而奇异值就是拉伸的程度。其实SVD和特征值和特征向量的关系还是很大的。

M∗MT&＃61;U∗Σ∗VT∗V∗ΣT∗UT

M∗MT&＃61;U∗Σ2∗UT

也就是说SVD求出的是M∗MT和MT∗M的特征向量。同样的得到这SVD分解这种形式后我们就可以利用他来对原数据进行降维操作。

这里我们分别将RBG矩阵进行SVD&＃xff0c;左上角的是原图&＃xff0c;其他的依次是取最大的100个&＃xff0c;50个&＃xff0c;20个&＃xff0c;10个&＃xff0c;5个奇异值做的近似图像。

# -*- coding: utf-8 -*-from scipy import linalg, dot from PIL import Imagedef main(num&＃61;5):im &＃61; Image.open(&＃39;ai.jpg&＃39;)pix &＃61; im.load()ma &＃61; [[], [], []]for x in xrange(im.size[0]):for i in xrange(3):ma[i].append([])for y in xrange(im.size[1]):for i in xrange(3):ma[i][-1].append(pix[x, y][i])for i in xrange(3):u, s, v &＃61; linalg.svd(ma[i])u &＃61; u[:, :num]v &＃61; v[:num, :]s &＃61; s[:num]ma[i] &＃61; dot(dot(u, linalg.diagsvd(s, num, num)), v)for x in xrange(im.size[0]):for y in xrange(im.size[1]):ret &＃61; []for i in xrange(3):tmp &＃61; int(ma[i][x][y])if tmp <0:tmp &＃61; 0if tmp > 255:tmp &＃61; 255ret.append(tmp)pix[x, y] &＃61; tuple(ret)im.show()im.save(&＃39;test.jpg&＃39;)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:main()

如果对矩阵先进行归一化&＃xff0c;再SVD就是PCA的形式了&＃xff0c;这种形式可以用方差最大化或者误差最小化来求得&＃xff0c;具体可以去看PCA相关的东西。所以和scturtle讨论了下直接SVD的意义&＃xff0c;但是最后也没得出什么结论。。。

隐含语义分析

终于讲到最后的隐含语义分析了&＃xff0c;首先我们构造文本和词语的矩阵&＃xff0c;也就是对于矩阵来说每一个向量表示一篇文章&＃xff0c;每个向量里就是单词的出现次数(更好的是每个是单词的tf/idf值&＃xff0c;tf/idf不在赘述&＃xff0c;具体可以看wiki)。那么SVD分解之后&＃xff0c;我们就得到了降维的矩阵&＃xff0c;就是下面这个样子

就是说原来我们有1000000篇文章&＃xff0c;总共有500000个单词&＃xff0c;我们保留最大的100个来做降维&＃xff0c;于是现在我们可以这样理解&＃xff0c;我们保留了100个主题&＃xff0c;其中U是文章对应的主题分布&＃xff0c;而V则是主题对应的词语的分布&＃xff0c;这样&＃xff0c;我们可以减少噪音&＃xff0c;并且这样计算文章间的相关性也更加合理&＃xff0c;并且可以把相关的单词聚合到一起。代码如下

# -*- coding: utf-8 -*-import os import re import heapq import codecs from math import log from scipy import linalgimport unigram_good_turing as segseg.init()def tfidf(docs):doclen &＃61; len(docs)&＃43;1.0for doc in docs:wordtotal &＃61; sum(doc.values())&＃43;0.0for word in doc:tf &＃61; doc[word]/wordtotalidf &＃61; log(doclen/(sum([word in tmp for tmp in docs])&＃43;1))doc[word] &＃61; tf*idfreturn docsdef solve(data):re_zh, re_other &＃61; re.compile(ur"([\u4E00-\u9FA5]&＃43;)"), re.compile(ur"[^a-zA-Z0-9&＃43;#\n]")blocks &＃61; re_zh.split(data)for item in blocks:if re_zh.match(item):for i in seg.solve(item):yield ielse:tmp &＃61; re_other.split(item)for x in tmp:if x !&＃61; &＃39;&＃39;:passdef show(dic, p):p &＃61; heapq.nlargest(10, enumerate(p), key&＃61;lambda x:x[1])print &＃39; &＃39;.join(map(lambda x:dic[x[0]], p))def main():names &＃61; os.listdir(&＃39;text&＃39;)dic &＃61; {}cnt &＃61; 0ma &＃61; []for name in names:data &＃61; codecs.open(&＃39;text/&＃39;&＃43;name, &＃39;r&＃39;, &＃39;utf-8&＃39;).read()doc &＃61; {}for word in solve(data):if not word in dic:dic[word] &＃61; cntcnt &＃43;&＃61; 1tmp &＃61; dic[word]if tmp not in doc:doc[tmp] &＃61; 0doc[tmp] &＃43;&＃61; 1ma.append(doc)ma &＃61; tfidf(ma)ret &＃61; []for item in ma:tmp &＃61; []for i in xrange(cnt):if i in item:tmp.append(item[i])else:tmp.append(0)ret.append(tmp)u, s, v &＃61; linalg.svd(ret)for i in xrange(10):show(dict(zip(dic.values(), dic.keys())), list(v[i]))if __name__ &＃61;&＃61; &＃39;__main__&＃39;:main()

推荐阅读

split
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
default
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
split
利用Python Paramiko库批量更新多台服务器的登录密码

本文介绍了如何使用Python的Paramiko库批量更新多台服务器的登录密码。通过示例代码展示了具体实现方法，确保了操作的高效性和安全性。Paramiko库提供了强大的SSH2协议支持，使得远程服务器管理变得更加便捷。此外，文章还详细说明了代码的各个部分，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:17:23
split
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
python
Python编程实现足球联赛赛程安排的策略与简易示例分析

每年，意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法，该方法基于蛇形环算法。具体而言，将所有球队排列成两列的环形结构，左侧球队对阵右侧球队，首支队伍固定不动，其余队伍按顺时针方向循环移动，从而确保每场比赛不重复。此算法不仅高效，而且易于实现，为赛程安排提供了可靠的解决方案。 ... [详细]

蜡笔小新 2024-11-07 17:41:40
split
JavaScript核心知识点与实用技巧汇总

本文总结了JavaScript的核心知识点和实用技巧，涵盖了变量声明、DOM操作、事件处理等重要方面。例如，通过`event.srcElement`获取触发事件的元素，并使用`alert`显示其HTML结构；利用`innerText`和`innerHTML`属性分别设置和获取文本内容及HTML内容。此外，还介绍了如何在表单中动态生成和操作``元素，以便更好地处理用户输入。这些技巧对于提升前端开发效率和代码质量具有重要意义。 ... [详细]

蜡笔小新 2024-11-06 20:14:58
default
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
default
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
split
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
require
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
uml
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
object
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
int
实验九：使用SharedPreferences存储简单数据

本实验旨在帮助学生理解和掌握使用SharedPreferences存储和读取简单数据的方法，包括程序参数和用户选项。 ... [详细]

蜡笔小新 2024-11-12 14:21:47
split
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
int
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29

手机用户2602921555

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章