LSA、PSLA、LDA和lda2vec进行主题建模

作者：手机用户2702936044 | 来源：互联网 | 2023-07-24 18:23

文章目录概述LSA代码实现PLSALDA代码实现深度学习中的LDA：lda2vec在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句

文章目录

概述
LSA
- 代码实现
PLSA
LDA
- 代码实现
深度学习中的 LDA&＃xff1a;lda2vec

在自然语言理解任务中&＃xff0c;我们可以通过一系列的层次来提取含义——从单词、句子、段落&＃xff0c;再到文档。在文档层面&＃xff0c;理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。
概述

所有主题模型都基于相同的基本假设&＃xff1a;

每个文档包含多个主题&＃xff1b;
每个主题包含多个单词。

换句话说&＃xff0c;主题模型围绕着以下观点构建&＃xff1a;实际上&＃xff0c;文档的语义由一些我们所忽视的隐变量或「潜」变量管理。因此&＃xff0c;主题建模的目标就是揭示这些潜在变量——也就是主题&＃xff0c;正是它们塑造了我们文档和语料库的含义。这篇博文将继续深入不同种类的主题模型&＃xff0c;试图建立起读者对不同主题模型如何揭示这些潜在主题的认知。

LSA

潜在语义分析&＃xff08;LSA&＃xff09;是主题建模的基础技术之一。其核心思想是把我们所拥有的文档-术语矩阵分解成相互独立的文档-主题矩阵和主题-术语矩阵。

第一步是生成文档-术语矩阵。如果在词汇表中给出 m 个文档和 n 个单词&＃xff0c;我们可以构造一个 m×n 的矩阵 A&＃xff0c;其中每行代表一个文档&＃xff0c;每列代表一个单词。在 LSA 的最简单版本中&＃xff0c;每一个条目可以简单地是第 j 个单词在第 i 个文档中出现次数的原始计数。然而&＃xff0c;在实际操作中&＃xff0c;原始计数的效果不是很好&＃xff0c;因为它们无法考虑文档中每个词的权重。例如&＃xff0c;比起「test」来说&＃xff0c;「nuclear」这个单词也许更能指出给定文章的主题。

因此&＃xff0c;LSA 模型通常用 tf-idf 得分代替文档-术语矩阵中的原始计数。tf-idf&＃xff0c;即词频-逆文本频率指数&＃xff0c;为文档 i 中的术语 j 分配了相应的权重&＃xff0c;如下所示&＃xff1a;
在这里插入图片描述
直观地说&＃xff0c;术语出现在文档中的频率越高&＃xff0c;则其权重越大&＃xff1b;同时&＃xff0c;术语在语料库中出现的频率越低&＃xff0c;其权重越大。

一旦拥有文档-术语矩阵 A&＃xff0c;我们就可以开始思考潜在主题。问题在于&＃xff1a;A 极有可能非常稀疏、噪声很大&＃xff0c;并且在很多维度上非常冗余。因此&＃xff0c;为了找出能够捕捉单词和文档关系的少数潜在主题&＃xff0c;我们希望能降低矩阵 A 的维度。

这种降维可以使用截断 SVD 来执行。SVD&＃xff0c;即奇异值分解&＃xff0c;是线性代数中的一种技术。该技术将任意矩阵 M 分解为三个独立矩阵的乘积&＃xff1a;M&＃61;USV&＃xff0c;其中 S 是矩阵 M 奇异值的对角矩阵。很大程度上&＃xff0c;截断 SVD 的降维方式是&＃xff1a;选择奇异值中最大的 t 个数&＃xff0c;且只保留矩阵 U 和 V 的前 t 列。在这种情况下&＃xff0c;t 是一个超参数&＃xff0c;我们可以根据想要查找的主题数量进行选择和调整。

直观来说&＃xff0c;截断 SVD 可以看作只保留我们变换空间中最重要的 t 维。
在这里插入图片描述
在这种情况下&＃xff0c;U∈ℝ^&＃xff08;m⨉t&＃xff09;是我们的文档-主题矩阵&＃xff0c;而 V∈ℝ^&＃xff08;n⨉t&＃xff09;则成为我们的术语-主题矩阵。在矩阵 U 和 V 中&＃xff0c;每一列对应于我们 t 个主题当中的一个。在 U 中&＃xff0c;行表示按主题表达的文档向量&＃xff1b;在 V 中&＃xff0c;行代表按主题表达的术语向量。

通过这些文档向量和术语向量&＃xff0c;现在我们可以轻松应用余弦相似度等度量来评估以下指标&＃xff1a;

不同文档的相似度
不同单词的相似度
术语&＃xff08;或「queries」&＃xff09;与文档的相似度&＃xff08;当我们想要检索与查询最相关的段落&＃xff0c;即进行信息检索时&＃xff0c;这一点将非常有用&＃xff09;

代码实现

from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.decomposition import TruncatedSVDfrom sklearn.pipeline import Pipelinedocuments &＃61; [ "doc1.txt", "doc2.txt", "doc3.txt"]# raw documents to tf-idf matrix:vectorizer &＃61; TfidfVectorizer(stop_words&＃61; &＃39;english&＃39;,use_idf&＃61;True,smooth_idf&＃61;True)# SVD to reduce dimensionality:svd_model &＃61; TruncatedSVD(n_components&＃61; 100, // num dimensionsalgorithm&＃61; &＃39;randomized&＃39;,n_iter&＃61; 10)# pipeline oftf-idf &＃43; SVD, fit to and applied to documents:svd_transformer &＃61; Pipeline([( &＃39;tfidf&＃39;, vectorizer),( &＃39;svd&＃39;, svd_model)])svd_matrix &＃61; svd_transformer.fit_transform(documents)# svd_matrix can later be used to compare documents, compare words, or compare queries withdocuments

LSA 方法快速且高效&＃xff0c;但它也有一些主要缺点&＃xff1a;

缺乏可解释的嵌入&＃xff08;我们并不知道主题是什么&＃xff0c;其成分可能积极或消极&＃xff0c;这一点是随机的&＃xff09;
需要大量的文件和词汇来获得准确的结果
表征效率低

PLSA

pLSA&＃xff0c;即概率潜在语义分析&＃xff0c;采取概率方法替代 SVD 以解决问题。其核心思想是找到一个潜在主题的概率模型&＃xff0c;该模型可以生成我们在文档-术语矩阵中观察到的数据。特别是&＃xff0c;我们需要一个模型 P(D,W)&＃xff0c;使得对于任何文档 d 和单词 w&＃xff0c;P(d,w) 能对应于文档-术语矩阵中的那个条目。

让我们回想主题模型的基本假设&＃xff1a;每个文档由多个主题组成&＃xff0c;每个主题由多个单词组成。pLSA 为这些假设增加了概率自旋&＃xff1a;

给定文档 d&＃xff0c;主题 z 以 P(z|d) 的概率出现在该文档中
给定主题 z&＃xff0c;单词 w 以 P(w|z) 的概率从主题 z 中提取出来

从形式上看&＃xff0c;一个给定的文档和单词同时出现的联合概率是&＃xff1a;

直观来说&＃xff0c;等式右边告诉我们理解某个文档的可能性有多大&＃xff1b;然后&＃xff0c;根据该文档主题的分布情况&＃xff0c;在该文档中找到某个单词的可能性有多大。

在这种情况下&＃xff0c;P(D)、P(Z|D)、和 P(W|Z) 是我们模型的参数。P(D) 可以直接由我们的语料库确定。P(Z|D) 和 P(W|Z) 利用了多项式分布建模&＃xff0c;并且可以使用期望最大化算法&＃xff08;EM&＃xff09;进行训练。EM 无需进行算法的完整数学处理&＃xff0c;而是一种基于未观测潜变量&＃xff08;此处指主题&＃xff09;的模型找到最可能的参数估值的方法。

有趣的是&＃xff0c;P(D,W) 可以利用不同的的 3 个参数等效地参数化&＃xff1a;

可以通过将模型看作一个生成过程来理解这种等价性。在第一个参数化过程中&＃xff0c;我们从概率为 P(d) 的文档开始&＃xff0c;然后用 P(z|d) 生成主题&＃xff0c;最后用 P(w|z) 生成单词。而在上述这个参数化过程中&＃xff0c;我们从 P(z) 开始&＃xff0c;再用 P(d|z) 和 P(w|z) 单独生成文档。
在这里插入图片描述
这个新参数化方法非常有趣&＃xff0c;因为我们可以发现 pLSA 模型和 LSA 模型之间存在一个直接的平行对应关系&＃xff1a;

其中&＃xff0c;主题 P(Z) 的概率对应于奇异主题概率的对角矩阵&＃xff0c;给定主题 P(D|Z) 的文档概率对应于文档-主题矩阵 U&＃xff0c;给定主题 P(W|Z) 的单词概率对应于术语-主题矩阵 V。

那么&＃xff0c;这说明了什么&＃xff1f;尽管 pLSA 看起来与 LSA 差异很大、且处理问题的方法完全不同&＃xff0c;但实际上 pLSA 只是在 LSA 的基础上添加了对主题和词汇的概率处理罢了。pLSA 是一个更加灵活的模型&＃xff0c;但仍然存在一些问题&＃xff0c;尤其表现为&＃xff1a;

因为我们没有参数来给 P(D) 建模&＃xff0c;所以不知道如何为新文档分配概率
pLSA 的参数数量随着我们拥有的文档数线性增长&＃xff0c;因此容易出现过度拟合问题

我们将不会考虑任何 pLSA 的代码&＃xff0c;因为很少会单独使用 pLSA。一般来说&＃xff0c;当人们在寻找超出 LSA 基准性能的主题模型时&＃xff0c;他们会转而使用 LDA 模型。LDA 是最常见的主题模型&＃xff0c;它在 pLSA 的基础上进行了扩展&＃xff0c;从而解决这些问题。

LDA

LDA 即潜在狄利克雷分布&＃xff0c;是 pLSA 的贝叶斯版本。它使用狄利克雷先验来处理文档-主题和单词-主题分布&＃xff0c;从而有助于更好地泛化。

我不打算深入讲解狄利克雷分布&＃xff0c;不过&＃xff0c;我们可以对其做一个简短的概述&＃xff1a;即&＃xff0c;将狄利克雷视为「分布的分布」。本质上&＃xff0c;它回答了这样一个问题&＃xff1a;「给定某种分布&＃xff0c;我看到的实际概率分布可能是什么样子&＃xff1f;」

考虑比较主题混合概率分布的相关例子。假设我们正在查看的语料库有着来自 3 个完全不同主题领域的文档。如果我们想对其进行建模&＃xff0c;我们想要的分布类型将有着这样的特征&＃xff1a;它在其中一个主题上有着极高的权重&＃xff0c;而在其他的主题上权重不大。如果我们有 3 个主题&＃xff0c;那么我们看到的一些具体概率分布可能会是&＃xff1a;

混合 X&＃xff1a;90% 主题 A&＃xff0c;5% 主题 B&＃xff0c;5% 主题 C
混合 Y&＃xff1a;5% 主题 A&＃xff0c;90% 主题 B&＃xff0c;5% 主题 C
混合 Z&＃xff1a;5% 主题 A&＃xff0c;5% 主题 B&＃xff0c;90% 主题 C

如果从这个狄利克雷分布中绘制一个随机概率分布&＃xff0c;并对单个主题上的较大权重进行参数化&＃xff0c;我们可能会得到一个与混合 X、Y 或 Z 非常相似的分布。我们不太可能会抽样得到这样一个分布&＃xff1a;33&＃xff05;的主题 A&＃xff0c;33&＃xff05;的主题 B 和 33&＃xff05;的主题 C。
本质上&＃xff0c;这就是狄利克雷分布所提供的&＃xff1a;一种特定类型的抽样概率分布法。我们可以回顾一下 pLSA 的模型&＃xff1a;
在这里插入图片描述
在 pLSA 中&＃xff0c;我们对文档进行抽样&＃xff0c;然后根据该文档抽样主题&＃xff0c;再根据该主题抽样一个单词。以下是 LDA 的模型&＃xff1a;

根据狄利克雷分布 Dir(α)&＃xff0c;我们绘制一个随机样本来表示特定文档的主题分布或主题混合。这个主题分布记为θ。我们可以基于分布从θ选择一个特定的主题 Z。

接下来&＃xff0c;从另一个狄利克雷分布 Dir(?)&＃xff0c;我们选择一个随机样本来表示主题 Z 的单词分布。这个单词分布记为φ。从φ中&＃xff0c;我们选择单词 w。

从形式上看&＃xff0c;从文档生成每个单词的过程如下&＃xff08;注意&＃xff0c;该算法使用 c 而不是 z 来表示主题&＃xff09;&＃xff1a;

在这里插入图片描述
通常而言&＃xff0c;LDA 比 pLSA 效果更好&＃xff0c;因为它可以轻而易举地泛化到新文档中去。在 pLSA 中&＃xff0c;文档概率是数据集中的一个固定点。如果没有看到那个文件&＃xff0c;我们就没有那个数据点。然而&＃xff0c;在 LDA 中&＃xff0c;数据集作为训练数据用于文档-主题分布的狄利克雷分布。即使没有看到某个文件&＃xff0c;我们可以很容易地从狄利克雷分布中抽样得来&＃xff0c;并继续接下来的操作.

代码实现

LDA 无疑是最受欢迎&＃xff08;且通常来说是最有效的&＃xff09;主题建模技术。它在 gensim 当中可以方便地使用&＃xff1a;

from gensim.corpora.Dictionary import load_from_text, doc2bowfrom gensim.corpora impor tMmCorpusfrom gensim.models.ldamodel import LdaModeldocument&＃61; "This is some document..."# load id->word mapping (the dictionary)id2word &＃61; load_from_text( &＃39;wiki_en_wordids.txt&＃39;)# load corpus iteratormm &＃61; MmCorpus( &＃39;wiki_en_tfidf.mm&＃39;)# extract 100LDA topics, updating once every 10, 000lda &＃61; LdaModel(corpus&＃61;mm, id2word&＃61;id2word, num_topics&＃61; 100, update_every&＃61; 1, chunksize&＃61; 10000, passes&＃61; 1)# use LDA model: transform newdoc to bag- of-words, then apply ldadoc_bow &＃61; doc2bow( document.split())doc_lda &＃61; lda[doc_bow]# doc_lda is vector oflength num_topics representing weighted presence ofeach topic inthe doc

通过使用 LDA&＃xff0c;我们可以从文档语料库中提取人类可解释的主题&＃xff0c;其中每个主题都以与之关联度最高的词语作为特征。例如&＃xff0c;主题 2 可以用诸如「石油、天然气、钻井、管道、楔石、能量」等术语来表示。此外&＃xff0c;在给定一个新文档的条件下&＃xff0c;我们可以获得表示其主题混合的向量&＃xff0c;例如&＃xff0c;5&＃xff05; 的主题 1&＃xff0c;70&＃xff05; 的主题 2&＃xff0c;10&＃xff05;的主题 3 等。通常来说&＃xff0c;这些向量对下游应用非常有用。

深度学习中的 LDA&＃xff1a;lda2vec

那么&＃xff0c;这些主题模型会将哪些因素纳入更复杂的自然语言处理问题中呢&＃xff1f;

在文章的开头&＃xff0c;我们谈到能够从每个级别的文本&＃xff08;单词、段落、文档&＃xff09;中提取其含义是多么重要。在文档层面&＃xff0c;我们现在知道如何将文本表示为主题的混合。在单词级别上&＃xff0c;我们通常使用诸如 word2vec 之类的东西来获取其向量表征。lda2vec 是 word2vec 和 LDA 的扩展&＃xff0c;它共同学习单词、文档和主题向量。

以下是其工作原理。

lda2vec 专门在 word2vec 的 skip-gram 模型基础上建模&＃xff0c;以生成单词向量。skip-gram 和 word2vec 本质上就是一个神经网络&＃xff0c;通过利用输入单词预测周围上下文词语的方法来学习词嵌入。

在这里插入图片描述
通过使用 lda2vec&＃xff0c;我们不直接用单词向量来预测上下文单词&＃xff0c;而是使用上下文向量来进行预测。该上下文向量被创建为两个其它向量的总和&＃xff1a;单词向量和文档向量。

单词向量由前面讨论过的 skip-gram word2vec 模型生成。而文档向量更有趣&＃xff0c;它实际上是下列两个组件的加权组合&＃xff1a;

文档权重向量&＃xff0c;表示文档中每个主题的「权重」&＃xff08;稍后将转换为百分比&＃xff09;
主题矩阵&＃xff0c;表示每个主题及其相应向量嵌入
文档向量和单词向量协同起来&＃xff0c;为文档中的每个单词生成「上下文」向量。lda2vec 的强大之处在于&＃xff0c;它不仅能学习单词的词嵌入&＃xff08;和上下文向量嵌入&＃xff09;&＃xff0c;还同时学习主题表征和文档表征。

代码地址

推荐阅读

算法
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
join
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
range
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
range
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
cmd
SQL Server 连接故障总结与解决方案分析

在使用 SQL Server 时，连接故障是用户最常见的问题之一。通常，连接 SQL Server 的方法有两种：一种是通过 SQL Server 自带的客户端工具，例如 SQL Server Management Studio；另一种是通过第三方应用程序或开发工具进行连接。本文将详细分析导致连接故障的常见原因，并提供相应的解决策略，帮助用户有效排除连接问题。 ... [详细]

蜡笔小新 2024-11-07 08:30:13
replace
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
range
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
install
BERT模型的应用与实践

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-03 13:20:53
rsa
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
client
深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用

深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用 ... [详细]

蜡笔小新 2024-11-02 18:57:12
substring
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
substring
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
range
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
range
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
range
双关语2 | 无法在运行时动态添加播放器子对象以转换数组类型 —— 我的临时解决方法在CameraControl.cs中

在处理多个玩家的相机控制时，我遇到了一个挑战，即无法在运行时动态添加播放器子对象以转换数组类型。为了解决这个问题，我在 `CameraControl.cs` 脚本中采取了临时措施。该脚本负责根据玩家的数量动态调整相机的缩放范围，确保所有玩家都能被相机捕捉到。 ... [详细]

蜡笔小新 2024-11-02 10:54:04

手机用户2702936044

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章