当前位置: 开发笔记 > 编程语言 > 正文

【机器学习之LDA主题模型】

作者：mgmonster | 来源：互联网 | 2023-07-27 12:04

文章目录前言一、LDA主题模型是什么？1.LDA主题模型原理2.LDA主题模型推演过程三、问题总结1.怎么确定LDA的标题个数？四、拔高亮点1.如何用主题模型解决推荐系统中的冷启动

文章目录

前言
一、LDA主题模型是什么？
- 1.LDA主题模型原理
- 2.LDA主题模型推演过程
三、问题总结
- 1.怎么确定LDA的标题个数？
四、拔高亮点
- 1. 如何用主题模型解决推荐系统中的冷启动问题?
- 2.如何解决系统冷启动问题呢？
总结

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习LDA主题模型的基础内容。

一、LDA主题模型是什么？

1.LDA主题模型原理

其实说到LDA能想到的有两个含义，
一种是线性判别分析（Linear Discriminant Analysis），
一种说的是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。
现在讨论的是主题模型这个东西，它通俗点说吧，就是可以将一篇文中的主题以概率分布的形式来给出，从而通过去分析一些文档抽取出来它们的主题（分布）以后，就可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋子模型，也就是说一篇文档是由一组词构成，词与词之间没有先后顺序的关系。除此之外，一篇文章它可以包含多个主题，文章中每一个词都由是其中的一个主题生成。
我们其实很简单就可以想到我们是如何生成的文章？就是给几个主题，然后按一定的概率去选择主题，以一定的概率选择这个主题所包含的词汇，最终组合成一篇文章。LDA就是反过来的，给它一篇文章，去推断该文章的主题分布是什么。

2.LDA主题模型推演过程

我们先从一个类似LDA的模型开始，它就是PLSA模型，它类型属于有向边概率图模型。比如说我有一批数据，有部分是垃圾邮件，有部分是正常邮件，来个新数据，我怎么判定它是不是垃圾邮件？我们首先需要建立词汇表（使用现有的单子字典或者将邮件里的单词统计下得到字典），然后随机一个矩阵，经过训练后让这个矩阵去表示那个词，为啥不用onehot呢？因为比较稀疏，很容易梯度爆炸。然后套到贝叶斯公式里: P(C|X) = P©*P(X|C) / P(X)，会有个问题，它没有办法解决一词多意或者多词一意的问题，会导致我们计算文本之间相似度时候的不准确性。我们找到个解决办法就是为每一篇文档加上一个主题。其实它核心的过程就是选定文章生成主题，确定主题生成词。在这个过程里，我们其实并没有关注词和词之间的出现顺序，所以PLSA是一种词袋子方法。它主要应用于信息检索，过滤，自然语言处理等领域，考虑到词分布和主题分布，使用EM最大期望算法去学习参数。

然后我们将PLSA模型加上一个贝叶斯框架就是我们的LDA主题模型了，换句话说LDA就是PLSA的贝叶斯版本，朴素贝叶斯的文本分类问题里的两个基础条件是：①条件独立；②每个特征的重要性都是一样的。

LDA在选主题和选词两个参数都弄成随机的，而且加入了一个dirichlet先验随机确定；但是PLSA中主题分布和词分布是唯一确定的，用EM极大似然估计算法去推断两未知的固定参数，这也是它俩之间最大的区别。
《【机器学习之LDA主题模型】》

三、问题总结

1.怎么确定LDA的标题个数？

基于经验进行主观的判断、不断地调试、操作性强、最为常用；
基于困惑度（主要是比较两个模型之间的好坏）；
使用Log-边际似然函数的方法，也比较常用；
计算主题向量之间的余弦距离，KL距离等

四、拔高亮点

1. 如何用主题模型解决推荐系统中的冷启动问题?

推荐系统中的冷启动问题就是指在没有大量用户数据的情况下如何给用户进行个性化推荐，目的是最优化点击率、转化率或用户的体验（用户停留时间、留存率等）。冷启动问题一般分为用户冷启动、物品冷启动和系统冷启动三大类。解决冷启动问题的方法一般是基于内容的推荐。从三个角度进行分析：

对用户冷启动来说，我们希望根据用户的注册信息（如：年龄、性别、爱好等）、搜索关键词或者合法站外得到的其他信息（例如用户使用Facebook账号登录，并得到授权，可以得到Facebook中的朋友关系和评论内容）来推测用户的兴趣主题。得到用户的兴趣主题之后，我们就可以找到与该用户兴趣主题相同的其他用户，通过他们的历史行为来预测用户感兴趣的电影是什么。
对物品冷启动来说，我们也可以根据电影的导演、演员、类别、关键词等信息推测该电影所属于的主题，然后基于主题向量找到相似的电影，并将新电影推荐给以往喜欢看这些相似电影的用户。可以使用主题模型（PLSA、LDA等）得到用户和电影的主题。
对用户冷启动来说，我们把每个用户看作主题模型中的一篇文章，用户对应的特征作为文档中的单词，这样每个用户可以表示成一种词袋子特征的形式。通过主题模型去学习之后，经常共同出现的特征将会对应同一个主题，同时每个用户也会相应地得到一个主题分布。每个电影的主题分布也可以用类似的方法去得到。

2.如何解决系统冷启动问题呢？

首先可以得到每个用户和电影对应的主题向量，除此之外，还需要知道用户主题和电影主题之间的偏好程度，也就是哪些主题的用户可能喜欢哪些主题的电影。当系统中没有任何数据的时侯，我们需要一些先验知识来指定，并且由于主题的数目通常比较小，随着系统的上线，收集到少量的数据之后我们就可以对主题之间的偏好程度得到一个比较准确的估计了。

总结

以上就是今天要讲的内容，本文仅仅简单介绍了LDA主题模型的使用

推荐阅读

facebook
当人工智能（AI）撞上供应链

了解供应链简单来说，供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络，来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]

蜡笔小新 2024-10-11 18:25:31
facebook
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
facebook
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
facebook
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
facebook
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
char
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
char
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
char
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
jar
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
jar
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
jar
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
jar
TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得

TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]

蜡笔小新 2024-11-04 12:55:23
jar
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
数组
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
数组
初级开发人员应探索的10项（免费）数据结构和算法课程

算法和数据结构是计算机科学中最基础和最重要的两个主题，在软件开发中无处不在。我坚信，对这两个主题的充分了解对于成为一名更好的程序员也很关键， ... [详细]

蜡笔小新 2024-10-18 21:11:44

mgmonster

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章