统计自然语言处理基础学习笔记(6)——马尔可夫模型

作者：伤心脑残猪_940 | 来源：互联网 | 2023-07-28 09:30

前面已经学习完词法，现在就可以学习语法了。语法学习中比较常用的是马尔可夫模型，然后进行词性标注，接着采用概率上下文无关文法学习人们说话的方

前面已经学习完词法&＃xff0c;现在就可以学习语法了。语法学习中比较常用的是马尔可夫模型&＃xff0c;然后进行词性标注&＃xff0c;接着采用概率上下文无关文法学习人们说话的方式存在的一些结构和规则&＃xff0c;最后采用概率句法分析来识别出高层次的结构但愿来简化句子的描述&＃xff0c;实现语块分析。下面先来介绍马尔可夫模型。

markov模型&＃xff0c;具体来说是隐形马尔可夫模型已经成为现代语音识别系统中构建统计模型的重要手段&＃xff0c;即使存在不足&＃xff0c;但仍然认为是最成功的运用在自然语言处理中的技术。为了区别不同的马尔可夫过程&＃xff0c;我们把一般的马尔可夫模型称为显马尔可夫模型(VIsible Markov Model, VMM)&＃xff0c; 而通过假定额外的隐含结构&＃xff0c;使模型在更高的抽象水平上进行操作&＃xff0c;并且允许我们查看词语类别顺序&＃xff0c;该模型称为隐形马尔可夫模型(Hide Markov Model, HMM)。

在显式马尔可夫模型中&＃xff0c;机器的当前状态是已知的&＃xff0c;因此状态系列或者它的一些确定函数被认为是输出。在隐形马尔可夫模型中&＃xff0c;模型所经过的状态系列是未知的&＃xff0c;我们只知道它的一些概率函数。可以看到&＃xff0c;隐形马尔可夫模型输出之前&＃xff0c;经过的状态是未知的&＃xff0c;那么在什么情况下才可以使用隐性马尔可夫过程呢&＃xff1f;

当系统中表层事件可能是由底层事件引发的时&＃xff0c;可以采用HMM有效地解决这类问题。一个HMM可以由一个五元组(S&＃xff0c;K&＃xff0c;I&＃xff0c;A&＃xff0c;B)表示&＃xff0c;其中S、K分别表示状态集合和输出字母表&＃xff0c;I、A和B分别是初始状态、状态转移以及符号发射概率。

在隐性马尔可夫模型中我们需要了解三个基本问题&＃xff1a;

1、给出一个模型&＃xff0c;怎么有效地计算某个观测序列发生地概率&＃xff1f;

2、给出观测序列和模型&＃xff0c;我们怎么样选择一个状态序列&＃xff0c;以便能够最好地解释观测序列&＃xff1f;

3、给定观测序列&＃xff0c;以及通过改变模型地参数而得到的模型空间&＃xff0c;我们怎么样才能找到一个最好地解释这个观测序列的模型&＃xff1f;

当模型的参数未知&＃xff0c;我们不得不从数据中估计&＃xff0c;即解决上面的问题3&＃xff1b;通过解决问题1,我们可以确定最佳模型。而问题2 让我们猜测出马尔可夫链中哪条路径才是最优可能经过的&＃xff0c;而且这条隐藏路径能够被用来解决分类问题。

针对上面的三个问题&＃xff0c;我们首先来介绍如何计算观测序列的概率。

采用直接的算法来计算观测序列的概率&＃xff0c;效率较低。因此&＃xff0c;我们才用动态编程和记忆来避免复杂度&＃xff0c;即记住部分结果而不是每次都重新计算&＃xff0c;即为前向过程。前向过程表示可以通过对每个入弧的概率与起始节点的前向概率的乘积进行求和计算得到。

前向过程需要保存较多的结果&＃xff0c;而实际上我们不一定需要像这样一直存储前向计算的结果&＃xff0c;我们也可以进行后向计算。后向过程计算了后向向量&＃xff0c;后向变量中纪录了在给定当前状态Si和t时刻的情况下观测序列中剩余部分概率之和。

结合前向概率和后向概率&＃xff0c;对于解决问题3中的参数重估很关键。

对于问题2,怎么最好地解释观测序列&＃xff1f;可以认为该问题是译码过程&＃xff0c;即需要最大化将被正确猜测的状态的期望数目。译码最常用的方法是Viterbi算法&＃xff0c;因为它能够有效地计算最可能地状态序列。Viterbi算法地详细过程参见&＃xff1a;HMM学习最佳范例六&＃xff1a;维特比算法。

HMM广泛应用于机器学习模型中&＃xff0c;但其的难点在于其参数估计问题。根据给定特定的观测序列&＃xff0c;我们希望能够确定模型的参数值&＃xff0c;并且要求该模型能够给出观测序列的最佳解释。通过观测序列&＃xff0c;一般可以采用期望最大化算法&＃xff0c;其工作方式如下&＃xff1a;

1、在不知道模型参数的信息时&＃xff0c;可以使用某个随机的模型算出观测序列的概率——E步骤&＃xff1b;

2、查看计算过程&＃xff0c;可发现哪个状态转移或者符号发射可能出现的次数最多。通过增加其概率&＃xff0c;修改模型参数&＃xff0c;使得选择出可以为观测序列给出更高概率的模型——M步骤。

通过E步骤&＃xff0c;使用现有的模型估计每个模型参数值的期望&＃xff1b;M步骤&＃xff0c;迭代改善模型&＃xff0c;使得模型收敛到参数的最优值。

HMM模型建立完成后&＃xff0c;可以用来处理对测试序列进行预测&＃xff0c;同时通过测试序列不断修改模型参数&＃xff0c;使得模型更加精确地表示事物的发展规律&＃xff0c;能够更精准的解答HMM的三个问题。

推荐阅读

ide
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
ide
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
ide
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
ide
Hacker News热议：众多封装库涌现，程序员是否仍需深入学习算法？

在当前各种算法实现和开源软件包层出不穷的背景下，算法对程序员的重要性是否有所减弱？回顾历史，早期程序员必须熟练掌握算法并频繁自行编写。然而，随着技术的发展，算法逐渐成为一种“商品”，现代开发者更多依赖现成的库和商业算法解决方案。有观点认为，机器学习领域中，许多算法已经被高度封装，不再需要深入理解其背后的数学原理。然而，这种趋势也引发了关于技术深度与广度平衡的讨论，强调了基础理论知识在应对复杂问题时的不可替代性。 ... [详细]

蜡笔小新 2024-10-30 17:57:43
ide
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
ide
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
windows
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
windows
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
windows
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
diff
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
diff
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
diff
首期百辨太魔人完美收官，内附干货音频等你解锁！

点击蓝字关注我们AITIME欢迎每一位AI爱好者的加入！“和计算机的相遇是因为“前”途无量还是“钱”迷心窍？计算机行业近些年非常火爆，高考 ... [详细]

蜡笔小新 2024-10-21 20:29:45
diff
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
diff
深度学习与人工智能书籍推荐（从小白到大神）

概述本书单分为“通识篇”、“机器学习篇”、“深度学习篇”、“深度学习框架篇”、“神经网络篇”、“自然语言处理篇”、“特征工程篇”以及“计算机视觉篇”，“通识篇”可以满足题主的要求！ ... [详细]

蜡笔小新 2024-09-29 12:39:01
diff
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55

伤心脑残猪_940

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章