隐马尔可夫模型(HiddenMarkovModel，HMM)理解

作者：小辉0110_737 | 来源：互联网 | 2023-09-24 19:24

隐马尔可夫模型(HiddenMarkovModel，HMM)最初由L.E.Baum和其它一些学者发表在一系列的统计学论文中，随后在语音识别，自然语言处理以及生物信息等

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语音识别，自然语言处理以及生物信息等领域体现了很大的价值。到目前为止，它一直被认为是实现快速精确的语音识别系统的系统，自然语言处理过程的最成功的方法。

1. HMM引入

隐马尔可夫模型(HMM)是一个输出符号序列统计模型，具有T个状态X1,X2.......Xt-1,它按一定的周期从一个状态转移到另一个状态，每次转移时，输出一个符号（观测值）。转移到哪一个状态，转移时输出什么符号，分别由状态转移概率和转移时输出概率来决定。因为只能观测到输出符号的序列，而不能观测待状态转移序列（即模型的观测序列是通过哪个状态路径是不知道的）所以称为隐马尔可夫模型。

下面是一个简单的例子。气象学上，可通过年轮的宽窄了解各年的气候状况，利用年轮上的信息可推测出几千年来的气候变迁情况。年轮宽表示那年光照充足，风调雨顺；若年轮较窄，则表示那年温度低、雨量少，气候恶劣。为了简单起见，我们只考虑冷(code)，热(hot)两种温度。根据现代的气象知识可以知道，“冷”的一年跟着下一年为热的概率为0.4，为冷的概率为0.6；“热”的一年跟着下一年为热的概率为0.7，为冷的概率为0.3。可以简单的归纳为下面规律：

我们将树的年轮简单分为小(small),中(middle),大(large)三种，或者分别写成S,M,L。根据现代的气象知识可以知道，热的一年树木年轮为“小”，“中”，“大”的概率分别为0.1,0.4,0.5；冷的一年树木年轮为“小”，“中”，“大”的概率分别为0.7,0.2,0.1。因此，冷(C)，热(H)对年轮的影响可以简单归纳为下面规律：

在这个系统中，状态序列是每年的温度--H 或者 C。因为下一年的温度只与上一年有关，所以从一个状态(温度)转移到下一个状态(温度)可以看成是一个一阶Markov process。因为无法观测过去的温度，状态序列也被称为隐藏状态。尽管我们不能观测过去的状态(温度)序列，但是可以通过树的年轮给我们提供的信息预测温度。我们的目标就是充分利用可观测的年轮序列，来预测那些年的温度序列情况（Markov 过程）。从上面规律可以得到，

状态转移矩阵A:

观测矩阵B:

假设初始状态矩阵PI , (如本例中是初始状态矩阵是最开始产生Hot，和Cold天气的概率)

这样可以得到天气与树年轮的概率图模型

图中最开始产生Hot天气的概率为0.6（由初始状态矩阵PI决定），Hot天气产生树年轮Small的概率为0.1，Hot产生状态产生Hot状态的概率为0.7，接着Hot产生Middle的概率为0.4........。

因此可以得到隐藏天气序列HHCC产生树木年轮序列为SMSL的概率

使用这种办法我们就可以计算产生SMSL序列存在的所有天气序列的概率

比较可得P(CCCH)的概率为0.002822，是最大的。

结论：

若树木年轮序列为SMSL，则最可能状态序列（Markov process）是CCCH .
产生树木年轮序列为SMSL的概率为0.009629 （所有可能相加）

2. HMM模型

2.1 HMM基本公式

HMM由两个随机过程组成，一个是状态转移序列，它对应着一个单纯的马尔可夫过程，另一个是每一次转移时输出的符号组成的符号序列。这两个随机过程，其中一个是不可观测的，只能通过另一个随机过程的输出观察序列观测得到。不同于Naive Bayes Model,只需要预测一个输出变量y,HMM需要预测一个输出序列

设可观测序列是：

我们的目标是推测出最有可能的输出(状态)序列：

现在我们简单的回顾一下Naive Bayes Model ,它的目标是在已知输入向量x的情况下，求条件概率p(y|x)

因为HMM需要预测的是一个输出序列，模仿Naive Bayes Model可以写成

考虑到yi还受前一时刻的影响，可以从概率图模型看出每一个状态yi-1跳到下一个状态yi都有一个状态转移概率。

其中一个状态序列的概率，如1中的（HHCC）序列的概率可以写成

这将得到有名的HMM模型，如1中求树木年轮序列为 SMSL的概率 P(SMSL)

2.2 HMM的基本元素

有了前面对HMM模型的讨论，以及树木年轮的例子，就可以给出HMM的定义，或者说HMM可以由哪些元素描述。

LET:

下图描述的是一个 Hidden Markov Model 。其中 Xi 表示隐藏序列，其余的都如上面所定义。其中序列X是未知的，我们要通过可观测序列O,状态转移矩阵A,观测概率矩阵B推测。

Hidden Markov Model

其中：

若带人具体数值可得：

3. HMM的三个基本问题

想要有效的使用HMMs解决实际问题，有三个基本问题必须加以解决。

3.1 问题 1---识别问题

3.2 问题 2---解码问题

3.3 问题 3---模型训练问题

4 HMM的基本算法

下面结合讨论3中提到的三个问题的解法，介绍HMM的基本算法。

4.1 问题1的解决方案

问题1的可以归纳为：

4.1.1蛮力算法

若用图表示可以得到如下：

其中：

当然也可以从Naive Bayes Model的角度理解(但本质上没有区别)：

然而，这种直接的计算的方法(蛮力算法)一般是不可行的，实际情况中，我们不可能知道每一种可能的路径，而且这种计算的计算量也是十分惊人的，达到大约

数量级。如，当HMM的状态数为5，观测序列长度为100时，计算量达到

，是完全无法接受的。因此需要更有效的算法，这就是Baum 等人提出的前向-后向算法。

4.1.2 前向算法(a-pass )

前向算法即按输出观察值序列的时间，从前向后递推计算输出概率。

首先说明下列符号的定义：

由上面的符号的定义，则

可由下面递推公式计算得到：

解释：

使用这种前向递推计算算法的计算量大为减少，变为复杂度变为

。同样的1中例子，N=5,T=100时，只需要大约2500次乘法。

4.1.3 后向算法()

与前向算法类似，向后算法即使按输出观察序列的时间，从后面向前递推计算输出概率的方法。首先说明下列符号的定义：

有递推公式可得：

解释：

4.2 问题2解决方案

问题2可以归纳为：

4.2.1蛮力算法

如4.1.1中计算每一条可能状态序列的概率，然后比较找出其中概率最大的一条就为我们需要的状态序列X。如开始的例1中就是采用这种算法。这种算法虽然易理解，但是计算开销太大，一般不可取。

4.2.2前向后向算法

在4.1中我们详细的讨论了前向算法以及后向算法，而前向后向算法就是综合这两种算法。可以用来解决寻找最可能隐藏状态序列X的问题。首先我们说明下列符号的定义：

4.2.3 维特比(Viterbi)算法

4.3 问题3解决方案

问题3解决的主要是HMM的训练，即HMM的参数估计问题。可以归纳为：

4.3.1 Baum-Welch算法

首先我们说明下列符号的定义：

根据前向-后向算法，可以得到：

由此可以推出重估公式：

推荐阅读

sms
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
python
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
express
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
express
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
python
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
python
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
search
当人工智能（AI）撞上供应链

了解供应链简单来说，供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络，来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]

蜡笔小新 2024-10-11 18:25:31
java
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
search
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
search
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
python
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
python
深入解析层次聚类算法

本文详细介绍了层次聚类算法的基本原理，包括其通过构建层次结构来分类样本的特点，以及自底向上（凝聚）和自顶向下（分裂）两种主要的聚类策略。文章还探讨了不同距离度量方法对聚类效果的影响，并提供了具体的参数设置指导。 ... [详细]

蜡笔小新 2024-11-20 15:19:16
sum
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
object
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
object
Bidirectional LSTMCNNsCRF

上期使用LSTM做短文本分类效果不如CNN，或许有朋友会问什么场景下LSTM能体现出序列性的优势，本期使用双向LSTM-CNNs-CRF实现SequenceLabeling。CRF ... [详细]

蜡笔小新 2024-10-09 21:44:26

小辉0110_737

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章