【整理】图解隐马尔可夫模型(HMM)
作者:cjaklxn_490 | 来源:互联网 | 2023-05-18 11:08
写在前面最近在写论文过程中,研究了一些关于概率统计的算法,也从网上收集了不少资料,在此整理一下与各位朋友分享。隐马尔可夫模型,简称HMM(HiddenMarkovModel),是一种基于
写在前面
最近在写论文过程中,研究了一些关于概率统计的算法,也从网上收集了不少资料,在此整理一下与各位朋友分享。
隐马尔可夫模型,简称HMM(Hidden Markov Model), 是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。
本文适用于对HMM感兴趣的入门读者,为了让文章更加通俗易懂,我会多阐述数学思想,尽可能的撇开公式,撇开推导。结合实际例子,争取做到雅俗共赏,童叟无欺。没有公式,就没有伤害。
建议看一下吴军博士的《数学之美》,里面有简单的说明。然后看下HMM的三个计算问题和对应的解答,你会发现基本就是动态规划的思想。
本文非完全原创,部分内容来自互联网,自己在此基础上加入了个人的理解,如有侵权还请告知!
从掷骰子说起
假设我手里有三个不同的骰子:
- 第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。
- 第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。
- 第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。
结果为1,6,这时问题变得复杂起来,我们要计算三个值,分别是第二个骰子是D6,D4,D8的最大概率。显然,要取到最大概率,第一个骰子必须为D4。这时,第二个骰子取到D6的最大概率是
同样的,我们可以计算第二个骰子是D4或D8时的最大概率。我们发现,第二个骰子取到D6的概率最大。而使这个概率最大时,第一个骰子为D4。所以最大概率骰子序列就是D4 D6。
继续拓展,我们掷三次骰子:
同样,我们计算第三个骰子分别是D6,D4,D8的最大概率。我们再次发现,要取到最大概率,第二个骰子必须为D6。这时,第三个骰子取到D4的最大概率是
同上,我们可以计算第三个骰子是D6或D8时的最大概率。我们发现,第三个骰子取到D4的概率最大。而使这个概率最大时,第二个骰子为D6,第一个骰子为D4。所以最大概率骰子序列就是D4 D6 D4。
写到这里,大家应该看出点规律了,这其实就是概率DP问题(Dynamic Programming with Probability)。既然掷骰子一二三次可以算,掷多少次都可以以此类推。我们发现,我们要求最大概率骰子序列时要做这么几件事情:
- 首先,不管序列多长,要从序列长度为1算起,算序列长度为1时取到每个骰子的最大概率。
- 然后,逐渐增加长度,每增加一次长度,重新算一遍在这个长度下最后一个位置取到每个骰子的最大概率。因为上一个长度下的取到每个骰子的最大概率都算过了,重新计算的话其实不难。当我们算到最后一位时,就知道最后一位是哪个骰子的概率最大了。
- 最后,我们把对应这个最大概率的序列从后往前推出来。
谁动了我的骰子
如果你怀疑自己的六面骰被赌场动过手脚了,有可能被换成另一种六面骰,这种六面骰掷出来是1的概率更大,是1/2,掷出来是2,3,4,5,6的概率是1/10。怎么办?答案很简单,算一算正常的三个骰子掷出一段序列的概率,再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的概率。如果前者比后者小,你就要小心了。比如说掷骰子的结果是:
要算用正常的三个骰子掷出这个结果的概率,其实就是将所有可能情况的概率进行加和计算。同样,简单而暴力的方法就是把穷举所有的骰子序列,还是计算每个骰子序列对应的概率,但是这回,我们不挑最大值了,而是把所有算出来的概率相加,得到的总概率就是我们要求的结果。这个方法依然不能应用于太长的骰子序列(马尔可夫链)。我们会应用一个和前一个问题类似的解法,只不过前一个问题关心的是概率最大值,这个问题关心的是概率之和。解决这个问题的算法叫做前向算法(forward algorithm)。首先,如果我们只掷一次骰子:
看到结果为1.产生这个结果的总概率可以按照如下计算,总概率为0.18:
把这个情况拓展,我们掷两次骰子:
看到结果为1,6.产生这个结果的总概率可以按照如下计算,总概率为0.05:
继续拓展,我们掷三次骰子:
看到结果为1,6,3.产生这个结果的总概率可以按照如下计算,总概率为0.03:
同样的,我们一步一步的算,有多长算多长,再长的马尔可夫链总能算出来的。用同样的方法,也可以算出不正常的六面骰和另外两个正常骰子掷出这段序列的概率,然后我们比较一下这两个概率大小,就能知道你的骰子是不是被人换了。
HMM 的应用
以上例子是用HMM对掷骰子进行建模与分析。当然还有很多HMM经典的应用,能根据不同的应用需求,对问题进行建模。
但是使用HMM进行建模的问题,必须满足以下条件:
- 隐性状态的转移必须满足马尔可夫性(状态转移的马尔可夫性:一个状态只与前一个状态有关)
- 隐性状态必须能够大概被估计
在满足条件的情况下,确定问题中的隐性状态是什么,隐性状态的表现可能又有哪些。
HMM适用的问题:真正的状态(隐态)难以被估计,而状态与状态之间又存在联系。
语音识别
语音识别问题就是将一段语音信号转换为文字序列的过程。
在个问题里面,隐性状态就是: 语音信号对应的文字序列。而显性状态就是: 语音信号。
MM模型的学习(Learning): 语音识别的模型学习和上文中通过观察骰子序列建立起一个最有可能的模型不同。
语音识别的HMM模型学习有三个步骤:
- 统计文字的发音概率,建立隐性表现概率矩阵
- 统计字词之间的转换概率(不需要考虑语音,直接统计字词之间的转移概率即可)
- 语音模型的估计(Evaluation): 计算"是十四”,"四十四"等等的概率,比较得出最有可能出现的文字序列。
由此可见,其原理和上面的破解骰子序列是一样的。
手写识别
手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为文字的过程。
原理和语音差不多,只不过手写识别的过程是将字的图像当成了显性序列。
中文分词
总所周知,在汉语中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记(英文中,词与词之间用空格分隔,这是天然的分词标记)。因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序。
例如,英文句子:you should go to kindergarten now. 天然的空格已然将词分好,只需去除其中的介词“to”即可;而“你现在应该去幼儿园了”这个句子表达同样的意思却没有明显的分隔符,中文分词的目的是得到“你/现在/应该/去/幼儿园/了”。那么如何进行分词呢?
主流的方法有三种:
- 第1类是基于语言学知识的规则方法,如:各种形态的最大匹配、最少切分方法。
- 第2类是基于大规模语料库的机器学习方法,这是目前应用比较广泛、效果较好的解决方案。用到的统计模型有N元语言模型、信道—噪声模型、最大期望、HMM等。
- 第3类也是实际的分词系统中用到的,即规则与统计等多类方法的综合。
更多中文分词相关介绍,参考我的另一篇博客:一周乱谈 - 中文分词
拼音输入法
拼音输入法,是一个估测拼音字母对应想要输入的文字(隐性状态)的过程(比如, ‘pingyin’ -> 拼音)。
很明显,拼音输入法的观察序列就是用户的输入拼音,比如”wo shi zhong guo ren”,我们要推测出用户想要输入的是“我 是 中 国 人”,这是个很典型的隐马尔科夫模型。
如上图所示,我们根据给定的观察对象O,获得一个概率最大的序列S*。我们所知道的数据有:
- 所有观察对象的值
- 隐藏序列的马尔科夫模型概率,这是通过统计获得的
- 隐藏状态到观察状态的概率,比如 “晴天”(隐藏状态) 到 “出去玩”(观察状态)的概率
我们要求的是S*各个状态的连续概率最大的那个序列,和上面同理。
有关隐马尔可夫模型的教学视频,请参看coursera课程:Lecture 17 - 隐马尔可夫模型
结语
隐马尔可夫模型是可用于标注问题的统计学习的模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。
本文以一个例子为主线,用理论结合实际的方法讲解了HMM的基本原理和三个基本问题,以及三个问题的求解方法。最后,综述了一些HMM在人类的行为分析、网络安全和信息抽取中的最新应用。
参考文献
1. 数学之美 - 吴军 - 隐马尔科夫模型
2. 统计学习方法 - 李航 - 隐马尔科夫模型
3. HMM学习最佳范例一:介绍 - 52nlp
4. HMM学习最佳范例二:生成模式 - 52nlp
5. POS - Stanford NLP
推荐阅读
-
本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ...
[详细]
蜡笔小新 2023-12-14 18:45:00
-
本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ...
[详细]
蜡笔小新 2023-12-14 17:57:01
-
-
本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ...
[详细]
蜡笔小新 2023-12-14 14:29:36
-
本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ...
[详细]
蜡笔小新 2023-12-14 14:15:30
-
本文介绍了在qt学习中实现数据库注册用户的方法,包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ...
[详细]
蜡笔小新 2023-12-14 13:29:32
-
“你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ...
[详细]
蜡笔小新 2023-12-14 12:23:22
-
一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ...
[详细]
蜡笔小新 2023-12-14 11:39:45
-
本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ...
[详细]
蜡笔小新 2023-12-14 11:31:05
-
本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ...
[详细]
蜡笔小新 2023-12-14 10:32:21
-
本文介绍了游戏开发中的人工智能技术,包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为,而非定性行为则具有一定程度的不确定性。其中,追逐算法是定性行为的具体实例。 ...
[详细]
蜡笔小新 2023-12-14 10:22:59
-
本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ...
[详细]
蜡笔小新 2023-12-14 09:31:45
-
本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ...
[详细]
蜡笔小新 2023-12-13 20:46:48
-
本文详细介绍了相机防抖的设置方法和使用技巧,包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理,包括电子防抖和光学防抖的区别,以及它们对画质细节的影响。此外,还提到了一些运动相机的防抖方法,如大疆的Osmo Action的Rock Steady技术。通过本文,你将更好地理解相机防抖的重要性和使用技巧,提高拍摄体验。 ...
[详细]
蜡笔小新 2023-12-13 20:39:20
-
本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ...
[详细]
蜡笔小新 2023-12-13 20:24:11
-
本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ...
[详细]
蜡笔小新 2023-12-13 19:47:31
-
cjaklxn_490
这个家伙很懒,什么也没留下!