热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习.周志华《14概率图模型》

目录思维导图转载自:https:blog.csdn.netliuyan20062010articledetails72842007导入:机器学习的核

目录

思维导图转载自:https://blog.csdn.net/liuyan20062010/article/details/72842007

导入:

机器学习的核心价值观:根据一些已观察到的证据来推断未知。其中基于概率的模型将学习任务归结为计算变量的概率分布;

生成式模型:先对联合分布P(Y,R,O)进行建模,从而再来求解后验概率,例如:贝叶斯分类器先对联合分布进行最大似然估计,从而便可以计算类条件概率;

判别式模型:直接对条件分布P(Y,R|O)进行建模。

推断:利用已知变量推测未知变量;即由联合分布P(Y,R,O)或条件分布P(Y,R|O)推出条件概率分布P(Y,O)

概率图模型(probabilisticgraphical model)是一类用来表达变量相关关系概率模型。概率图模型,以图为表示工具,如一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即变量关系图。

根据边的性质不同,概率图模型大致可分为两类:

1)使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网(Bayesian network);

2)使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网(Markov network);

这里上一个概率图模型的思维导图:


隐马尔科夫模型

统计学习方法里面的解释:http://www.cnblogs.com/QueenJulia/articles/8940010.html

隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network),是著名的有向图模型,主要用于时序数据建模,在语音识别、自然语言处理等领域有广泛应用。

1)HMM结构信息

HMM的变量可分为两组:

  • 第一组是状态变量{y1,y2,…,yn},其中yi∈Y表示第i时刻的系统状态,通常假定状态变量是隐藏的、不可观测的,因此状态变量也叫隐变量(hidden variable);
  • 第二组是观测变量{x1,x2,…,xn},其中xi∈X表示第i时刻的观测值。

在HMM中,系统通常在多个状态{ s1,s2,…,sN }之间转换,因此状态变量yi的取值范围Y(状态空间)通常是有N个可能取值的离散空间。观测变量xi可以是离散型也可以使连续型,这里仅考虑离散型观测变量,并假定其取值范围X为{ o1,o2,…,oM}。

HMM图结构如下:


图中箭头表示了变量间的依赖关系。在任一时刻,观测变量的取值仅依赖于状态变量,即xt由yt确定;与其他状态变量及观测变量的取值无关。t时刻的状态yt仅依赖于t-1时刻的状态yt-1,与其余n-2个状态无关。此为马尔科夫链(Markov chain),即:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。基于这种依赖关系,所有变量的联合概率分布为:


确定隐马尔科夫模型:

  • 状态变量Y
  • 观测变量X

  • 状态转移概率A


  • 输出观测概率B


  • 初始状态概率π


产生观测序列过程:


实际应用中关注的三个问题:



马尔科夫随机场

统计学习方法中的解释:http://www.cnblogs.com/QueenJulia/articles/8940012.html

马尔科夫随机场是典型的马尔科夫网,无向图模型:



势函数(因子):

定义在变量子集上的非负实函数,主要用于定义概率分布函数或者说用定量刻画变脸记Xq中半年之间的相关关系;且在所骗号的变量取值上有较大的函数值;


:

图中结点的一个子集中,若其中任意两结点都有边连接,则该结点子集为一个“团;”

极大团:

若在一个团中加入另外任何一个节点都不再构成团,该团为“极大团”;

联合概率(基于团定义):


联合概率(基于极大团定义)


注:

若团Q不是极大团,则必被一个极大团Q*所包含;

分离集:


得出:



条件随机场CRF

定义:

若G=表示结点与标记变量y中元素一一对应的无向图,yv表示与结点v的标记变量,n(v)表示结点v的邻接结点,若图G的每个变量yv都满足马尔可夫性,则(y,x)构成一个条件随机场。

马尔可夫性:



链式条件随机场chain-structured CRF:


条件概率


转移特征函数:刻画相邻标记变量之间的相关关系以及观测序列对他们的影响;

  • 主要判定两个相邻的标注是否合理,例如:动词+动词显然语法不通;

状态特征函数:刻画观测序列对标记变量的影响;

  • 主要判定观测值与对应的标注是否合理,例如: ly结尾的词–>副词较合理。

学习与推断


边际化:

概率图模型的推断方法大致分为两类:

  1. 精确推断方法:变量消去、信念传播;
  2. 近似推断方法:MCMC采样、变分推断;

精确推断

精确推断的实质是一种动态规划算法,他利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。

变量消去

(1)有向图模型:


(2)对无向图同样适用!


缺点:

  • 若需要计算多个边际分布,重复使用变量消去会造成大量的冗余计算。

信念传播

解决求解多个边际分布的重复计算问题:将变量消去法中的求和操作看做一个消息传递的过程;


信念传播算法步骤:


信念传播算法图示:



近似推断

两大类方法:

  • 采样:采用随机化方法完成近似;
  • 确定性近似:典型代表变分推断;

采样

可以参考的博客:https://www.cnblogs.com/ironstark/p/5229085.html

典型代表:马尔科夫链蒙特卡罗MCMC

目的:通过构造‘平稳分布为p的马尔科夫链’来产生样本;

平稳分布:假设平稳马尔科夫链T的状态转移概率为T(x'|x),t时刻状态的分布为P(x^t),则若在某个时刻马尔科夫链满足平稳条件:


则p(x)是该马尔科夫链的平稳分布

步骤:

  1. 构造马尔科夫链;
  2. 逼近(收敛)至平稳分布恰为带估计参数的后验分布;
  3. 用马尔科夫链产生符合该后验分布的样本,并基于这些样本进行估计

重点:马尔科夫链转移概率的构造

MH(MCMC代表):基于“拒绝采样”来逼近平稳分布p;


MC算法特例:吉布斯采样



变分推断

附变分推断的知乎讨论:https://www.zhihu.com/question/41765860

目标:通过使用已知简单分布来逼近需推断的复杂分布,并通过限制及时发布的类型,从而得到一种局部最优、但具有确定街的近似后验分布。

盘式记忆:


(b)中所能观测到的变量x的联合分布的概率密度函数:


对应的对数似然函数:


推断和学习的任务:

由观察到的变量x来估计隐变量z和分布参数变量Θ,即求解P(z|x,Θ)

解决方法:

EM算法

总结:

1、如何拆解隐变量;

2、假设各变量子集服从的分布;

3、服从的最优分布;

4、EM算法;

话题模型

生产式有向图模型,主要处理离散型数据(如文本集合)。

隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)

基本概念:词(word)、文档(document)、话题(topic)。

:最基本的离散单元; 
文档:待处理的数据对象,由一组词组成,词在文档中不计顺序;(词袋bag-of-words) 
话题:表示一个概念,具体表现为一系列相关的词,以及它们该概念下出现的概率。这组词具有较强的相关关系。

在现实任务中,一般我们可以得出一个文档的词频分布,但不知道该文档对应着哪些话题,LDA话题模型正是为了解决这个问题。

具体来说:LDA认为每篇文档包含多个话题,且其中每一个词都对应着一个话题。因此可以假设文档是通过如下方式生成:


这样一个文档中的所有词都可以认为是通过话题模型来生成的,当已知一个文档的词频分布后(即一个N维向量,N为词库大小),则可以认为:每一个词频元素都对应着一个话题,而话题对应的词频分布则影响着该词频元素的大小

LDA变量关系:


因此很容易写出LDA模型对应的联合概率函数:


补充:

这里写图片描述 


从上图可以看出,LDA的三个表示层被三种颜色表示出来:

corpus-level(红色): α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。 
document-level(橙色): θ是文档级别的变量,每个文档对应一个θ。 
word-level(绿色): z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。

通过上面对LDA生成模型的讨论,可以知道LDA模型主要是想从给定的输入语料中学习训练出两个控制参数α和β,当学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:

α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量; 
β:各个主题对应的单词概率分布矩阵p(w|z)。

把w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来近似求解,原作者使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛。


推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本文介绍了Codeforces Round #321 (Div. 2)比赛中的问题Kefa and Dishes,通过状压和spfa算法解决了这个问题。给定一个有向图,求在不超过m步的情况下,能获得的最大权值和。点不能重复走。文章详细介绍了问题的题意、解题思路和代码实现。 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 马尔可夫决策过程Markov Decision Process,MDPKintoki
    Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
author-avatar
范二小姐儿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有