05EM算法高斯混合模型GMM

04 EM算法 - EM算法收敛证明

__GMM__(Gaussian Mixture Model, 高斯混合模型)是指该算法由多个高斯模型线性叠加混合而成。每个高斯模型称之为component。

多个带有权重的高斯模型线性的叠加

__GMM算法__描述的是数据的本身存在的一种分布&＃xff0c;即样本特征属性的分布&＃xff0c;和预测值Y无关。显然GMM算法是无监督的算法&＃xff0c;常用于聚类应用中&＃xff0c;component的个数就可以认为是类别的数量。

回到昨天说的例子&＃xff1a;随机选择1000名用户&＃xff0c;测量用户的身高&＃xff1b;若样本中存在男性和女性&＃xff0c;身高分别服从高斯分布N(μ1,σ1)和N(μ2,σ2)的分布&＃xff0c;试估计参数:μ1,σ1,μ2,σ2&＃xff1b;

1、如果明确的知道样本的情况(即男性和女性数据是分开的)&＃xff0c;那么我们使用极大似然估计来估计这个参数值。

2、如果样本是混合而成的&＃xff0c;不能明确的区分开&＃xff0c;那么就没法直接使用极大似然估计来进行参数的估计。

我们可以认为当前的1000条数据组成的集X&＃xff0c;是由两个高斯分布叠加而成的(男性的分布和女性的分布)。

男性和女性的高斯分布的叠加

在每个分布前乘以一个权重À

如果能找到一种办法把每一个高斯分布对应的参数π、 μ、σ求出来&＃xff0c;那么对应的模型就求解出来了。

如果模型求解出来后&＃xff0c;如何对数据进行聚类&＃xff1f;

这个公式求出来的分别是男性和女性身高分布的概率密度&＃xff0c;如果把π、 μ、σ都求出来&＃xff0c;以后我们可以构建出一个__能够根据样本特征__计算出样本属于男性或女性的可能性。

实际做样本分类的时候&＃xff0c;我们把样本X的特征x1~xn分别代入两个公式中&＃xff0c;求出来的两个结果分别是&＃xff1a;样本X的性别是男、是女的可能性。如果是男的可能性大于是女的可能性&＃xff0c;我们就把样本X归入男性的分类。

假定__GMM__由k个Gaussian分布线性叠加而成&＃xff0c;那么概率密度函数如下&＃xff1a;

概率密度函数

分析第1个等式&＃xff1a;
p(x)&＃xff1a; 概率密度函数&＃xff0c;k个Gaussian分布线性叠加而成的概率密度函数。
∑p(k)p(x|k)&＃xff1a; k个某种模型叠加的概率密度函数。
p(k)&＃xff1a; 每个模型占的权重&＃xff0c;即上面提到的π。
p(x|k)&＃xff1a; 给定类别k后&＃xff0c;对应的x的概率密度函数。

__分析第2个等式&＃xff1a;__目标 - 将公式写成高斯分布的样子。
__π_k&＃xff1a;__即p(k)
__p(x;μ_k,∑_k)&＃xff1a;__多元高斯(正态)分布。有了观测数据x后&＃xff0c;在__给定了条件__下的高斯分布。这个__条件__是__1、第k个分类的均值μ_k__; __2、第k个分类的方差∑_k__;

深入分析p(x;μ_k,∑_k)的参数&＃xff1a;
如果样本有n个特征&＃xff0c;所有的特征x1~xn一起服从一个多元的高斯分布(正态分布)&＃xff0c;所有特征的均值应该是一个向量 (μ₁~μ_n)&＃xff1b;
μ_k&＃xff1a; 第k个分类的情况下(第k个高斯分布的情况下对应的每一列的均值)&＃xff1b;μ_k &＃61; (μ_k1~μ_kn)

∑_k&＃xff1a; 协方差矩阵(对称阵)。现在有n个特征&＃xff0c;协方差矩阵是一个n×n的矩阵。现在我们要算的是&＃xff1a;

cov(x1,x1)&＃xff0c;cov(x1,x2)&＃xff0c;...&＃xff0c;cov(x1,xn)

cov(x2,x1)&＃xff0c;cov(x2,x2)&＃xff0c;...&＃xff0c;cov(x2,xn)
....
cov(xn,x1)&＃xff0c;cov(x1,x2)&＃xff0c;...&＃xff0c;cov(xn,xn)

其中&＃xff0c;__对角线__ cov(x1,x1)、cov(x2,x2)&＃xff0c; ... &＃xff0c;cov(xn,xn)中&＃xff0c;x1和x1的协方差 &＃61; x1的方差&＃xff1b;即cov(x1,x1) &＃61; var(x1)&＃xff1b;所以__对角线上两个特征的协方差 &＃61; 对应的特征的方差。__

协方差 - 知识补充

__协方差__&＃xff08;Covariance&＃xff09;在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况&＃xff0c;即当两个变量是相同的情况。

协方差表示的是两个变量的总体的误差&＃xff0c;这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致&＃xff0c;也就是说如果其中一个大于自身的期望值&＃xff0c;另外一个也大于自身的期望值&＃xff0c;那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反&＃xff0c;即其中一个大于自身的期望值&＃xff0c;另外一个却小于自身的期望值&＃xff0c;那么两个变量之间的协方差就是负值。

总结 - 公式

理解了公式后&＃xff0c;再来看看公式在图像上是如何体现的&＃xff1a;

蓝1 &＃43; 蓝2 &＃61; 红

如果样本X只有一个特征x1&＃xff0c;在二维的坐标系上的表示出来。特征x1是由n个单变量样本的高斯分布叠加而成的。向量x1_k &＃61; ∑_k (x1⁽¹⁾,x1⁽²⁾,~,x1⁽ⁿ⁾)&＃xff0c;如k&＃61;(男、女)&＃xff0c;累加男性分类下的特征高斯分布和女性分类下的高斯分布&＃xff1b;

图中__红色曲线__表示原有数据的分布情况&＃xff0c;我认为这个原有数据是由多个比较的高斯分布叠加而成的&＃xff0c;__蓝色曲线__ 表示单个单个高斯分布的分布情况。向量x1 &＃61; (x1⁽¹⁾,x1⁽²⁾,~,x1⁽ⁿ⁾)&＃xff1b;

PS&＃xff1a; 蓝1&＃43;蓝2&＃61;红 体现的就是公式 p(x) &＃61; ∑πp(x;μ,∑k)&＃xff1b;

在得知数据的特征 x&＃61;(x1~xn) 后&＃xff0c;如果我们想把数据合理得聚类到一个分类中&＃xff0c;我们该如何去计算呢&＃xff1f;

既然我已经得到了k个高斯分布对应的概率密度函数(现在设k&＃61;3&＃xff0c;共3个分类)&＃xff0c;将当前特征的x&＃61;(x1~xn)代入我们的概率密度函数&＃xff1a; p(x) &＃61; ∑πp(x;μ,∑k)&＃xff1b;

p(蓝1)&＃43;p(蓝2)&＃43;p(蓝3) &＃61; 红

我们分别计算p(蓝1)、p(蓝2)、p(蓝3)&＃xff0c;蓝色三条线各对应k分类中的一个&＃xff0c;哪个数大&＃xff0c;我认为当前的样本该分到哪一类。

GMM算法的两个前提&＃xff1a;
1、数据服从高斯分布&＃xff1b;
2、我们人为定义了分类个数k。

基于这两个前提&＃xff0c;问题递进&＃xff1a;

问&＃xff1a;我们人为假定了高斯分布的分类个数k&＃xff0c;就类似于我们聚簇时分的聚簇中心个数一样。参数π、μ、σ该如何求出来?

答&＃xff1a;和K-Means算法一样&＃xff0c;我们可以用__EM算法__来求解这个问题。 GMM也满足EM算法的聚类思想&＃xff0c;首先人为得定义了聚类的个数k&＃xff0c;从数据特征X中发掘潜在关系的一种模型。而且我还默认数据是服从多个高斯分布的。

GMM算法中的隐含条件是&＃xff1a;第k个模型占的权重 - $color{red}{π}$、第k个高斯分布的情况下对应的每一列的均值 - $color{red}{μ}$、协方差矩阵 cov(xi,xj) - $color{red}{∑k}$&＃xff1b;因为本质上我们是知道数据原有的分类状况的&＃xff0c;只是无法观测到隐含在数据中的这些特性&＃xff0c;使用EM的思想可以迭代得求解出这些隐含变量。

对联合概率密度函数求对数似然函数&＃xff1a;

对联合概率密度函数求对数后&＃xff0c;原本__连乘__的最大似然估计变成了__连加__的函数状态。

EM算法求解 - E步&＃xff1a;

E步 - 公式

套用公式后&＃xff0c;我们可以假定隐含变量z的分布&＃xff1a;Q(z⁽ⁱ⁾ &＃61; j)&＃xff1b;
我们认为分布wj⁽ⁱ⁾ &＃61; 第i个观测值对应的隐含分类第z⁽ⁱ⁾类&＃xff1b; &＃61; 以(看不见的参数π、μ、∑)为参数的情况下&＃xff0c;输入第i观测值的特征x后得到的分类z⁽ⁱ⁾类&＃xff1b;

EM算法求解 - M步&＃xff1a;
M步第1行就是上一章通过化简找到__下界__的那个函数&＃xff1a;

M步 - 第1行就是通过化简找到下界的那个函数