信息熵可以度量信息量,也可以表达不确定程度,混乱程度。在机器学习中,还可以度量样本集合的纯度(熵越小集合纯度越高)。信息熵的定义为:
(1)
其中,D表示集合,K表示类别数,Pk表示第k类别样本的比例。集合中每一类样本的比例越接近,表示集合纯度越低,越混乱,即熵的值越大。集合中类别越单一,表示纯度越高,熵的值越小。
令:
(2)
对上式在p=1出做一阶泰勒展开,得到:
(3)
即用﹣logP来近似1-P,且P处于[0,1],从图上来直观理解一下:
代入信息熵的公式可得:
(4)
数据集D的纯度也可以用基尼指数来度量,基尼指数反映数据集D中随机抽取两个样本,其类别标记不一致的概率,不一致的概率越小集合就越纯。公式:
(5)
由于Pk概率之和为1,所以(4)式刚好等于(5)式。也就是说:基尼指数是信息熵中﹣logP在P=1处一阶泰勒展开后的结果!所以两者都可以用来度量数据集的纯度,用于描述决策树节点的纯度!