热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

信息熵与基尼指数的关系(一阶泰勒展开)

1、信息熵:信息熵可以度量信息量,也可以表达不确定程度,混乱程度。在机器学习中,还可以度量样本集合的纯度(熵越小集合纯度越高)。信息熵的定义为:

1、信息熵:

        信息熵可以度量信息量,也可以表达不确定程度,混乱程度。在机器学习中,还可以度量样本集合的纯度(熵越小集合纯度越高)。信息熵的定义为:

                                         (1)

       其中,D表示集合,K表示类别数,Pk表示第k类别样本的比例。集合中每一类样本的比例越接近,表示集合纯度越低,越混乱,即熵的值越大。集合中类别越单一,表示纯度越高,熵的值越小。

       令:

                          (2)

       对上式在p=1出做一阶泰勒展开,得到:

      (3)

       即用﹣logP来近似1-P,且P处于[0,1],从图上来直观理解一下:


       代入信息熵的公式可得:

                           (4)

2、基尼指数:

        数据集D的纯度也可以用基尼指数来度量,基尼指数反映数据集D中随机抽取两个样本,其类别标记不一致的概率,不一致的概率越小集合就越纯。公式:

  (5)

         由于Pk概率之和为1,所以(4)式刚好等于(5)式。也就是说:基尼指数是信息熵中﹣logP在P=1处一阶泰勒展开后的结果!所以两者都可以用来度量数据集的纯度,用于描述决策树节点的纯度!


推荐阅读
author-avatar
强悍的梅子
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有