热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

分类决策树考虑了经验风险吗_实用数学|ID3决策树

01简介ID3算法是一种贪心算法,最早由罗斯昆(J.RossQuinlan)于1975年在悉尼大学提出,算法的核心是“信息熵”。ID3算法通过计算每个属

4e5d544f51f405746a48e194a792e721.png

5d65d23b468d454103daaf1fa7beb0bc.png

决策树的优缺点:

优点:直观,便于理解,小规模数据集有效。

缺点:处理连续变量不好;类别较多时,错误增加的比较快(算法复杂度大);可规模性一般。

60baf37866393589aa42956319e92095.png

变量的不确定性越大,熵也就越大,信息熵的取值范围是0到1之间。

0fc6b4892592dc42d49d994e10fe755f.png

条件熵:

条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

f9adb036ab7dbea29b52f118399185a0.png

当熵和条件熵中的概率由数据估计得到时(如极大似然估计),所对应的熵与条件熵分别称为经验熵和经验条件熵。

信息增益:

信息增益表示由于得知特征A的信息后的数据集D的分类不确定性减少的程度,定义为:

28c4840d91d5c121df995e445723db2f.png

即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(H|A)之差。选择划分后信息增益大的作为划分特征,说明使用该特征后划分得到的子集纯度越高,即不确定性越小。因此我们总是选择当前使得信息增益最大的特征来划分数据集。

资料来源

https://baike.baidu.com/item/ID3算法/5522381?fr=aladdin

https://my.oschina.net/u/3470937/blog/3009396

https://shuwoom.com/?p=1452

https://baike.baidu.com/item/贪心算法/5411800?fr=aladdin

cb93f7128722fefe614427d79add079b.png

本期文案|芃

本期排版|芃

实用数学|超级实用的距离判别法

实用数学| 排队论模型的简介与构建

实用数学|第十期  最短路径模型




推荐阅读
author-avatar
exit佑
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有