热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

决策树的原理与构建围绕一个实例展开

1.什么是决策树:决策树是一种预测模型,用来进行分类,是一种有监督学习。树中每个节点表示某个对象,而每个分叉路径则代表的某个

1. 什么是决策树:

    决策树是一种预测模型,用来进行分类,是一种有监督学习。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值


2 决策树实例(围绕一个例子)


    问题1. 基于表1中给出的训练集,给出分别使用极小熵和极大熵选择扩展属性所生成的两棵决策树。然后给出你对树的“大小”的理解,并按你的理解比较两种方法生成的决策树大小。



  问题1. 基于表1中给出的训练集,给出分别使用极小熵和极大熵选择扩展属性所生成的两棵决策树。然后给出你对树的“大小”的理解,并按你的理解比较两种方法生成的决策树大小。

(1) 极小熵生成决策树,设表1给的数据集为D,根据最大信息增益选择最优特征生成极小熵决策树,计算各特征A1、A2、A3、A4、A5对数据D的信息增益,统计结果为


 

 

 

class=1

class=2

 

D

 

 

8

7

H(D)= 0.9968

A1

D1

8

2

6

g(D,A1)=0.2880

D2

7

6

1

A2

D1

5

4

1

g(D,A2)=0.1398

D2

4

1

3

D3

6

3

3

A3

D1

3

1

2

g(D,A3)=0.0292

D2

12

7

5

A4

D1

7

6

1

g(D,A4)=0.2880

D2

8

2

6

A5

D1

6

5

1

g(D,A5)=0.4131

D2

4

0

4

D3

5

3

2


上表中的D1和D2,D3分别表示在各个特征中取值为1、2和3的样本子集,根据计算后统计在表格中的数据可得:

H(D)=-8/15*log2(8/15)—7/15*log2(7/15)=0.9968

g(D,A1)=H(D)-[8/15*H(D1)+7/15*H(D2)]=0.2880

g(D,A2)=H(D)-[5/15*H(D1)+4/15*H(D2)+6/15*H(D3)]=0.1398

g(D,A3)=H(D)-[3/15*H(D1)+12/15*H(D2)]=0.0292

g(D,A4)=H(D)-[7/15*H(D1)+8/15*H(D2)]=0.2880

g(D,A5)=H(D)-[6/15*H(D1)+4/15*H(D2)+5/15*H(D3)]=0.4131

根据上面的计算结果,特征A5的信息增益最大,所以选择A5为根节点。根据A5的取值将样本分成3个结合,S1={2,3,6,8,12,13},S2={1,5,7,14},S3={4,9,10,11,15}其中集合S2已全部属于同一个类,不需要再分,已成为叶子节点。对于集合S1,计算统计结果为:





class=1

class=2


D

 

 

5

1

H(D)=0.6500

A1

D1

1

1

0

G(D,A1)=0.0484

D2

5

4

1

A2

D1

3

2

1

G(D,A2)=0.1909

D2

1

1

0

D3

2

2

0

A3

D1

1

1

0

G(D,A3)=0.0484

D2

5

4

1

A4

D1

5

5

0

G(D,A4)=0.6500

D2

1

0

1


H(D)=0.6500 g(D,A1)= 0.0484 g(D,A2)= 0.1909 g(D,A3)= 0.0484 g(D,A4)=0.6500

     根据计算结果,集合S1选择A4为根结点。根据A4的取值,将S1集合划分为S11={3,6,8,12,13}  S12={2},集合S11和集合S12已成为叶节点。对于集合S3,计算统计结果为:


 

 

 

class 1

class 2

 

D

 

 

3

2

H(D)=0.9710

A1

D1

3

1

2

G(D,A1)=0.4200

D2

2

2

0

A2

D1

2

2

0

G(D,A2)=0.5710

D2

1

1

0

D3

2

1

1

A3

D1

0

0

0

G(D,A3)=0

D2

5

3

2

A4

D1

2

1

1

G(D,A4)=0.0200

D2

3

2

1


H(D)=0.9710 g(D,A1)=0.4200 g(D,A2)=0.5710  g(D,A3)=0 g(D,A4)=0.0200

根据计算结果,所以集合S3选择A2作为根结点,根据A2的取值将S3分成集合S31={4,11}集合S32={9}集合S33={10,15} 集合S32和集合S32已为叶子节点。对于集合S33,计算统计结果为


 

 

 

class 1

class 2

 

D

 

 

1

1

H(D)=1

A1

D1

1

0

1

G(D,A1)=1

D2

1

1

0

A3

D1

0

0

0

G(D,A3)=0

D2

2

1

1

A4

D1

2

1

1

G(D,A4)=0

D2

0

0

0


H(D)=1  g(D,A1)=1 g(D,A3)=0  g(D,A4)=0

     所以选择A1作为集合S33的根节点。根据A1的取值划分后的集合也都为叶子节点,至此极小熵决策树就建立起来了,如下图所示。

(2) 极大熵生成决策树,同上面的极小熵建立决策树类似,设表1中数据集为D。根据信息增益最小选择特征建立决策树。计算各特征A1、A2、A3、A4、A5对数据D的信息增益,统计结果为


 

 

 

class=1

class=2

 

D

 

 

8

7

H(D)= 0.9968

A1

D1

8

2

6

G(D,A1)= 0.2880

D2

7

6

1

A2

D1

5

4

1

G(D,A2)=0.1398

D2

4

1

3

D3

6

3

3

A3

D1

3

1

2

G(D,A3)= 0.0292

D2

12

7

5

A4

D1

7

6

1

G(D,A4)= 0.2880

D2

8

2

6

A5

D1

6

5

1

G(D,A5)=0.4131

D2

4

0

4

D3

5

3

2


  H(D)=0.9968g(D,A1)=0.2880 g(D,A2)=0.1398 g(D,A3)=0.0292 g(D,A4)=0.2880  g(D,A5)=0.4131

  根据上面计算结果,选择最小增益A3作为根结果。根据A3的取值,将集合划分S1={5,8,14},S2={1,2,3,4,6,7,9,10,11,12,13,15}.对于集合S1,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

1

2

H(D)=0.9183

A1

D1

2

0

2

G(D,A1)=0.9183

D2

1

1

0

A2

D1

1

1

0

G(D,A2)=0.9183

D2

1

0

1

D3

1

0

1

A4

D1

1

1

0

G(D,A4)= 0.9183

D2

2

0

2

A5

D1

1

1

0

G(D,A5)=0.9183

D2

2

0

2

D3

0

0

0


H(D)=0.9183 g(D,A1)=0.9183 g(D,A2)=0.9183 g(D,A4)=0.9183 g(D,A5)=0.9183

根据计算结果,选择A1或A2或A4或A5都可以作为集合S1的根节点,这里不妨选择A1作为根节点,根据A1的取值将S1划分成S11={5,14} ,S12={8},此时S11和S12已经为叶节点不需要在划分。

对于集合S2,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

7

5

H(D)=0.9799

A1

D1

6

2

4

G(D,A1)= 0.1957

D2

6

5

1

A2

D1

4

3

1

G(D,A2)=0.0753

D2

3

1

2

D3

5

3

2

A4

D1

6

5

1

G(D,A4)=0.1957

D2

6

2

4

A5

D1

5

4

1

G(D,A5)= 0.2745

D2

2

0

2

D3

5

3

2


H(D)=0.9799 g(D,A1)=0.1957 g(D,A2)=0.0753 g(D,A4)=0.1957 g(D,A5)=0.2745

根据计算结果,选择A2作为集合S2的根节点,根据A2的取值将集合S2划分为S21={2,4,6,11},S22={7,9,12},S23={1,3,10,13,15},对于集合S21,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

3

1

H(D)=0.8113

A1

D1

1

1

0

G(D,A1)=0.1226

D2

3

2

1

A4

D1

1

1

0

G(D,A4)=0.1226

D2

3

2

1

A5

D1

2

1

1

G(D,A5)=0.3113

D2

0

0

0

D3

2

2

0


H(D)=0.8113  g(D,A1)=0.1226  g(D,A4)=0.1226  g(D,A5)=0.3113

根据计算结果,选择A1和A4作为S21的根节点都可以,这里不妨选A1为S21的根节点。根据A1的取值将S21划分为S211={11},S212={2,4,6},其中S211已为叶节点。对于集合S212,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

2

1

H(D)=0.9183

A4

D1

1

1

0

G(D,A4)=0.2516

D2

2

1

1

A5

D1

2

1

1

G(D,A5)=0.2516

D2

0

0

0

D3

1

1

0


H(D)=0.9183  g(D,A4)=0.2516  g(D,A5)=0.2516

根据计算结果,选择A4和A5作为S212的根节点都可以,这里不妨选A4作为根节点。根据A4的取值将集合S212划分为S2121={6}  S2122={2,4};对于集合S2122选择A5作为根节点,根据A5的取值将集合S2122划分为S21221={2}  S21223={4};此时集合S2121和集合S21221,S21223都为叶节点,对于集合S22,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

1

2

H(D)= 0.9183

A1

D1

2

0

2

G(D,A1)=0.9183

D2

1

1

0

A4

D1

1

1

0

G(D,A4)=0.9183

D2

2

0

2

A5

D1

1

1

0

G(D,A5)=0.9183

D2

1

0

1

D3

1

0

1


H(D)=0.9183  g(D,A1)=0.9183  g(D,A4)=0.9183  g(D,A5)=0.9183

根据计算结果,选择A1或A4或A5作为根节点都可以,这里选择A1作为根节点。根据A1的取值将集合S22划分为S221={12},S222={7,9} 此时,S221和S222已为叶节点。对于集合S23,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

3

2

H(D)=0.9710

A1

D1

3

1

2

G(D,A1)=0.4200

D2

2

2

0

A4

D1

4

3

1

G(D,A4)=0.3220

D2

1

0

1

A5

D1

2

2

0

G(D,A5)=0.5710

D2

1

0

1

D3

2

1

1


H(D)=0.9710  g(D,A1)=0.4200  g(D,A4)=0.3220  g(D,A5)=0.5710

根据计算结果,选择A4作为根节点。根据A4的取值将S23划分为S231={3,10,13,15},S232={1}.对集合S231,计算统计结果为


 

 

 

class=1

class=2

 

D

 

 

3

1

H(D)=0.8113

A1

D1

2

1

1

G(D,A1)= 0.3113

D2

2

2

0

A5

D1

2

2

0

G(D,A5)= 0.3113

D2

0

0

0

D3

2

1

1


H(D)=0.8113  g(D,A1)=0.3113  g(D,A5)=0.3113

根据计算结果,选择A1或A5作为S231的根节点都可以,这里选择A1作为其根节点,根据A1的取值将集合S231划分为S2311={3,10},S2312={13,15}。集合S2311选择A5作为根节点,将集合S2311划分为S23111={3} , S23113={10}。至此极大熵决策树就可以建立起来了,如下图所示



3.  拓展

     利用极小熵生成的决策树不一定是“最小决策树”。因为用极小熵生成的决策树可能存在过拟合,对训练数据分类很好,但对测试数据不一定好。一般需要对生成的决策树做剪枝处理,减掉过于细分的叶节点。使其退回到父节点,然后将父节点改为新的叶节点。







推荐阅读
  • 本文比较了eBPF和WebAssembly作为云原生VM的特点和应用领域。eBPF作为运行在Linux内核中的轻量级代码执行沙箱,适用于网络或安全相关的任务;而WebAssembly作为图灵完备的语言,在商业应用中具有优势。同时,介绍了WebAssembly在Linux内核中运行的尝试以及基于LLVM的云原生WebAssembly编译器WasmEdge Runtime的案例,展示了WebAssembly作为原生应用程序的潜力。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 【Windows】实现微信双开或多开的方法及步骤详解
    本文介绍了在Windows系统下实现微信双开或多开的方法,通过安装微信电脑版、复制微信程序启动路径、修改文本文件为bat文件等步骤,实现同时登录两个或多个微信的效果。相比于使用虚拟机的方法,本方法更简单易行,适用于任何电脑,并且不会消耗过多系统资源。详细步骤和原理解释请参考本文内容。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
author-avatar
小TMM_
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有