决策树的基本ID3算法

作者：咖喱2502894907 | 来源：互联网 | 2023-09-04 23:13

一 ID3算法的大致思想基本的ID3算法是通过自顶向下构造决策树来进行学习的。我们首先思考的是树的构造从哪里开始，这就涉及到选择属性进行树的构造了，那么怎样选择属性呢？

一 ID3算法的大致思想

基本的ID3算法是通过自顶向下构造决策树来进行学习的。我们首先思考的是树的构造从哪里开始，这就涉及到选择属性进行树的构造了，那么怎样选择属性呢？为了解决这个问题，我们使用统计测试来确定每一个实例属性单独分类训练样例的能力，把分类能力最好的属性作为树根节点的测试。然后为根节点属性的每个可能值产生一个分支，并把训练样例排列到适当的分支之下。然后重复整个过程，用每个分支节点关联的训练样例来选取在该点被测试的最佳属性。这形成了对合格决策树的贪婪搜索，也就是算法从不回溯重新考虑以前的选择。

下面是ID3算法进行二分类的流程

从图中我们可以看出决策树的构造是一个递归的过程

二熵（entropy）和信息增益（information gain）

       ID3算法的核心问题是选取在树的每个结点要测试的属性，这里我们用属性的信息增益来衡量属性对训练样例的区分能力，属性的信息增益越大，表示区分能力越强。ID3算法在增长树的每一步使用信息增益标准从候选属性中选择属性。

     首先在这里说一下熵的概念，在信息论中广泛使用的一个度量标准，称为熵，它刻画了任意样例集的纯度。

给定包含关于某个目标概念的正反样例的样例集S，那么S相对这个布尔型分类的熵为：
Entropy(S) ≡-p⊕log2p⊕-pΘlog2pΘ

其中p⊕是S中正例的比例，pΘ是在S中反例的比例。如果S的所有成员属于同一类，辣么S的熵为0，当集合中正反样例的数量相等时熵为1，其他情况介于0和1之间。

上面是关于目标分类为bool类型下的熵，更一般的，如果目标属性具有c个不同的值，那么S相对于c个状态的分类的熵定义为：

其中pi 是S中属于类别i的比例。

用信息增益度量期望的熵降低

     有了熵作为衡量训练样例集合纯度的标准，现在可以定义属性分类数据的效力的度量标准。这个标准被称为信息增益。简单的说，一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低。更精确地说，一个属性A相对样例集合S的信息增益Gain(S,A)被定义为：

其中Values(A)是属性A所有可能值的集合，Sv是属性A的值为v的子集。等式的第一项就是原来集合S的熵，第二项是用A分类S后熵的期望值。这个第二项描述的期望熵就是每个子集的熵的加权和，权值为属于Sv的样例占原始样例S的比例，所以Gain（S，A）是由于知道属性A的值而导致的期望熵减少。

三使用python实现一个简单的决策树的生成

1. 计算数据集的香农熵

  1 """
  2 Created on Sat May 14 13:58:26 2016
  3 
  4 @author: MyHome
  5 """
  6 '''计算给定数据集的香农熵'''
  7 
  8 from math import log
  9 
 10 def calcShannonEnt(dataSet):
 11     numEntries = len(dataSet)
 12     labelCounts = {}
 13     for featVec in dataSet:
 14         currentLabel = featVec[-1]
 15         labelCounts[currentLabel] = labelCounts.get(currentLabel,0) + 1
 16     shannOnEnt= 0.0
 17     for key in labelCounts:
 18         pro = float(labelCounts[key])/numEntries
 19         shannOnEnt= -pro * log(pro,2)
 20 
 21     return shannonEnt

2.创建数据

  1 
  2 def createDataSet():
  3 
  4 
  5     dataSet = [['Sunny','Hot','High','Weak','No'],['Sunny','Hot','High','Strong','No'],\
  6               ['Overcast','Hot','High','Weak','Yes'],['Rain','Mild','High','Weak','Yes'],\
  7               ['Rain','Cool','Normal','Weak','Yes'],['Rain','Cool','Normal','Strong','No'],\
  8               ['Overcast','Cool','Normal','Strong','Yes'],['Sunny','Mild','High','Weak','No'],\
  9               ['Sunny','Cool','Normal','Weak','Yes'],['Rain','Mild','Normal','Weak','Yes'],\
 10               ['Sunny','Mild','Normal','Strong','Yes'],['Overcast','Mild','High','Strong','Yes'],\
 11               ['Overcast','Hot','Normal','Weak','Yes'],['Rain','Mild','High','Strong','No']]
 12 
 13     labels = ['Outlook','Temperature','Humidity','Wind']
 14     return dataSet,labels

3.按照给定的特征划分数据集（根据某一属性的属性值对数据集进行划分）

  1 def splitDataSet(dataSet,axis,value):
  2     retDataSet = []
  3     for featVec in dataSet:
  4         if featVec[axis] == value:
  5             reducedFeatVec = featVec[:axis]
  6             reducedFeatVec.extend(featVec[axis + 1 :])
  7             retDataSet.append(reducedFeatVec)
  8 
  9     return retDataSet
 10

4.计算数据集中各属性的信息增益，选出当前最佳分类属性

  1 def chooseBestFeatureToSplit(dataSet):
  2     numFeatures = len(dataSet[0]) - 1
  3     baseEntropy = calcShannonEnt(dataSet)
  4     bestInfoGain = 0.0
  5     bestFeature = -1
  6     for i in range(numFeatures):
  7         featList = [example[i] for example in dataSet]
  8         uniqueVals = set(featList)
  9         newEntropy = 0.0
 10         for value in uniqueVals:
 11             subDataSet =  splitDataSet(dataSet,i,value)
 12             prob = len(subDataSet)/float(len(dataSet))
 13             newEntropy += prob *calcShannonEnt(subDataSet)
 14         infoGain = baseEntropy - newEntropy
 15         if (infoGain >bestInfoGain):
 16             bestInfoGain = infoGain
 17             bestFeature = i
 18     return bestFeature
 19

5.如果数据集已经处理了所有属性，但是类标签依然不是唯一的，此时我们需要决定如何定义该叶子节点，在这种情况下，我们通常会采用多数表决的方法决定该叶子节点的分类

  1 def majorityCnt(classList):
  2     classCount = {}
  3     for vote in classList:
  4         if vote not in classCount.keys():
  5             classCount[vote] = 0
  6         classCount[vote] += 1
  7 
  8         sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)
  9 
 10         return sortedClassCount[0][0]
 11

6. 构造树

  1 def createTree(dataSet,labels):
  2     classList = [example[-1] for example in dataSet]
  3     if classList.count(classList[0]) == len(classList):
  4         return classList[0]
  5     if len(dataSet[0]) == 1:
  6         return majorityCnt(classList)
  7     bestFeat = chooseBestFeatureToSplit(dataSet)
  8     bestFeatLabel = labels[bestFeat]
  9     myTree = {bestFeatLabel:{}}
 10     del(labels[bestFeat])
 11     featValues = [example[bestFeat] for example in dataSet]
 12     uniqueVals = set(featValues)
 13     for value in uniqueVals:
 14         subLabels = labels[:]
 15         myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
 16     return myTree

7.运行结果

  1 dataSet,labels = createDataSet()
  2 
  3 createTree(dataSet,labels)
  4 Out[10]:
  5 {'Outlook': {'Overcast': 'Yes',
  6   'Rain': {'Wind': {'Strong': 'No', 'Weak': 'Yes'}},
  7   'Sunny': {'Humidity': {'High': 'No', 'Normal': 'Yes'}}}}
  8

根据结果我们可以画出决策树

四总结

我们通过不断选取当前最佳属性来把数据集进行划分，直到遍历所有属性或每个分支下的所有样例都为同一类为止，这是一个不断递归生成树的过程。

推荐阅读

utf-8
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
split
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
get
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
get
模板引擎StringTemplate的使用方法和特点

本文介绍了模板引擎StringTemplate的使用方法和特点，包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时，还介绍了StringTemplate语法中的属性和普通字符的使用方法，并提供了向模板填充属性的示例代码。 ... [详细]

蜡笔小新 2023-12-11 21:45:03
get
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
get
WPF之Binding初探

初学wpf，经常被Binding搞晕，以下记录写Binding的基础。首先，盗用张图。这图形象的说明了Binding的机理。对于Binding,意思是数据绑定，基本用法是：1、 ... [详细]

蜡笔小新 2023-10-17 17:01:37
get
获取时间的函数js代码,js获取时区代码

本文目录一览：1、js获取服务器时间（动态）2 ... [详细]

蜡笔小新 2023-10-17 16:49:20
get
详解 Python 的二元算术运算，为什么说减法只是语法糖？[Python常见问题]

原题|UnravellingbinaryarithmeticoperationsinPython作者|BrettCannon译者|豌豆花下猫（“Python猫 ... [详细]

蜡笔小新 2023-10-17 15:28:24
cookie
渗透测试基础bypass绕过阻挡我们的WAF（下）

渗透测试基础-bypass ... [详细]

蜡笔小新 2023-10-17 13:05:59
get
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
get
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
get
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
python
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
split
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
split
数学建模入门python绘制频率直方图

文章目录例题数据处理绘图操作调用演示例题数据处理将以下的数据保存到磁盘上17275169551696417165167471716216867165521696216865 ... [详细]

蜡笔小新 2023-10-17 15:01:10

咖喱2502894907

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章