Peter教你谈情说AI|07决策树(上)—既能回归又能分类的模型

作者：可爱竹子16 | 来源：互联网 | 2024-10-21 06:03

原创：Peter盼人人都是极客2018-10-31决策树前面我们讲了线性回归模型和朴素贝叶斯分类模型。前者只能做回归，后者只能做分类。但本文中要讲的

原创&＃xff1a; Peter盼人人都是极客 2018-10-31

决策树

前面我们讲了线性回归模型和朴素贝叶斯分类模型。前者只能做回归&＃xff0c;后者只能做分类。但本文中要讲的决策树模型&＃xff0c;却既可以用于回归&＃xff0c;又可以用于分类。

什么是决策树:

决策树是一种非常基础又常见的机器学习模型。

一棵决策树是一个树结构&＃xff0c;每个非叶节点对应一个特征&＃xff0c;该节点的每个分支代表这个特征的一个取值&＃xff0c;而每个叶节点存放一个类别或一个回归函数。使用决策树进行决策的过程就是从根节点开始&＃xff0c;提取出待分类项中相应的特征&＃xff0c;按照其值选择输出分支&＃xff0c;依次向下&＃xff0c;直到到达叶子节点&＃xff0c;将叶子节点存放的类别或者回归函数的运算结果作为输出&＃xff08;决策&＃xff09;结果。

下图是一个决策树的例子&＃xff1a;

这棵树的作用&＃xff0c;是对要不要接受一个 Offer 做出判断。

我们看到&＃xff0c;这棵树一共有7个节点&＃xff0c;其中有4个叶子节点和3个非叶子节点。它是一棵分类树&＃xff0c;每个叶子节点对应一个类别。从图中我们也可以看出&＃xff0c;总共只有2个类别&＃xff1a;accept offer&＃xff08;接受&＃xff09;和 decline offer&＃xff08;拒绝&＃xff09;。

以上例而言&＃xff0c;拿到一个 Offer 后&＃xff0c;要判断三个条件&＃xff1a;&＃xff08;1&＃xff09;年薪&＃xff1b;&＃xff08;2&＃xff09;通勤时间&＃xff1b;&＃xff08;3&＃xff09;免费咖啡。这三个条件的重要程度显然是不一样的&＃xff0c;最重要的是根节点&＃xff0c;越靠近根节点&＃xff0c;也就越重要——如果年薪低于5万美元&＃xff0c;也就不用考虑了&＃xff0c;直接 say no&＃xff1b;当工资足够时&＃xff0c;如果通勤时间大于一个小时&＃xff0c;也不去那里上班&＃xff1b;就算通勤时间不超过一小时&＃xff0c;还要看是不是有免费咖啡&＃xff0c;没有也不去。

该树按照根节点向下的顺序筛选一个个条件&＃xff0c;直到到达叶子为止。到达的叶子所对应的类别就是预测结果。

这三个非叶子节点&＃xff0c;统称决策节点&＃xff0c;每个节点对应一个条件判断&＃xff0c;这个条件判断的条件&＃xff0c;我们叫做特征。上例是一个有三个特征的分类树。

构建决策树:

前面我们讲了&＃xff0c;获得一种模型的过程叫训练&＃xff0c;那么我们如何训练可以得到一棵决策树呢&＃xff1f;

简单讲&＃xff0c;有以下几步&＃xff1a;

准备若干的训练数据&＃xff08;假设 m 个样本&＃xff09;&＃xff1b;
标明每个样本预期的类别&＃xff1b;
人为选取一些特征&＃xff08;即决策条件&＃xff09;&＃xff1b;
为每个训练样本对应所有需要的特征生成相应值——数值化特征&＃xff1b;
将通过上面的1-4步获得的训练数据输入给训练算法&＃xff0c;训练算法通过一定的原则&＃xff0c;决定各个特征的重要性程度&＃xff0c;然后按照决策重要性从高到底&＃xff0c;生成决策树。

那么训练算法到底是怎么样的&＃xff1f;决定特征重要程度的原则又是什么呢&＃xff1f;

常用算法

在讲算法前&＃xff0c;我们需要熟悉信息论中熵的概念。熵度量了事物的不确定性&＃xff0c;越不确定的事物&＃xff0c;它的熵就越大。具体的&＃xff0c;随机变量X的熵的表达式如下&＃xff1a;

其中n代表X的n种不同的离散取值。而pi代表了X取值为i的概率&＃xff0c;log为以2或者e为底的对数。

熟悉了一个变量X的熵&＃xff0c;很容易推广到多个个变量的联合熵&＃xff0c;这里给出两个变量X和Y的联合熵表达式&＃xff1a;

有了联合熵&＃xff0c;又可以得到条件熵的表达式H(X|Y)&＃xff0c;条件熵类似于条件概率,它度量了我们的X在知道Y以后剩下的不确定性。表达式如下&＃xff1a;

现在我们知道H(X)度量了X的不确定性&＃xff0c;条件熵H(X|Y)度量了我们在知道Y以后X剩下的不确定性&＃xff0c;那么H(X)-H(X|Y)呢&＃xff1f;从上面的描述大家可以看出&＃xff0c;它度量了X在知道Y以后不确定性减少程度&＃xff0c;这个度量我们在信息论中称为互信息&＃xff0c;记为I(X,Y)。在决策树ID3算法中叫做信息增益。ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。信息增益大&＃xff0c;则越适合用来分类。

ID3 算法&＃xff1a;

ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树&＃xff0c;用计算出的信息增益最大的特征来建立决策树的当前节点。这里我们举一个信息增益计算的具体的例子。比如我们有15个样本D&＃xff0c;输出为0或者1。其中有9个输出为1&＃xff0c; 6个输出为0。样本中有个特征A&＃xff0c;取值为A1&＃xff0c;A2和A3。在取值为A1的样本的输出中&＃xff0c;有3个输出为1&＃xff0c; 2个输出为0&＃xff0c;取值为A2的样本输出中,2个输出为1,3个输出为0&＃xff0c; 在取值为A3的样本中&＃xff0c;4个输出为1&＃xff0c;1个输出为0。

样本D的熵为&＃xff1a;

样本D在特征下的条件熵为&＃xff1a;

对应的信息增益为&＃xff1a;

I(D,A)&＃61;H(D)−H(D|A)&＃61;0.083

下面我们看看具体算法过程大概是怎么样的。

输入的是m个样本&＃xff0c;样本输出集合为D&＃xff0c;每个样本有n个离散特征&＃xff0c;特征集合即为A&＃xff0c;输出为决策树T。

初始化信息增益的阈值ϵ
判断样本是否为同一类输出Di&＃xff0c;如果是则返回单节点树T。标记类别为Di
判断特征是否为空&＃xff0c;如果是则返回单节点树T&＃xff0c;标记类别为样本中输出类别D实例数最多的类别。
计算A中的各个特征&＃xff08;一共n个&＃xff09;对输出D的信息增益&＃xff0c;选择信息增益最大的特征Ag
如果Ag的信息增益小于阈值ϵ&＃xff0c;则返回单节点树T&＃xff0c;标记类别为样本中输出类别D实例数最多的类别。
否则&＃xff0c;按特征Ag的不同取值Agi将对应的样本输出D分成不同的类别Di。每个类别产生一个子节点。对应特征值为Agi。返回增加了节点的数T。
对于所有的子节点&＃xff0c;令D&＃61;Di,A&＃61;A−{Ag}递归调用2-6步&＃xff0c;得到子树Ti并返回。

ID3 算法的不足&＃xff1a;

ID3算法虽然提出了新思路&＃xff0c;但是还是有很多值得改进的地方。

ID3没有考虑连续特征&＃xff0c;比如长度&＃xff0c;密度都是连续值&＃xff0c;无法在ID3运用。这大大限制了ID3的用途。
ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现&＃xff0c;在相同条件下&＃xff0c;取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值&＃xff0c;各为1/2&＃xff0c;另一个变量为3个值&＃xff0c;各为1/3&＃xff0c;其实他们都是完全不确定的变量&＃xff0c;但是取3个值的比取2个值的信息增益大。如果校正这个问题呢&＃xff1f;
ID3算法对于缺失值的情况没有做考虑
没有考虑过拟合的问题

可以看出ID3算法有四个主要的不足&＃xff0c;一是不能处理连续特征&＃xff0c;第二个就是用信息增益作为标准容易偏向于取值较多的特征&＃xff0c;最后两个是缺失值处理的问和过拟合问题。

但是C4.5算法在这几个方面进行了弥补&＃xff0c;我们下一节来看看C4.5算法。

【推荐阅读】

Peter教你谈情说AI | 01导读

Peter教你谈情说AI | 02什么是机器学习

Peter教你谈情说AI | 03机器学习三要素

Peter教你谈情说AI | 04梯度下降法

Peter教你谈情说AI | 05用梯度下降法求线性回归模型

Peter教你谈情说AI | 06朴素贝叶斯分类器

轻轻一扫欢迎关注~

如果觉得好&＃xff0c;请

推荐阅读

算法
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
算法
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
人工智能
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
算法
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
算法
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
算法
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
nlp
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
算法
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
算法
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
算法
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
人工智能
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
算法
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
算法
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
算法
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
算法
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06

可爱竹子16

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章