决策树在鸢尾花数据集上对不同特征组合的分类效果分析及模型性能比较

作者：三封酒可_894 | 来源：互联网 | 2024-10-25 19:17

本文探讨了决策树算法在鸢尾花数据集上的应用，分析了不同特征组合对分类效果的影响，并对模型性能进行了详细比较。决策树作为一种层次化的分类方法，通过递归地划分特征空间，形成树状结构，每个节点代表一个特征判断，最终达到分类目的。研究结果表明，不同特征组合对模型性能有显著影响，为实际应用提供了重要参考。

一、什么是决策树

决策树算法&＃xff0c;人如其名&＃xff0c;结构就像一棵树&＃xff0c;有分叉的枝丫和树叶。枝丫的分叉处是关于目标某一个特征的判断&＃xff0c;枝丫本体则是关于该特征的判断结果&＃xff0c;而叶子则是判断过后产生的决策结果。

上图就是一个最为简单的分类树决策&＃xff0c;当我们看天气预报时&＃xff0c;根据降雨、雾霾、气温、活动范围是室内活动还是室外活动等等特征将自己的行为分类为出门和不出门。简单来说&＃xff0c;决策树可以被看做由一大堆if-then的判断&＃xff0c;每一条枝丫都是一条规则。

决策树算法的核心解决两个问题&＃xff1a;

如何从数据表中找出最佳节点和最佳分枝&＃xff1f;
决策树是对特征提问&＃xff0c;如何找出最佳节点和最佳分支&＃xff0c;我怎么知道哪些特征提问&＃xff0c;才能生成有效的树呢&＃xff1f;
如何让决策树停止增长&＃xff0c;防止过拟合&＃xff1f;
如果我有无数个特征&＃xff0c;决策树会长成什么样子&＃xff0c;他是不是会长成无数层深&＃xff0c;我们要怎么样让它停止成长呢&＃xff1f;怎么样防止过拟合呢&＃xff1f;

1.1 决策树的优点

计算简单&＃xff0c;易于理解&＃xff0c;可解释性强;
比较适合处理有缺失属性的样本;
能够处理不相关的特征;
在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

1.2 决策树的缺点

容易发生过拟合(随机森林可以很大程度上减少过拟合);
忽略了数据之间的相关性;
对于那些各类别样本数量不一致的数据&＃xff0c;在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是>- 使用了信息增益&＃xff0c;都有这个缺点&＃xff0c;如RF)。

决策树可以用来分类&＃xff0c;也可以用来回归。

1.3 决策树参数

sklearn决策树的两个类&＃xff1a;

tree.DecisionTreeClassifier() tree.DecisionTreeRegressor()

决策树的重要参数Criterion&＃xff1a;

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择&＃xff1a;

“entropy”&＃xff0c;使用信息熵&＃xff08;Entropy&＃xff09;
“gini”&＃xff0c;使用基尼系数&＃xff08;Gini Impurity&＃xff09;

通常就使用基尼系数
数据维度很大&＃xff0c;噪音很大时使用基尼系数
维度低&＃xff0c;数据比较清晰的时候&＃xff0c;信息熵和基尼系数没区别

决策树的重要参数random_state&＃xff1a;

random_state用来设置分枝中的随机模式的参数&＃xff0c;默认None&＃xff0c;在高维度时随机性会表现更明显&＃xff0c;低维度的数据&＃xff08;比如鸢尾花数据集&＃xff09;&＃xff0c;随机性几乎不会显现。输入任意整数&＃xff0c;会一直长出同一棵树&＃xff0c;让模型稳定下来。

决策树的重要参数splitter&＃xff1a;

splitter也是用来控制决策树中的随机选项的&＃xff0c;有两种输入值&＃xff0c;输入”best”&＃xff0c;决策树在分枝时虽然随机&＃xff0c;但是还是会优先选择更重要的特征进行分枝&＃xff08;重要性可以通过属性feature_importances_查看&＃xff09;&＃xff0c;输入“random”&＃xff0c;决策树在分枝时会更加随机&＃xff0c;树会因为含有更多的不必要信息而更深更大&＃xff0c;并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合&＃xff0c;用这两个参数来帮助你降低树建成之后过拟合的可能性。当然&＃xff0c;树一旦建成&＃xff0c;我们依然是使用剪枝参数来防止过拟合。

剪枝参数

在不加限制的情况下&＃xff0c;一棵决策树会生长到衡量不纯度的指标最优&＃xff0c;或者没有更多的特征可用为止。这样的决策树往往会过拟合&＃xff0c;过拟合这就是说&＃xff0c;它会在训练集上表现很好&＃xff0c;在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致&＃xff0c;因此当一棵决策树对训练数据有了过于优秀的解释性&＃xff0c;它找出的规则必然包含了训练样本中的噪声&＃xff0c;并使它对未知数据的拟合程度不足。

剪枝策略对决策树的影响巨大&＃xff0c;正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略&＃xff1a;

1. max_depth
限制树的最大深度&＃xff0c;超过设定深度的树枝全部剪掉
这是用得最广泛的剪枝参数&＃xff0c;在高维度低样本量时非常有效。决策树多生长一层&＃xff0c;对样本量的需求会增加一倍&＃xff0c;所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时&＃xff0c;建议从&＃61;3开始尝试&＃xff0c;看看拟合的效果再决定是否增加设定深度。
2. min_samples_leaf
min_samples_leaf 限定&＃xff0c;一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本&＃xff0c;否则分枝就不会发生&＃xff0c;或者&＃xff0c;分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生
一般搭配max_depth使用&＃xff0c;在回归树中有神奇的效果&＃xff0c;可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合&＃xff0c;设置得太大就会阻止模型学习数据。一般来说&＃xff0c;建议从&＃61;5开始使用。如果叶节点中含有的样本量变化很大&＃xff0c;建议输入浮点数作为样本量的百分比来使用。同时&＃xff0c;这个参数可以保证每个叶子的最小尺寸&＃xff0c;可以在回归问题中避免低方差&＃xff0c;过拟合的叶子节点出现。对于类别不多的分类问题&＃xff0c;&＃61;1通常就是最佳选择。
3. min_samples_split
min_samples_split限定&＃xff0c;一个节点必须要包含至少min_samples_split个训练样本&＃xff0c;这个节点才允许被分枝&＃xff0c;否则分枝就不会发生。
如果一个样本包20个样本&＃xff0c;我们在不限定的情况下会不断分下去的&＃xff0c;如果设定min_samples_split&＃61;15&＃xff0c;那么这个节点就不会分了。

二、决策树分类

2.1 准备数据

iris &＃61; pd.read_csv(&＃39;http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data&＃39;,header&＃61;None) iris.columns&＃61;[&＃39;SepalLengthCm&＃39;,&＃39;SepalWidthCm&＃39;,&＃39;PetalLengthCm&＃39;,&＃39;PetalWidthCm&＃39;,&＃39;Species&＃39;]le &＃61; LabelEncoder() le.fit(iris[&＃39;Species&＃39;]) features &＃61; [&＃39;SepalWidthCm&＃39;,&＃39;PetalWidthCm&＃39;] X &＃61; iris[features] y &＃61; le.transform(iris[&＃39;Species&＃39;])

2.2 进行分类

tr &＃61; tree.DecisionTreeClassifier() tr.fit(X,y) score &＃61; numpy.mean(cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;accuracy&＃39;)) print(&＃39;决策树分类模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))

输出的结果&＃xff1a;决策树分类模型平均性能得分&＃xff1a;0.933333333333

我们修改一下决策树的参数在进行一次模型性能评估。

tr &＃61; tree.DecisionTreeClassifier(criterion&＃61;"entropy",random_state&＃61;10,splitter&＃61;"best",max_depth&＃61;10,min_samples_leaf&＃61;5,min_samples_split&＃61;5) score &＃61; numpy.mean(cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;accuracy&＃39;)) print(&＃39;决策树分类模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))

输出结果&＃xff1a;决策树分类模型平均性能得分&＃xff1a;0.94&＃xff0c;稍微好一点。参数的其他选项请自行测试。

2.3 和logistic分类对比

lm &＃61; linear_model.LogisticRegression() score &＃61; numpy.mean(cross_val_score(lm,X,y,cv&＃61;5,scoring&＃61;&＃39;accuracy&＃39;)) print(&＃39;logistic回归模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))

输出的结果&＃xff1a;logistic回归模型平均性能得分&＃xff1a;0.94
可见&＃xff0c;在此数据集中&＃xff0c;logistic模型和决策树模型的准确率差不多。

如何生成决策树可视化&＃xff0c;请参考模块graphviz

三、决策树回归

我们上面已经准备好数据了&＃xff0c;我们只需要构造一下我们的因变量y&＃xff0c;让它y &＃61; iris[‘PetalWidthCm’]

3.1 进行回归

y &＃61; iris[&＃39;PetalWidthCm&＃39;] tr &＃61; tree.DecisionTreeRegressor() score &＃61; numpy.mean(-cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;neg_mean_squared_error&＃39;)) print(&＃39;平均性能得分&＃xff1a;&＃39;&＃43;str(score))

输出结果为&＃xff1a;决策树回归模型平均性能得分&＃xff1a;0.0008

3.2 和线性回归对比

lm &＃61; linear_model.LinearRegression() score &＃61; numpy.mean(-cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;neg_mean_squared_error&＃39;)) print(&＃39;线性回归模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))

输出结果为&＃xff1a;决策树回归模型平均性能得分&＃xff1a;0.0042

可以看到决策树回归模型性能更好。未来我会对如何选择最优的特征值&＃xff0c;如何选择最优的模型&＃xff0c;如何选最优的模型参数进行详细深入的分享。

全部代码

import pandas as pd from sklearn.model_selection import cross_val_score import numpy from sklearn.preprocessing import LabelEncoder from sklearn import linear_model from sklearn import tree from sklearn import ensembleiris &＃61; pd.read_csv(&＃39;http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data&＃39;,header&＃61;None) iris.columns&＃61;[&＃39;SepalLengthCm&＃39;,&＃39;SepalWidthCm&＃39;,&＃39;PetalLengthCm&＃39;,&＃39;PetalWidthCm&＃39;,&＃39;Species&＃39;]le &＃61; LabelEncoder() le.fit(iris[&＃39;Species&＃39;]) features &＃61; [&＃39;SepalWidthCm&＃39;,&＃39;PetalWidthCm&＃39;] X &＃61; iris[features] y &＃61; le.transform(iris[&＃39;Species&＃39;])tr &＃61; tree.DecisionTreeClassifier(criterion&＃61;"entropy",random_state&＃61;10,splitter&＃61;"best",max_depth&＃61;10,min_samples_leaf&＃61;5,min_samples_split&＃61;5) score &＃61; numpy.mean(cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;accuracy&＃39;)) print(&＃39;决策树分类模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))lm &＃61; linear_model.LogisticRegression() score &＃61; numpy.mean(cross_val_score(lm,X,y,cv&＃61;5,scoring&＃61;&＃39;accuracy&＃39;)) print(&＃39;logistic回归模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))y &＃61; iris[&＃39;PetalWidthCm&＃39;] tr &＃61; tree.DecisionTreeRegressor() score &＃61; numpy.mean(-cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;neg_mean_squared_error&＃39;)) print(&＃39;决策树回归模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))lm &＃61; linear_model.LinearRegression() score &＃61; numpy.mean(-cross_val_score(tr,X,y,cv&＃61;5,scoring&＃61;&＃39;neg_mean_squared_error&＃39;)) print(&＃39;线性回归模型平均性能得分&＃xff1a;&＃39;&＃43;str(score))

推荐阅读

import
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
client
Kubernetes 持久化存储与数据卷详解

本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理，旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]

蜡笔小新 2024-12-23 12:10:22
lua
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
stream
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
stream
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
select
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
import
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
stream
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
join
ImmutableX Poised to Pioneer Web3 Gaming Revolution

ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]

蜡笔小新 2024-12-27 08:55:17
join
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
join
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
client
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
client
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39
import
社交网络中的级联行为

社交网络中的级联行为 ... [详细]

蜡笔小新 2024-12-22 16:47:55
sum
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19

三封酒可_894

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章