CART决策树与随机森林详解

作者：DOOD眷顾 | 来源：互联网 | 2024-12-16 16:54

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。

CART决策树

分裂准则
- CART通过计算每个潜在分裂点的基尼指数（Gini Index）来决定如何将当前节点的数据集分为两个子集。基尼指数越小，说明纯度越高。
- 基尼指数的计算公式为：$$gini_{child} = 1 - \sum_{i=1}^{K} p_{ti}^2$$ 其中，K代表类别总数，而$p_{ti}$则表示子集中属于第i类的比例。
- 分裂后整体基尼指数的计算方式为：$$gini_s = \frac{N_1}{N} gini_{child_1} + \frac{N_2}{N} gini_{child_2}$$ 其中N为分裂前的数据总量，$N_1$和$N_2$分别为分裂后两个子集的数据量。
- 选择能够使$gini_s$值最小的特征和分裂点来进行实际的分裂操作。
防止过拟合的措施
- 限制树的最大深度（max_depth参数），避免树过于复杂。
- 规定每个叶节点至少需要包含的样本数量（min_samples_leaf参数），确保有足够的数据支持决策。
- 采用剪枝技术，去除不必要的分支，简化模型结构。
解决样本不均衡的问题
- 当训练集中某些类别的样本数量远少于其他类别时，可以通过为这些少数类分配更高的权重（class_weight参数）来平衡各类别之间的影响力。具体来说，可以通过调整每个类别的权重来影响基尼指数的计算，如：$$p_{ti} = \frac{w_{i} m_i}{\sum_{i=1}^{K} w_{i} m_i}$$ 其中$m_i$是子集中属于第i类的样本数。
应用于回归问题
- 在回归任务中，CART同样适用，但其分裂标准从基尼指数转变为均方误差（Mean Squared Error, MSE）。MSE的定义为：$$MSE_{child} = \frac{1}{N_{child}} \sum_{i \in child} (y_i - \bar{y}_{child})^2$$ 这里，$\bar{y}_{child}$表示子集中所有样本的平均值。

随机森林

引入随机性
- 随机森林通过从原始数据集中有放回地抽取N个样本（bootstrap方法）来构建每棵树，这有助于提高模型的泛化能力。
- 在每次分裂时，仅从所有可能的特征中随机选择一部分作为候选（max_features参数），增加了模型的多样性。
处理样本不均衡
- 与CART类似，随机森林也允许通过设置class_weight参数来应对样本不平衡的情况，确保所有类别都能得到合理的关注。
利用OOB估计评估性能
- OOB（Out-Of-Bag）估计是一种评估随机森林性能的有效方法。它基于未参与特定树构建的样本（即袋外样本）来进行预测，并据此计算模型的整体准确性。
- OOB估计的有效性依赖于bootstrap参数是否开启，因为只有在这种情况下，每个样本才有可能成为其他树的袋外样本。
衡量特征重要性
- 在构建CART的过程中，如果某个特征在多次分裂中显著降低了基尼指数或MSE，则认为该特征较为重要。
- 随机森林汇总了所有单个树的特征重要性得分，提供了对各特征整体贡献度的综合评价（feature_importances_属性）。

推荐阅读

uri
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
int
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
int
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
数组
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39
数组
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19
int
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
数组
由二叉树到贪心算法

二叉树很重要树是数据结构中的重中之重，尤其以各类二叉树为学习的难点。单就面试而言，在 ... [详细]

蜡笔小新 2024-12-21 13:13:13
int
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
int
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
int
长春大学软件工程：二叉排序树实验报告

本实验主要探讨了二叉排序树（BST）的基本操作，包括创建、查找和删除节点。通过具体实例和代码实现，详细介绍了如何使用递归和非递归方法进行关键字查找，并展示了删除特定节点后的树结构变化。 ... [详细]

蜡笔小新 2024-12-26 15:32:56
int
探索1000以内的完美数：因数和等于自身

本文探讨了如何在1000以内找到所有完美数，即一个数的因数（不包括自身）之和等于该数本身。例如，6是一个完美数，因为1 + 2 + 3 = 6。通过编程实现这一过程，可以更好地理解完美数的特性。 ... [详细]

蜡笔小新 2024-12-25 19:21:06
数组
Codeforces Round #566 (Div. 2) A~F个人题解

Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意：给你一个的表格，你 ... [详细]

蜡笔小新 2024-12-25 18:41:21
int
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
function
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09

DOOD眷顾

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章