C5.0算法学习

作者：码天下 | 来源：互联网 | 2023-09-11 15:36

C5.0是决策树模型中的算法，79年由JRQuinlan发展，并提出了ID3算法，主要针对离散型属性数据，其后又不断的改进，形成C4.5，它在ID3基础上增加了对连续属性的离散化。C5.0

C5.0是决策树模型中的算法，79年由J R Quinlan发展，并提出了ID3算法，主要针对离散型属性数据，其后又不断的改进，形成C4.5，它在ID3基础上增加了对连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改进。

C4.5算法是ID3算法的修订版，采用GainRatio来进行改进，选取有最大GainRatio的分割变量作为准则，避免ID3算法过度配适的问题。

C5.0算法则是C4.5算法的修订版，适用于处理大数据集，采用Boosting方式提高模型准确率，又称为BoostingTrees，在软件上计算速度比较快，占用的内存资源较少。

决策树模型，也称规则推理模型。通过对训练样本的学习，建立分类规则；依据分类规则，实现对新样本的分类；属于有指导（监督）式的学习方法，有两类变量：目标变量（输出变量），属性变量（输入变量）。

决策树模型与一般统计分类模型的主要区别：决策树的分类是基于逻辑的，一般统计分类模型是基于非逻辑的。

常见的算法有CHAID、CART、Quest和C5.0。对于每一个决策要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。

决策树很擅长处理非数值型数据，这与神经网络智能处理数值型数据比较而言，就免去了很多数据预处理工作。

C5.0是经典的决策树模型算法之一，可生成多分支的决策树，目标变量为分类变量，使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能在被拆分为止。最后，关注最低层次的拆分，那些对模型值没有显著贡献的样本子集被提出或者修剪。

C5.0优点：

C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健；

C5.0模型比一些其他类型的模型易于理解，模型退出的规则有非常直观的解释；

C5.0也提供强大技术以提高分类的精度。

C5.0算法

C5.0算法选择分支变量的依据：以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。

信息熵：信息量的数学期望，是信源发出信息前的平均不确定性，也称先验熵。

信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型，å P(ui)＝1；

信息量(单位是bit，对的底数取2)：

信息熵：先验不确定性：

•信息熵H(U)的性质

•H(U)=0时，表示只存在唯一的可能性，不存在不确定性

• 如果信源的k个信号有相同的发出概率，即所有的ui有P(ui)=1/k， H(U)达到最大，不确定性最大

• P( u i ) 差别越小， H ( U ) 就越大； P( u i ) 差别大， H ( U ) 就越小

决策树中熵的应用：

设S是一个样本集合，目标变量C有K个分类，freq(Ci，S)表示属于Ci类的样本数，|S|表示样本几何S的样本数。则几何S的信息熵定义为：

如果某属性变量T,有N个分类，则属性变量T引入后的条件熵定义为：

属性变量T带来的信息增益为：

C5.0算法示例：

该组样本的熵：

关于T1的条件熵为：

T1带来的信息增益为：

推荐阅读

python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
python
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
python
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
rsa
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
go
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
get
求助：C语言实现哈夫曼树编码与解码系统

最近遇到了一道关于哈夫曼树的编程题目，需要在下午之前完成。题目要求设计一个哈夫曼编码和解码系统，能够反复显示和处理多个项目，直到用户选择退出。希望各位大神能够提供帮助。 ... [详细]

蜡笔小新 2024-11-15 19:59:41
instance
Vision Transformer (ViT) 和 DETR 深度解析

本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理，并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客，对 ViT 的全流程进行了详细的笔记整理，包括代码详解和关键概念的解释。 ... [详细]

蜡笔小新 2024-11-12 20:32:38
python
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
python
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
go
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
get
清华大学出版社 | 杨丹：基于MATLAB机器视觉的黑色素瘤皮肤癌检测技术及源代码分析（第1689期）

清华大学出版社 | 杨丹：基于MATLAB机器视觉的黑色素瘤皮肤癌检测技术及源代码分析（第1689期） ... [详细]

蜡笔小新 2024-11-07 13:30:09
get
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
go
深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树

深入探讨：Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树 ... [详细]

蜡笔小新 2024-11-05 10:24:10
get
二叉树路径和的深度解析与算法优化

本文深入探讨了二叉树路径和问题的算法优化方法。具体而言，给定一棵二叉树，需要找出所有从根节点到叶节点的路径，其中各节点值的总和等于指定的目标值。通过详细分析和优化，提出了一种高效的解决方案，并通过多个样例验证了其有效性和性能。 ... [详细]

蜡笔小新 2024-11-05 08:59:40
go
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34

码天下

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章