作者:逍遥子2502897751 | 来源:互联网 | 2023-07-02 15:17
前面,小编和大家一起学习了关于决策树C5.0算法进行决策树分析,今天,继续学习使用CART算法进行决策树分析。
首先,我们了解一下CART算法与C5.0算法的区别:
- 目标变量类型:C5.0算法只能处理分类型目标变量,CART算法既能处理分类型,也能处理连续型目标变量生成分类树;
- 衡量指标不同:在决策树生长阶段,CART算法分别采用基尼系数(分类树)以及方差(回归树)作为树生长的衡量指标;
- 修剪方法不同:C5.0基于悲观误差估计进行剪枝,而CART算法是根据最小代价复杂度剪枝;
- 树形结构不同:CART决策树是一种二叉树结构,无论变量的水平有多少种,最后只会生成两个分支。C5.0决策树则能生成多叉树。
1. CART算法实现决策树分析
CART决策树节点
案例:Demo数据文件“bankloan.sav”。(违约风险分析,识别每名客户属于违约组还是非违约组)
数据流:
类型节点中进行角色设定:
2. 数据准备
2.1 利用选择节点,删除缺失值
剔除数据中的缺失数据。
2.2 利用分区节点,对数据进行分区
C&R树节点还会从训练集中抽取样本作为检验集,所以选择80%作为训练集,20%作为测试集。
3. 建模设置
3.1 构建选项卡
3.11 目标选项
3.12 基本选项
3.13 中止规则选项
3.14 成本和先验选项
3.15 高级选项
4. 模型结果
可以看出,CART算法生成的决策树比C5.0的更加简洁。