随机森林概述:
1.随机森林指的是利用多棵树对样本进行训练并预测的一种分类器
2.决策树相当于一个大师,通过自己在数据集中学到的知识用于新数据的分类。
随即森林原理:
— 如何构建
两个方面:
1.数据的随机性化
2.待选特征的随机化
使得随机森林中的决策树都能彼此不同,提升系统的多样性,从而提升性能。
数据的随机化:使得随机森林中的决策树更普遍化一点,适合更多的场景。(有放回的精准率在70%之上,无放回的精准率在:60%之上)
1.采用有放回的抽样方式构造子数据集,保证不同子集之间的数量级一样(不同子集/同一子集之间的元素可以重复)
2.利用子数据集来构建决策树,将这个数据放到每个子决策树中,每个子决策树输出到一个结果。
3.然后统计子决策树的投票结果,得到的最终分类就是随机森林的输出结果。
— 待选特征的随机化
1.子树丛所有的待选特征中随机选取一定的特征。
2.在选取的特征中选取最优的特征。
决策树与随机森林在特征选取的差异