作者:过客烤翅加盟889 | 来源:互联网 | 2023-07-26 19:28
决策树的损失函数通常是正则化的极大似然函数。决策树的策略是以损失函数为目标函数的最小化。当损失函数确定以后,学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策
决策树的损失函数通常是正则化的极大似然函数。决策树的策略是以损失函数为目标函数的最小化。
当损失函数确定以后,学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优的选择策略是NP完全问题,所以在现实中决策树学习算法通常采用启发方法,近似求解这一最优化问题,这样得到的决策树是次最优的。
根据信息增益准则特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
信息增益比:
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行矫正。这是特征选择的另一准则。
ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
ID3算法只有树的生成,所以该算法生成的树容易过拟合。
C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进,C4.5在生成的过程中,用信息增益比来选择特征。
为了防止过拟合,在决策树学习中将已生成的树进行简化的过程称为剪枝,具体地,剪枝从已经生成的树上裁掉一些子树或叶子节点,并将其跟结点或父结点作为新的叶的结点,从而简化树的模型。
损失函数的极小化等价于正则化的极大似然估计。所以,利用损失函数最小原则进行剪枝就是正则化的极大似然估计进行模型选择。
分类与回归树(CART)是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成。既可以用于分类也可以用于回归。
基尼指数表示集合D的不确定性,基尼指数表示经A = a 分割后集合D的不确定性。基尼指数值越大,样本集合的不确定性也就越大,这与熵相似。