一.
训练集:
决策属性:感冒
条件属性:体温,流鼻涕,肌肉疼,头疼
(P为感冒,N为没感冒)
二.
熵:
有C个分类,则熵为
用属性分割集合S后熵的期望值:
信息增益:
训练集的熵:
用属性body temp划分数据集,{normal,high,very high},则
那么用属性body temp分割集合S后熵的期望值为
所以
属性bodytemp的信息增益为
同理,属性snot, musclepain, headache的信息增益也可以求得:
发现属性snot的信息增益最大,于是选择snot属性作为根节点
(1)在snot=True分枝:
则选择bodytemp属性作为snot=True分枝的结点
(2)在snot=false分支:
Gain(snot=False,bodytemp)= Gain(snot=False,musclepain)则选择分枝少的属性作为snot=false分枝的结点,即选择musclepain属性。
(3)继续重复上述步骤,生成决策树。