1,问题描述:
小王的目的是通过下周天气预报寻找什么时候人们会运动,以适时调整雇员数量。因此首先他必须了解人们决定是否运动的原因。
在2周时间内我们得到以下记录:
天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子是否运动。最终他得到了14列5行的数据表格:
2,决策树的算法描述:建立一个data.py文件
from sklearn.feature_extraction import DictVectorizer #将dict类型的list数据,转换成numpy array
import csv #读取CSV文件
from sklearn import tree #导入决策树算法
from sklearn import preprocessing #数据预处理
alldata=open(r'C:Users14355sun.csv','r',encoding='utf-8') # 读入数据
reader=csv.reader(alldata) #用reader来代表所有数据
headers=next(reader) #header是指数据的第一行,就是数据的特征
print(headers) #因为SK包的数据输入是有一定的要求的,他的输入不能是类别。只能是 0,1。所以要先将数据转化成DICT类型
label=[] #定义一个存放标签的列表
#然后用DictVextorizer的函数进行转换
feature=[] #定义一个存放特征的列表
for row in reader: #以行遍历所有数据
label.append(row[-1]) #取出最后一个值,这个值是每条数据的标签
rowDict={} #定义一个字典类型
for i in range(1,len(row)-1 ):
if row[i].isdigit() and i>1:#对那些连续的属性值做一个简单的离散化
row[i]= int(int(row[i])/10)
rowDict[headers[i]]=row[i] #把每条数据的 特征:属性 插入字典
feature.append(rowDict) #把字典插入列表
print()
print(label)
print()
print(feature)
vec=DictVectorizer() #实例化
dummX=vec.fit_transform(feature).toarray() #使用实例内的方法对数据进行转换
print()
print(vec.get_feature_names())#打印出转换后的数据的表头
print()
print(str(dummX)) #打印出转换后的数据的表值
lb=preprocessing.LabelBinarizer() #实例化
dummY=lb.fit_transform(label) #数据的转换
print(str(dummY))
#上面的过程就是把数据都转换成符合格式的数据了
#可以调用sk包中的决策树算法进行分类
clf=tree.DecisionTreeClassifier(criterion='gini') #使用基尼指数的方法
clf=clf.fit(dummX,dummY) #构建决策树
print("clf: " + str(clf))#打印
#输出到TD3.DOT文件中
with open(".\123.dot", 'w') as f:
f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f) #要安装可视化工具graphviz
#预测数据
OneRow=dummX[0,:]#取出一条数据进行修改
newRow=oneRow
print(newRow)
oneRow[0]=6
oneRow[2]=1
print(oneRow)
#进行预测
predictY=clf.predict([newRow])
print("predictY"+str(predictY))
运行结果如下:
runfile('C:/Users/14355/decitree.py', wdir='C:/Users/14355')
['NO', 'OUTLOOK', 'TEMPERATURE', 'HUMIDITY', 'WINDY', 'PLAY']
['n', 'n', 'y', 'y', 'y', 'n', 'y', 'n', 'y', 'n', 'y', 'n', 'y', 'n']
[{'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 6, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 6, 'HUMIDITY': 8, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 7, 'HUMIDITY': 7, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 9, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 5, 'HUMIDITY': 8, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 6, 'HUMIDITY': 7, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 6, 'HUMIDITY': 6, 'WINDY': 'TRUE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 6, 'HUMIDITY': 7, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 6, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 8, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'TRUE'}]
['HUMIDITY', 'OUTLOOK=overcast', 'OUTLOOK=rain', 'OUTLOOK=sunny', 'TEMPERATURE', 'WINDY=FALSE', 'WINDY=TRUE']
[[6. 0. 0. 1. 7. 1. 0.]
[8. 0. 0. 1. 6. 0. 1.]
[7. 1. 0. 0. 7. 1. 0.]
[9. 0. 1. 0. 9. 1. 0.]
[8. 0. 1. 0. 5. 1. 0.]
[7. 0. 1. 0. 6. 0. 1.]
[6. 1. 0. 0. 6. 0. 1.]
[9. 0. 0. 1. 7. 1. 0.]
[7. 0. 0. 1. 6. 1. 0.]
[8. 0. 1. 0. 7. 1. 0.]
[6. 0. 0. 1. 7. 0. 1.]
[8. 1. 0. 0. 7. 0. 1.]
[9. 1. 0. 0. 8. 1. 0.]
[8. 0. 1. 0. 7. 0. 1.]]
[[0]
[0]
[1]
[1]
[1]
[0]
[1]
[0]
[1]
[0]
[1]
[0]
[1]
[0]]
clf: DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
max_features=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=1, min_samples_split=2,
min_weight_fraction_leaf=0.0, presort=False, random_state=None,
splitter='best')
[6. 0. 0. 1. 7. 1. 0.]
[6. 0. 1. 1. 7. 1. 0.]
predictY[0]
输出文件为123.dot文件。
digraph Tree {
node [shape=box] ;
0 [label="TEMPERATURE <= 7.5ngini = 0.5nsamples = 14nvalue = [7, 7]"] ;
1 [label="HUMIDITY <= 7.5ngini = 0.486nsamples = 12nvalue = [7, 5]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="OUTLOOK=rain <= 0.5ngini = 0.444nsamples = 6nvalue = [2, 4]"] ;
1 -> 2 ;
3 [label="TEMPERATURE <= 6.5ngini = 0.32nsamples = 5nvalue = [1, 4]"] ;
2 -> 3 ;
4 [label="gini = 0.0nsamples = 2nvalue = [0, 2]"] ;
3 -> 4 ;
5 [label="WINDY=FALSE <= 0.5ngini = 0.444nsamples = 3nvalue = [1, 2]"] ;
3 -> 5 ;
6 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
5 -> 6 ;
7 [label="OUTLOOK=sunny <= 0.5ngini = 0.5nsamples = 2nvalue = [1, 1]"] ;
5 -> 7 ;
8 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
7 -> 8 ;
9 [label="gini = 0.0nsamples = 1nvalue = [1, 0]"] ;
7 -> 9 ;
10 [label="gini = 0.0nsamples = 1nvalue = [1, 0]"] ;
2 -> 10 ;
11 [label="TEMPERATURE <= 5.5ngini = 0.278nsamples = 6nvalue = [5, 1]"] ;
1 -> 11 ;
12 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
11 -> 12 ;
13 [label="gini = 0.0nsamples = 5nvalue = [5, 0]"] ;
11 -> 13 ;
14 [label="gini = 0.0nsamples = 2nvalue = [0, 2]"] ;
0 -> 14 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
}
4,window下面dot文件转为pdf文件。
官方地址:http://www.graphviz.org/
转dot为pdf图如下所示: