热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3sklearn之决策树

python3sklearn之决策树,Go语言社区,Golang程序员人脉社

1,问题描述:

小王的目的是通过下周天气预报寻找什么时候人们会运动,以适时调整雇员数量。因此首先他必须了解人们决定是否运动的原因。

在2周时间内我们得到以下记录:

天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子是否运动。最终他得到了14列5行的数据表格:

2,决策树的算法描述:建立一个data.py文件

from sklearn.feature_extraction import DictVectorizer #将dict类型的list数据,转换成numpy array

import csv  #读取CSV文件

from sklearn import tree  #导入决策树算法

from sklearn import preprocessing  #数据预处理

alldata=open(r'C:Users14355sun.csv','r',encoding='utf-8') # 读入数据

reader=csv.reader(alldata)    #用reader来代表所有数据

headers=next(reader)   #header是指数据的第一行,就是数据的特征

print(headers) #因为SK包的数据输入是有一定的要求的,他的输入不能是类别。只能是 0,1。所以要先将数据转化成DICT类型

label=[]    #定义一个存放标签的列表

#然后用DictVextorizer的函数进行转换

feature=[]  #定义一个存放特征的列表

for row in reader:  #以行遍历所有数据

    label.append(row[-1])  #取出最后一个值,这个值是每条数据的标签

    rowDict={}             #定义一个字典类型

    for i in range(1,len(row)-1 ):

        if row[i].isdigit() and i>1:#对那些连续的属性值做一个简单的离散化

            row[i]= int(int(row[i])/10)

        rowDict[headers[i]]=row[i]  #把每条数据的 特征:属性 插入字典

 

    feature.append(rowDict)         #把字典插入列表

print()

print(label)

print()

print(feature)

vec=DictVectorizer()                #实例化

dummX=vec.fit_transform(feature).toarray() #使用实例内的方法对数据进行转换

print()

print(vec.get_feature_names())#打印出转换后的数据的表头

print()

print(str(dummX))             #打印出转换后的数据的表值

lb=preprocessing.LabelBinarizer() #实例化

dummY=lb.fit_transform(label)     #数据的转换

print(str(dummY))

#上面的过程就是把数据都转换成符合格式的数据了

#可以调用sk包中的决策树算法进行分类

clf=tree.DecisionTreeClassifier(criterion='gini') #使用基尼指数的方法

clf=clf.fit(dummX,dummY)         #构建决策树

print("clf: " + str(clf))#打印

#输出到TD3.DOT文件中

with open(".\123.dot", 'w') as f:

    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)  #要安装可视化工具graphviz

	

#预测数据

OneRow=dummX[0,:]#取出一条数据进行修改

newRow=oneRow

print(newRow)

oneRow[0]=6

oneRow[2]=1

print(oneRow)

#进行预测

predictY=clf.predict([newRow])

print("predictY"+str(predictY))

运行结果如下:

runfile('C:/Users/14355/decitree.py', wdir='C:/Users/14355')
['NO', 'OUTLOOK', 'TEMPERATURE', 'HUMIDITY', 'WINDY', 'PLAY']

['n', 'n', 'y', 'y', 'y', 'n', 'y', 'n', 'y', 'n', 'y', 'n', 'y', 'n']

[{'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 6, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 6, 'HUMIDITY': 8, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 7, 'HUMIDITY': 7, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 9, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 5, 'HUMIDITY': 8, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 6, 'HUMIDITY': 7, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 6, 'HUMIDITY': 6, 'WINDY': 'TRUE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 6, 'HUMIDITY': 7, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'FALSE'}, {'OUTLOOK': 'sunny', 'TEMPERATURE': 7, 'HUMIDITY': 6, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'TRUE'}, {'OUTLOOK': 'overcast', 'TEMPERATURE': 8, 'HUMIDITY': 9, 'WINDY': 'FALSE'}, {'OUTLOOK': 'rain', 'TEMPERATURE': 7, 'HUMIDITY': 8, 'WINDY': 'TRUE'}]

['HUMIDITY', 'OUTLOOK=overcast', 'OUTLOOK=rain', 'OUTLOOK=sunny', 'TEMPERATURE', 'WINDY=FALSE', 'WINDY=TRUE']

[[6. 0. 0. 1. 7. 1. 0.]
 [8. 0. 0. 1. 6. 0. 1.]
 [7. 1. 0. 0. 7. 1. 0.]
 [9. 0. 1. 0. 9. 1. 0.]
 [8. 0. 1. 0. 5. 1. 0.]
 [7. 0. 1. 0. 6. 0. 1.]
 [6. 1. 0. 0. 6. 0. 1.]
 [9. 0. 0. 1. 7. 1. 0.]
 [7. 0. 0. 1. 6. 1. 0.]
 [8. 0. 1. 0. 7. 1. 0.]
 [6. 0. 0. 1. 7. 0. 1.]
 [8. 1. 0. 0. 7. 0. 1.]
 [9. 1. 0. 0. 8. 1. 0.]
 [8. 0. 1. 0. 7. 0. 1.]]
[[0]
 [0]
 [1]
 [1]
 [1]
 [0]
 [1]
 [0]
 [1]
 [0]
 [1]
 [0]
 [1]
 [0]]
clf: DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')
[6. 0. 0. 1. 7. 1. 0.]
[6. 0. 1. 1. 7. 1. 0.]
predictY[0]

输出文件为123.dot文件。

digraph Tree {
node [shape=box] ;
0 [label="TEMPERATURE <= 7.5ngini = 0.5nsamples = 14nvalue = [7, 7]"] ;
1 [label="HUMIDITY <= 7.5ngini = 0.486nsamples = 12nvalue = [7, 5]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="OUTLOOK=rain <= 0.5ngini = 0.444nsamples = 6nvalue = [2, 4]"] ;
1 -> 2 ;
3 [label="TEMPERATURE <= 6.5ngini = 0.32nsamples = 5nvalue = [1, 4]"] ;
2 -> 3 ;
4 [label="gini = 0.0nsamples = 2nvalue = [0, 2]"] ;
3 -> 4 ;
5 [label="WINDY=FALSE <= 0.5ngini = 0.444nsamples = 3nvalue = [1, 2]"] ;
3 -> 5 ;
6 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
5 -> 6 ;
7 [label="OUTLOOK=sunny <= 0.5ngini = 0.5nsamples = 2nvalue = [1, 1]"] ;
5 -> 7 ;
8 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
7 -> 8 ;
9 [label="gini = 0.0nsamples = 1nvalue = [1, 0]"] ;
7 -> 9 ;
10 [label="gini = 0.0nsamples = 1nvalue = [1, 0]"] ;
2 -> 10 ;
11 [label="TEMPERATURE <= 5.5ngini = 0.278nsamples = 6nvalue = [5, 1]"] ;
1 -> 11 ;
12 [label="gini = 0.0nsamples = 1nvalue = [0, 1]"] ;
11 -> 12 ;
13 [label="gini = 0.0nsamples = 5nvalue = [5, 0]"] ;
11 -> 13 ;
14 [label="gini = 0.0nsamples = 2nvalue = [0, 2]"] ;
0 -> 14 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
}

4,window下面dot文件转为pdf文件。

官方地址:http://www.graphviz.org/

转dot为pdf图如下所示:


 


推荐阅读
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
author-avatar
乐天派jiao2502901101
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有