热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习_机器学习12

本文由编程笔记#小编为大家整理,主要介绍了机器学习---12相关的知识,希望对你有一定的参考价值。importcsvimportnltkfromn
本文由编程笔记#小编为大家整理,主要介绍了机器学习---12相关的知识,希望对你有一定的参考价值。


import csv
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# 词性pos赋值
def get_word_pos(tag):
if tag.startswith(‘J‘):
return nltk.corpus.wordnet.ADJ
elif tag.startswith(‘V‘):
return nltk.corpus.wordnet.VERB
elif tag.startswith(‘N‘):
return nltk.corpus.wordnet.NOUN
elif tag.startswith(‘R‘):
return nltk.corpus.wordnet.ADV
else:
return ‘‘
#预处理
def pre(data):
#分割单词
word = []
for sent in nltk.sent_tokenize(data):
for words in nltk.word_tokenize(sent):
word.append(words)
#消除常用单词
stops = stopwords.words(‘english‘)
word = [w.lower() for w in word if w not in stops]
#消除特斯符号
sep = ‘.,:;?!-"‘_=!@#$%^&*()‘
word = [w.strip(sep) for w in word]
#消除一些单词位短的单词
newword = []
for w in word:
if len(w) >= 2:
newword.append(w)
lr = WordNetLemmatizer()
tag = nltk.pos_tag(newword)
#根据pos还原单词
newtag = []
for i,ts in enumerate(tag):
if ts:
po = get_word_pos(tag[i][1])
if po:
wd =lr.lemmatize(ts[0],pos=po)
newtag.append(wd)
else:
newtag.append(ts[0])
else:
newtag.append(ts[0])
newstr=‘ ‘.join(newtag)

return newstr

#邮件信息导入
file_path=r‘SMSSpamCollectio‘
sms=open(file_path,‘r‘,encoding=‘utf-8‘)
sms_data=[]
sms_label=[]
csv_reader=csv.reader(sms,delimiter=‘ ‘)
for line in csv_reader:
sms_label.append(line[0])
sms_data.append(pre(line[1]))
sms.close()
#完成单词处理

#数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split
x_train,x_test, y_train, y_test = train_test_split(sms_data, sms_label, test_size=0.2, random_state=0, stratify=sms_label)
# print(len(x_train))
# print(len(x_test))

# 将其向量化
from sklearn.feature_extraction.text import TfidfVectorizer

TV = TfidfVectorizer()
x_train_tv = TV.fit_transform(x_train)
x_test_tv = TV.transform(x_test)

print(x_train_tv.toarray().shape)
print(x_test_tv.toarray().shape)

import numpy as np
a = np.flatnonzero(x_train_tv.toarray())


#选择多项式朴素贝叶斯分类器模型
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(x_train_tv, y_train)
y_mnb_pre = clf.predict(x_test_tv)
#预测结果
print(y_mnb_pre)


from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# 混淆矩阵
cm = confusion_matrix(y_test, y_mnb_pre)
print(‘nb_confusion_matrix:
‘,cm)

# 主要分类指标的文本报告
cr = classification_report(y_test, y_mnb_pre)
print(‘nb_classification_report:
‘,cr)

print((cm[0][0]+cm[1][1])/np.sum(cm))


结果:
技术图片

 

 


1.读取
2.数据预处理
3.数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split

 


4.文本特征提取

sklearn.feature_extraction.text.CountVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

sklearn.feature_extraction.text.TfidfVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

 

观察邮件与向量的关系

技术图片

 

 

 

第一个数据是训练数据训练后的向量

第二个数据是测试数据的通过训练模型转换后的向量

 

两者分类得出的单词数据的精准度其实是比直接总的一个数据来训练要精准

虽然单词量没有后者的多,但是重要单词的验证次数会比其他单词的要多。

技术图片


4.模型选择

from sklearn.naive_bayes import GaussianNB    ×

from sklearn.naive_bayes import MultinomialNB  √

MNB模型更适合离散型的数据分类

 


5.模型评价:混淆矩阵,分类报告

from sklearn.metrics import confusion_matrix

 

说明混淆矩阵的含义

官方:

技术图片

 

 

混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

理解

技术图片

 

 

结合垃圾邮件来说明的话,上图中矩阵分为了4个数据,位置对应的说明如下:

        正确邮件                              垃圾邮件

------------|-------------------------------------|----------------------------------

正确邮件|【把正确邮件当正确邮件    |    把垃圾邮件当正确邮件】

垃圾邮件|【把正确邮件当垃圾邮件    |   把垃圾邮件当垃圾邮件】

就是一个误差模型,把已经知道的结果,和通过训练后得出的结果进行检验,简单说明就是。如果按照你的模型来预测结果,把所有的预测结果分类展示。

from sklearn.metrics import classification_report

说明准确率、精确率、召回率、F值分别代表的意义

先看看官方的:

技术图片

 

 结合垃圾邮件分类的:

 






















































 精确率召回率F1总数
正确邮件0.961.000.98996
垃圾邮件1.000.740.85149
     
分类正确率  0.971115
macro平均值0.980.870.911115
weighted平均值 0.970.970.961115

                                        

                                          

                                         技术图片

 

 

 

  都是用上面混淆矩阵来计算的

 

 


6.比较与总结

如果用CountVectorizer进行文本特征生成,与TfidfVectorizer相比,效果如何?

CountVectorizer()函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表(vocabulary list),该方法又称为词袋法(Bag of Words)

 


推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 如何基于ggplot2构建相关系数矩阵热图以及一个友情故事
    本文介绍了如何在rstudio中安装ggplot2,并使用ggplot2构建相关系数矩阵热图。同时,通过一个友情故事,讲述了真爱难觅的故事背后的数据量化和皮尔逊相关系数的概念。故事中的小伙伴们在本科时参加各种考试,其中有些沉迷网络游戏,有些热爱体育,通过他们的故事,展示了不同兴趣和特长对学习和成绩的影响。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • 图像因存在错误而无法显示 ... [详细]
  • Python使用Pillow包生成验证码图片的方法
    本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号,并添加干扰象素,生成一幅验证码图片。需要配置好Python环境,并安装Pillow库。代码实现包括导入Pillow包和随机模块,定义随机生成字母、数字和字体颜色的函数。 ... [详细]
author-avatar
百变精灵2596
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有