热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

安装sklearn_sklearn特征抽取

我的主业是互联网运营,业余的python爱好者,学习python已经快两年,主攻网络爬虫与数据分析,爬虫能使用代理ip、打码
我的主业是互联网运营,业余的python爱好者,学习python已经快两年,主攻网络爬虫与数据分析,爬虫能使用代理ip、打码平台、OCR识别、基本的js逆向处理反爬;数据分析主要使用pandas与pyecharts进行可视化,我的部分案例:
ad23749f360c9582180a5d0286a8fada.png
但数据存在的终极意义也许并非在最后的可视化,而在于利用大数据进行预测,为运营决策提供帮助,因此萌生学习机器学习的念头,我会在此记录我学习sklearn的整个过程,用自己的理解与思路进行记录,希望能帮到和我一样的小白,也给自己做个备忘录。我会在公众号:新青年TALKS,同步更新。

一、字典特征抽取

提供一个简单的字典数据:

measurements = [{'city':'Beijing','temperature':33.},{'city':'London','temperature':12.},{'city':'San Fransisco','temperature':18.}]

sklearn提供方法:DictVectorizer

使用方式也非常简单:

from sklearn.feature_extraction import DictVectorizer
dv = DictVectorizer()
dv_fit = dv.fit_transform(measurements)
print(dv_fit)

fit_transform()可以理解为将数据根据抽取方式转换成计算机识别的东西。

38890dcfb12b73321b23bbb1270b0c44.png

它其实是个数组,为了节省内存sklearn将其转为此种格式。我们可以使用toarray()将其转为ndarray:

print(dv_fit.toarray())

使用get_feature_names()可以查看具体特征名:

print(dv.get_feature_names())
print(dv_fit.toarray())

e71cdba5c35d20694d5e1d0d7470282c.png

这本质上使用的是one-hot编码,one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。简单来说,就是我将所有特征名称列出来,有这一项的标记1,没有就为0。在此之前,我在使用pyecharts绘制热力图时也用过类似方式,下面是示例:

48e2c07021888804d410b3a919865984.png

df["注册时间"] = pd.to_datetime(df["注册时间"])
week = df["注册时间"].dt.weekday #转成周几
time = df["注册时间"].dt.hour # 转成小时
bp = pd.DataFrame({'week':week.tolist(),'time':time.tolist()}) #按周几和时间重建DataFrame
data = pd.DataFrame({'count' : bp.groupby( ['week','time'] ).size()}).reset_index() # 统计每天不同时间点注册人数
new_data = pd.DataFrame(index=[i for i in range(24)],columns=[i for i in range(7)]).fillna(0)# 新建空表,将已有数据填充进去,没有的则为0
# print(data)
for i,j,c in zip(data['time'].tolist(),data['week'].tolist(),data['count'].tolist()):new_data.iloc[i,j]=c# 有数据的定位修改数值
# print(new_data)
values = [[i, j, int(new_data.iloc[i, j])] for i in range(24) for j in range(7)]# 将完整数据表转为坐标形式
# print(values)

d8f74f804689ffe654406e587ec216a6.png

其他在此不做延申。

二、文本特征抽取

语法上与字典特征抽取类似,只是调用方式不同:

from sklearn.feature_extraction.text import CountVectorizer
data = ["i love python,life is so shot","i dislike python,life is too long"]
cv = CountVectorizer()
data_fit = cv.fit_transform(data)
print(cv.get_feature_names())
print(data_fit.toarray())

0488739cd9dab6f9797d9a0491503269.png

这种方式本质上是对词频统计,根据词出现的次数判断本文的情感倾向等。可以尝试在文本内多加一个"is"看下结果。

三、中文文本特征抽取

自己尝试放入中文文本,进行词频统计,会发现它是根据空格来进行统计的,所以中文文本需要进行分词,目前比较好用的就是jieba。

  • 安装jieba

pip install jieba

具体使用方式可跳到官方文档:fxsjy/jieba

  • 这里准备了一份word文档,这更符合日常需求,所以需要先安装python读取word文档的模块:

pip install python-docx

  • 进行文本读取:

from docx import Document
document = Document('企业遇到“商标流氓”怎么办?.docx')
text = []
for paragraph in document.paragraphs:text.append(paragraph.text)

说明:这里为了演示方便将文本写入了列表,但在实际应用中并不可取,会消耗更多内存。

  • 进行分词

import jieba
data = jieba.cut(str(text)) #返回的是生成器
data = list(data) #转成列表
data = ' '.join(data) #用空格分隔

注意:分词工具返回的是生成器,需要转成迭代器并用空格分隔词语,并且docx库读取出来的文本编码格式好像有点问题,需要强转成str

  • 中文文本特征抽取

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cv.fit_transform([data])

说明:.fit_transform()需要传入列表

这种词频统计的方式判断文章类型其实并不准确,因为很多文章有很多连接词,是没有实际影响力的,所以有更好的方式:tfidf[1]

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。

简单来说就是计算每个词的权重。

  • 同样是上面的文章,我们来计算每个词的权重(完整代码):

from sklearn.feature_extraction.text import TfidfVectorizer
from docx import Document
import jieba
document = Document('企业遇到“商标流氓”怎么办?.docx')
text = []
for paragraph in document.paragraphs:text.append(paragraph.text)
data = jieba.cut(str(text))
data = list(data)
data = ' '.join(data)
# cv = CountVectorizer()
# cv.fit_transform([data])
tfidf = TfidfVectorizer()
tf_idf = tfidf.fit_transform([data])
word = tfidf.get_feature_names()
weight = tf_idf.toarray()
for i in range(len(weight)):#打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for遍历某一类文本下的词语权重for j in range(len(word)):print (word[j],weight[i][j])

efe41d16f615f25a745e47b60b5c2f76.png

说明:为了更好演示,我将词与该词权重放在一起观察,也就是最后两个for循环。

数值越大表示权重越高。

以上就是关于文本特征抽取的内容,目前还在学习当中。

参考

  1. ^https://baike.baidu.com/item/tf-idf



推荐阅读
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 重要知识点有:函数参数默许值、盈余参数、扩大运算符、new.target属性、块级函数、箭头函数以及尾挪用优化《深切明白ES6》笔记目次函数的默许参数在ES5中,我们给函数传参数, ... [详细]
  • 解决Bootstrap DataTable Ajax请求重复问题
    在最近的一个项目中,我们使用了JQuery DataTable进行数据展示,虽然使用起来非常方便,但在测试过程中发现了一个问题:当查询条件改变时,有时查询结果的数据不正确。通过FireBug调试发现,点击搜索按钮时,会发送两次Ajax请求,一次是原条件的请求,一次是新条件的请求。 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • Android中将独立SO库封装进JAR包并实现SO库的加载与调用
    在Android开发中,将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中,并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式,开发者可以更方便地管理和分发包含原生代码的库文件,提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案,帮助开发者避免在实际应用中遇到的坑。 ... [详细]
  • C# .NET 4.1 版本大型信息化系统集成平台中的主从表事务处理标准示例
    在C# .NET 4.1版本的大型信息化系统集成平台中,本文详细介绍了主从表事务处理的标准示例。通过确保所有操作要么全部成功,要么全部失败,实现主表和关联子表的同步插入。主表插入时会返回当前生成的主键,该主键随后用于子表插入时的关联。以下是一个示例代码片段,展示了如何在一个数据库事务中同时添加角色和相关用户。 ... [详细]
  • 在C#中开发MP3播放器时,我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构,如字典或数组,对于优化性能至关重要。字典能够提供快速的键值对查找,而数组则在连续存储和遍历方面表现优异。根据具体需求,合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 数字图书馆近期展出了一批精选的Linux经典著作,这些书籍虽然部分较为陈旧,但依然具有重要的参考价值。如需转载相关内容,请务必注明来源:小文论坛(http://www.xiaowenbbs.com)。 ... [详细]
  • 每年,意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法,该方法基于蛇形环算法。具体而言,将所有球队排列成两列的环形结构,左侧球队对阵右侧球队,首支队伍固定不动,其余队伍按顺时针方向循环移动,从而确保每场比赛不重复。此算法不仅高效,而且易于实现,为赛程安排提供了可靠的解决方案。 ... [详细]
  • 基于Dubbo与Zipkin的微服务调用链路监控解决方案
    本文提出了一种基于Dubbo与Zipkin的微服务调用链路监控解决方案。通过抽象配置层,支持HTTP和Kafka两种数据上报方式,实现了灵活且高效的调用链路追踪。该方案不仅提升了系统的可维护性和扩展性,还为故障排查提供了强大的支持。 ... [详细]
  • 本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法,本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载:链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ,提取码:p57s。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
author-avatar
闌珊脃_
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有