python结巴分词词库_Python数据科学实践|文本分析1

作者：_嗚啦啦900 | 来源：互联网 | 2023-09-15 09:10

大家好，基于Python的数据科学实践课程又到来了，大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。本次将会学习利用Python处理文本数据。在正

大家好&＃xff0c;基于Python的数据科学实践课程又到来了&＃xff0c;大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。本次将会学习利用Python处理文本数据。在正式开始之前, 需要明确一点&＃xff1a;计算机无法真正意义上理解像人一样理解自然语言。事实上&＃xff0c;直到上个世纪70年代&＃xff0c;主流研究者希望以规则(语法)的形式帮助计算机理解自然语言。然而&＃xff0c;有限的规则无法处理无限的语言。因此&＃xff0c;之后的研究重心转向了利用统计模型来处理自然语言。自此&＃xff0c;文字和数字&＃xff0c;最后殊途同归。为什么要说这些历史呢&＃xff0c;是因为不少同学一开始接触文本的时候会产生不小的恐惧&＃xff1a;计算机不是只认识数字吗? 文本怎么处理啊? 这怎么扔进去....其实&＃xff0c;大可不必惊慌&＃xff0c;文本分析的流程和分析数字大概是差不多的。只是多了一步而已&＃xff1a;把文本类型的数据转换成合适的数字类型即可&＃xff0c;之后的流程几乎是一样的。文本分析的流程大致分为&＃xff1a;分词&＃xff0c;生成相应feature&＃xff0c;根据不同需求扔到模型里跑。

注意: 文本分析涉及到的方向有很多&＃xff0c;比如: 分词、特征提取、实体提取、意图判断、多轮对话(建立在前两个基础之上) 、知识图谱、情感分析等等。由于篇幅限制, 我们在这里只讲共有部分, 即分词和基本的特征提取的基本原理和使用&＃xff0c;无论做什么工作(毕竟文本分析的本质只是在算概率大小而已)&＃xff0c;这两部分都是必须的。入门之后&＃xff0c; 请感兴趣的读者自行展开。

准备: 理解文本分析流程

接下来&＃xff0c;我们通过一个小例子来具体熟悉一下。现在的场景为&＃xff1a;政委对一家火锅的评论是&＃xff1a;

这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜。

第一步是分词&＃xff0c; 只有分了词才能进行向量化。而分词的前提是必须得有一个词库&＃xff0c; 这是为什么? 巧妇难为无米之炊啊&＃xff01;计算机再机灵, 也得你告诉它你的喜好嘛&＃xff01;词库的作用就规定了&＃xff1a;哪些词才辨识为有用的词&＃xff0c;哪些词可以扔掉。假设词库里只有以下词: 这家&＃xff0c;店&＃xff0c;真&＃xff0c;不好吃&＃xff0c;好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜&＃xff0c;下次&＃xff0c;再来&＃xff0c;不来了。在最简单情况下&＃xff0c;直接采用字符串匹配来进行分词, 结果是:

这家 | 店 | 真 | 好吃 | 环境优雅 | 菜品新鲜.

既然我们最终的目的是文本数据转换为数字&＃xff0c;采用最简单的词频来表示特征&＃xff0c;所以以上最终词频为:

这样&＃xff0c;我们就得到了最简单的文本向量。政委的评价的文本向量为: [1 1 1 0 1 1 1 0 0 0]。假设&＃xff0c;这家火锅店有N个顾客进行了评价&＃xff0c; 我们就得到了多条评论。向量化后就应该类似如下

这样&＃xff0c;只需以"评价情感"这列作为y&＃xff0c;所有的评价向量作为x&＃xff0c;扔进模型训练即可。总结一下: 文本分析和数字类型的分析并没有多大区别, 只需将文本数据先进行向量化即可。例如&＃xff1a;一条文本数据的特征可理解为其所包含的词在整体词库所包出现的词频、概率等等。1.分词

为什么需要分词呢? 还是用上面政委的那句话:

这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜。

来解释。这里&＃xff0c;我们使用了逗号进行分割&＃xff0c;消除了存在歧义的可能性。为了说明问题&＃xff0c;这时候我们把标点符号换个位置&＃xff0c;变成:

这家店真&＃xff0c;好吃环境&＃xff0c;优雅菜&＃xff0c;品新鲜。

这句话理解起来可不是这么轻松了。可见&＃xff0c;逗号的位置影响了对语句的理解。逗号是给人看的&＃xff0c;计算机可不认识逗号。这时候&＃xff0c; 就需要分词了。分词的作用也是为了消除歧义&＃xff0c; 即让计算机理解。中文分词的基本思路是: 使得切分后这个句子出现的概率最大的切分方式就认为是最优的。这里怎么理解出现的概率最大的切分方式呢&＃xff1f;翻译过来等价于&＃xff1a;说人话的句子&＃xff01;正常人常用的能理解的语言&＃xff01;这种切分在人类使用的语言中出现的概率足够大。例如上面的例子中&＃xff0c;第一句话出现的概率是: P(这家店&＃xff0c; 真&＃xff0c; 好吃&＃xff0c; 环境优雅&＃xff0c; 菜品新鲜) &＃61; 0.8&＃xff1b;第二句话出现的概率是: P(这家店真&＃xff0c; 好吃环境&＃xff0c; 优雅菜&＃xff0c; 品新鲜) &＃61; 0.1。那么&＃xff0c; 合理的分词就应该是第一句话的分词。这样&＃xff0c; 我们就解决了词语歧义的问题。为了高效找到最优分词的结果&＃xff0c; 往往会用"动态规划"的思路以及Viterbi算法。感兴趣的读者可以自行查阅。

注意&＃xff0c;只有中文(其实应该说是亚洲语言)才需要分词。英文(其实应该说是罗马体系的语言)由于天然有空格作为分割&＃xff0c;就不需要中文这样较为复杂的分词方式。当然以上说法其实并不完全准确&＃xff0c;只是为了说明问题。分词与否还需要看具体的应用场景&＃xff0c;比如英文手写字体也需要用到分词的思路, 这里就不深究了。

另一个值得注意的地方是&＃xff0c; 在分词前最好能够先过滤停用词。还是上面政委说的话:

这家店好吃的很&＃xff0c;环境优雅的很&＃xff0c;菜品新鲜的很。

"的很"是个"虚词"(学语言的少年请绕道...)&＃xff0c; 通常情况下没什么意义&＃xff0c; 我们更希望把冗余信息去掉, 这时候就需要在分词前过滤停用词。

停用词&＃xff0c; 简单理解是人为认为不重要的词&＃xff0c; 过滤对结果不影响或有提升作用的词。

换言之&＃xff0c; 停用词是"数据噪音"&＃xff0c; 过滤停用词可以理解为数据清洗的过程。 2.特征提取

● 词频

1.思路

最简单粗暴的办法&＃xff1a;不管什么词库&＃xff0c;分词完后&＃xff0c;某个单词出现一次就加1&＃xff0c;计数完成后直接放入所需要的模型中训练。设想两个人说的话:政委一号:

这家店真好吃&＃xff0c; 环境优雅&＃xff0c; 菜品新鲜。

政委二号:

这家店真好吃&＃xff0c;环境真优雅&＃xff0c;菜品真新鲜。

最终:

2.优缺点

优点: 不用考虑维护什么词库&＃xff0c; 只以训练样本出现的词作为词库。

缺点: 只考虑了出现词作为文本特征&＃xff0c; 但是并未考虑未出现的词。未出现也是一种特征啊&＃xff01;而且大量的词必然是未出现的(词库这么大&＃xff0c; 怎能一句话全塞下)。当然应该纳入考量因素中。为了克服这个缺点&＃xff0c; 可以考虑下面的词袋模型。

● 词袋模型

1.思路

词袋模型的思路是:该模型忽略掉文本的语法和语序等要素&＃xff0c;将其仅仅看作是若干个词汇的集合&＃xff0c;文档中每个单词的出现都是独立的。为词库中所有词准备一个坑&＃xff0c;一段文本中&＃xff0c;每个词都去词库中找。现在, 词库有7个词, 那就准备7个坑.这家: [1 0 0 0 0 0 0]店: [0 1 0 0 0 0 0]真: [0 0 1 0 0 0 0]环境优雅: [0 0 0 1 0 0 0]下次: [0 0 0 0 1 0 0]再来:[0 0 0 0 0 1 0]不来了: [0 0 0 0 0 0 1]然后再扔进模型里跑即可。

2.优缺点

这样做的优点: 将文本数据很方便就转换成向量进行表示, 看起来也比较直观.这样做的缺点: 由于忽略了文本的语法和语序,这部分信息就被很大程度上忽略了, 对于一些依赖上下文的文本而言, 这样处理可能并不合适.

比如:

政委一号:

这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜&＃xff0c;态度差。

政委三号:

这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜。但是态度差。

如果用词袋模型表示&＃xff0c; 由于忽略了文本之间的语序&＃xff0c; "真好吃"中的"真"字可以形容"好吃"&＃xff0c; 也可以形容"差"&＃xff0c; 即会出现"真好吃"和"真差"两种可能。如果只考虑情感的正负性&＃xff0c; 那影响可能不会很大&＃xff0c; 但是&＃xff0c; 如果考虑到情感的程度&＃xff0c; 这影响可就大了。"差"和"真差"&＃xff0c; "好吃"和"真好吃"&＃xff0c; 差别可不小&＃xff01;因此&＃xff0c; 用词袋模型编码就损失了一部分信息。

为了进一步减少编码过程中信息的损失&＃xff0c;可以考虑使用TF-IDF进行编码。● TF-IDF

1.思路

TF-IDF是两个合成词的缩写: TF代表词频(Term Frequencey)&＃xff0c; 即某个词在该文档中出现的频率&＃xff1b;IDF代表逆文档频率(Inverse Document Frequency)&＃xff0c; 用于衡量某个词在所有词库中的重要程度。TF &＃61; 当前词在该文档中出现的次数 / 文档中词的总数IDF &＃61; log(总文档个数&＃43;1 / (当前词出现的文档个数&＃43;1))注意&＃xff0c; 在分母中&＃43;1是为了防止出现分母为0的情况。在分子中&＃43;1是为了IDF始终≥0。本章出现的log默认以e为底。TF-IDF &＃61; TF * IDF现在1 2 3号政委一起出场了.(铺垫了很久, 垫了很久, 很久, 久)

政委一号: 这家店真好吃&＃xff0c;环境优雅。

政委二号: 这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜。态度真不错。

政委三号: 这家店真好吃。环境优雅&＃xff0c;菜品新鲜。但是态度真差。

这3位政委对这家店的评价就当做是3篇文档, 这3篇文档就是我们的总文档个数。总词库里的词有: 真好吃&＃xff0c; 环境优雅&＃xff0c; 菜品新鲜&＃xff0c; 态度&＃xff0c; 真差&＃xff0c; 真。TF1&＃xff0c; IDF1分别代表第一篇文档的TF和IDF。

以第一篇文档为例

政委一号: 这家店真好吃&＃xff0c;环境优雅&＃xff0c;菜品新鲜。

未出现的词有: "态度"和"真差"&＃xff0c; 这些TF*IDF都为0. "真"&＃xff0c; "真好吃"&＃xff0c; "环境优雅"在每篇文档都出现过&＃xff0c; TF都是1/6&＃xff0c; 经过IDF的调整后&＃xff0c; 最终TF*IDF都为0。也就是说&＃xff0c; 在越多篇文章都出现过的词的权重更低&＃xff0c; 这也很符合常理&＃xff0c; 比如一篇文章中出现次数最多的词一定是"的"。通过比较TF-IDF的大小&＃xff0c;我们就找到了哪些属于文章特有的"关键词"。通过上面的例子&＃xff0c; TF*IDF的基本思路也不难理解了: 认为出现次数多的词更不重要&＃xff0c; 出现次数少的词更重要。这种思路也非常符合日常生活: 日常对话中&＃xff0c; 出现最多的词是"的"这类虚词&＃xff0c; 这对模型并没有什么帮助。TF-IDF的处理能把这类词的-IDF降到很低。

2.优缺点

优点: TF-IDF能有效度量哪些词更加重要.缺点: 虽然TF-IDF非常有效&＃xff0c; 但是&＃xff0c; 仍然无法有效解决上下文依赖的问题。比如"真好吃"中的"真"字也可能出现在"态度真差"中。要想深入了解如何进一步改进TF-IDF&＃xff0c;读者可以仔细去搜索word2vec。由于其原理相对复杂&＃xff0c;本书先不做介绍。偷偷告诉大家狗熊会的其它丛书会仔细讲解哦。好了&＃xff0c;今天就讲到这里。大家应该感觉到无比轻松&＃xff0c;那是因为没有一行代码哈哈哈。下次将进入实践环节。本次无作业。▼往期精彩回顾▼初步搭建数据科学工作环境

Conda的使用

Spyder入门

Jupyter入门

Markdown

简单读写数据

数据类型

数据结构

控制流

函数与模块

Numpy

pandas1

pandas2

pandas3

pandas4

绘图模块1

绘图模块2

绘图模块3

绘图模块4

统计建模1

统计建模2

统计建模3

统计建模4

机器学习模块1

机器学习模块2

下载本系列相关数据

推荐阅读

io
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
range
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10
range
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
io
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
io
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
io
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
io
JVM 学习总结（三）——对象存活判定算法的两种实现

本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法：引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活，虽然简单高效，但无法解决循环引用的问题；可达性分析算法通过判断对象是否可达来确定存活对象，是主流的Java虚拟机内存管理算法。 ... [详细]

蜡笔小新 2023-12-13 18:59:46
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
io
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
testing
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
const
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
const
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
io
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
io
商汤科技面试——CV算法面经详解及相关问题讨论

本文详细介绍了商汤科技面试中涉及的CV算法面经内容，包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外，还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]

蜡笔小新 2023-12-11 11:14:03
io
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43

_嗚啦啦900

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章