用python进行自然语言处理_Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原...

作者：张芬921_162 | 来源：互联网 | 2023-07-31 13:29

在上一篇文章中，我们开始讨论如何使用Python进行自然语言处理。我们学习了如何读写文本和PDF文件。在本文中，我们将开始使用spaCy库来执行一些更基

在上一篇文章中&＃xff0c;我们开始讨论如何使用Python进行自然语言处理。我们学习了如何读写文本和PDF文件。在本文中&＃xff0c;我们将开始使用spaCy库来执行一些更基本的NLP任务&＃xff0c;如标记化、词干提取和词形还原。

SpaCy简介

spaCy库与NLTK都是最流行的NLP库之一。这两个库的基本区别在于&＃xff0c;NLTK包含多种算法来解决一个问题&＃xff0c;而spaCy只包含一种算法&＃xff0c;但它是解决问题的最佳算法。

NLTK是在2001年发布的&＃xff0c;而spaCy相对较新&＃xff0c;是在2015年开发的。在这一系列关于NLP的文章中&＃xff0c;我们将主要讨论spaCy&＃xff0c;因为它的艺术性质。但是&＃xff0c;当使用NLTK而不是spaCy更容易执行任务时&＃xff0c;我们还将接触NLTK。

安装 spaCy

如果你使用pip安装程序安装Python库&＃xff0c;打开命令行并执行以下语句:

当然&＃xff0c;如果你正在使用Anaconda&＃xff0c;你需要在Anaconda提示符上执行以下命令:

下载并安装spaCy之后&＃xff0c;下一步是下载语言模块。我们将使用英语语言模块。语言模块用于执行各种NLP任务&＃xff0c;我们将在后面的内容中看到。

下面的命令会下载语言模块:

基本功能

在深入研究不同的spaCy函数之前&＃xff0c;我们来简要地看看如何使用它。

作为第一步&＃xff0c;你需要使用以下代码导入spacy库:

接下来,我们需要载入spaCy语言模块。

在上面的脚本中&＃xff0c;我们使用spacy库中的load函数来加载核心英语语言模块。模块存储在sp变量中。

现在我们使用这个模块来创建一个小文档。文档可以是一个句子&＃xff0c;也可以是一组句子&＃xff0c;长度不限。下面的脚本创建一个简单的spaCy文档。

当使用该模块创建文档时&＃xff0c;SpaCy会自动将文档分解为一系列标记。

标记是指句子中具有某种语义价值的单个部分。我们来看看我们的文档中都有哪些标记:

上面脚本的输出看起来会是这样&＃xff1a;

可以看到我们的文档中有以下标记。我们还可以使用下面所示的.pos_属性来查看每个标记的词性:

输出:

你可以看到&＃xff0c;我们句子中的每个单词或标记都被指定了一个词性。例如&＃xff0c;“Manchester”被标记为专有名词&＃xff0c;“Looking”被标记为动词&＃xff0c;等等。

最后&＃xff0c;除了词性部分&＃xff0c;我们还可以看到词性的依赖项。

我们来创建另一个文档:

依赖项解析使用属性dep_&＃xff0c;如下图所示:

输出如下:

从输出中&＃xff0c;你可以看到spaCy足够智能&＃xff0c;可以找到标记之间的依赖关系&＃xff0c;例如在我们的句子中有一个单词is"nt。依赖项解析器将其分解为两个单词&＃xff0c;并说明n"t实际上是对前一个单词的否定。

有关依赖项解析的详细理解&＃xff0c;请参阅本文。

除了打印单词外&＃xff0c;还可以从文档中打印句子。

现在&＃xff0c;我们可以使用下面的脚本遍历每个句子:

输出如

你还可以检查一个句子是否以特定标记开头。你可以使用索引和方括号(类似于数组)获取单个标记:

在上面的脚本中&＃xff0c;我们正在搜索文档中的第5个单词。请记住&＃xff0c;索引是从零开始&＃xff0c;句点作为标记。在输出你应该能看到:

现在&＃xff0c;要查看文档中是否有以The开头的句子&＃xff0c;我们可以使用is_sent_startattribute属性&＃xff0c;如下所示:

在输出中&＃xff0c;你会看到True&＃xff0c;因为在第二句的开头使用了The标记。

在本节中&＃xff0c;我们看到了spaCy库的一些基本操作。现在让我们更深入地研究&＃xff0c;详细了解标记化、词干提取和词形还原。

标记化

如前所述&＃xff0c;标记化是将文档分解为单词、标点符号、数字等的过程。

我们来详细看看spaCy标记化。使用以下脚本创建一个新文档:

你可以看到这个句子的开头和结尾都有引号。缩写 "U.K" 和 "U.S.A."中还包含标点符号。

我们来看看spaCy是如何标记化这个句子的。

输出&＃xff1a;

在输出中&＃xff0c;可以看到spaCy标记了开始和结束的双引号。但是&＃xff0c;它还是很智能的&＃xff0c;没有标记缩写词(例如U.K. 和 U.S.A.)之间的标点符号。

我们来看另一个标记化的例子:

在上面的句子中&＃xff0c;“non-vegetarian”一词和电子邮件地址中都有破折号。我们来看看spaCy会如何标记这个:

输出&＃xff1a;

从输出结果可以明显看出&＃xff0c;spaCy实际上能够检测到这个电子邮件&＃xff0c;尽管它有一个“-”&＃xff0c;但并没有对其进行标记。另一方面&＃xff0c;“non-vegetarian”一词被标记出来。

现在我们来看看如何统计文档中的单词:

在输出中&＃xff0c;你会看到14&＃xff0c;这是sentence4中标记的数量。

检测实体

除了将文档标记化为单词之外&＃xff0c;你还可以发现该单词是否为实体短语&＃xff0c;如公司、地点、建筑物、货币、机构等。

我们来看一个命名的实体识别的简单例子:

我们首先来简单对它进行标记&＃xff1a;

输出&＃xff1a;

我们知道“Manchester United”是一个单词&＃xff0c;所以它不应该被标记成两个单词。同样&＃xff0c;“Harry Kane”是一个人的名字&＃xff0c;“$ 9000 million”是货币值。这些也不应该被标记。

这就是命名实体识别发挥作用的地方。要从一个文档中获取命名实体&＃xff0c;必须使用ents属性。我们来从上面的句子中检索命名实体。执行以下脚本:

在上面的脚本中&＃xff0c;我们打印出实体的文本、实体的标签和实体的详细信息。输出如下:

输出&＃xff1a;

你可以看到spaCy的命名实体识别器已经成功地将“Manchester United”作为一个组织&＃xff0c;“Harry Kane”作为一个人&＃xff0c;“$90 million”作为货币值识别出。

检测名词

除了检测命名实体外&＃xff0c;还可以检测名词。为此&＃xff0c;可以使用noun_chunks属性。考虑一下下面这句话:

我们试着找出这个句子中的名词:

输出&＃xff1a;

从输出中可以看到&＃xff0c;名词也可以是命名实体&＃xff0c;反之亦然。

词干提取

词干提取是指将一个单词还原为它的词根形式。在执行自然语言处理任务时&＃xff0c;在遇到的各种场景中&＃xff0c;你会发现具有相同词根的不同单词。例如&＃xff0c;computer, computer, computing, computed等。为了统一起见&＃xff0c;你可能希望将单词缩减为词根形式。这就是词干提取的作用。

你可能会感到惊讶&＃xff0c;但是spaCy不包含任何词干提取功能&＃xff0c;因为它只依赖于词形还原。因此&＃xff0c;在本节中&＃xff0c;我们将使用NLTK进行词干提取。

在NLTK中有两种类型的词干提取器:Porter Stemmer和Snowball Stemmer。它们都是使用不同的算法实现的。

Porter Stemmer

我们来实际看一下 porter stemmer:

先创建一个PorterStemmer类.

假设我们有以下的列表&＃xff0c;我们想要将这些单词缩减为词干:

下面的脚本使用porter stemmer查找列表中的单词的词干:

输出如下&＃xff1a;

你可以看到&＃xff0c;这四个单词都被简化成“comput”&＃xff0c;这其实根本就不是一个单词。

Snowball Stemmer

Snowball stemmer是Porter stemmer的一个稍微改进版本&＃xff0c;通常比后者更受欢迎。我们来实例看看&＃xff1a;

在上面的脚本中&＃xff0c;我们使用Snowball stemmer来查找与porter stemmer实例中相同的4个单词的词干。输出如下:

你可以看到结果是一样的。我们仍然得到“comput”作为词干。再说一遍&＃xff0c;”comput” 这个词实际上不是字典里的单词。

这样一来词形还原就派上用场了。词形还原将这个单词缩减为在词典中出现的它的词干。通过词形还原返回的词干是实际的字典单词&＃xff0c;它的语义是完整的&＃xff0c;不像词干提取器返回的单词。

词形还原

虽然不能用spaCy进行词干提取&＃xff0c;但可以用spaCy进行词形还原。

为此&＃xff0c;我们需要使用spaCy文档中的lemma_属性。假设我们有下面这句话:

我们可以通过下面的代码使用spaCy词形还原找到所有单词的词根:

上面脚本的输出如下&＃xff1a;

可以看到不像词干提取得到的词根是“comput”&＃xff0c;我们这里得到的词根是字典中的实际单词。

词形还原将第二种或第三种形式的单词转换为它们的第一种变体。请看下面的例子:

输出&＃xff1a;

从输出中可以清楚地看到&＃xff0c;“written”、“released”等第二、三种形式的单词已被转换为第一种形式&＃xff0c;即:“write”和“release”。

结论

标记化、词干提取和词形还原是一些最基本的自然语言处理任务。在本文中&＃xff0c;我们了解了如何使用spaCy库执行标记化和词形还原。我们还了解了如何使用NLTK进行词干提取。在下一篇文章中&＃xff0c;我们将开始讨论Python中的词汇和短语匹配。

英文原文&＃xff1a;https://stackabuse.com/python-for-nlp-tokenization-stemming-and-lemmatization-with-spacy-library/
译者&＃xff1a;浣熊君( &＃xff65;᷄৺&＃xff65;᷅ )

推荐阅读

python
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
python
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39
python
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
python
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
python
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
python
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
python
在CentOS系统中安装Scrapy时常见的问题及解决方法

在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便，但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案，帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]

蜡笔小新 2024-11-09 15:28:11
int
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
python
Python 用凝聚层次聚类进行数据分组

本文主要参考《Python机器学习经典实例》在介绍凝聚层次聚类之前，我们需要先理解层次聚类（hierarchicalclustering）。层次聚类是一组聚类算法，通过不断地分 ... [详细]

蜡笔小新 2024-10-20 13:13:52
python
NLP篇【01】tfidf与bm25介绍与对比

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]

蜡笔小新 2024-10-13 12:46:48
python
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
python
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
int
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
python
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53
python
利用 Python 管道实现父子进程间高效通信

利用 Python 管道实现父子进程间高效通信 ... [详细]

蜡笔小新 2024-11-04 20:26:43

张芬921_162

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章