python命名实体识别_使用Python和Keras的有关命名实体识别（NER）的完整教程

作者：郭城镣 | 来源：互联网 | 2023-08-21 15:33

假设您是报纸行业的编辑，每天都会收到数千个故事。您将如何找到与体育，政治等特定领域相关的故事？您会讲完所有这些故事吗？无权利

假设您是报纸行业的编辑&＃xff0c;每天都会收到数千个故事。您将如何找到与体育&＃xff0c;政治等特定领域相关的故事&＃xff1f;您会讲完所有这些故事吗&＃xff1f;无权利&＃xff1f;一个可以帮助您划分为不同类别的系统怎么样&＃xff1f;该系统还可以执行复杂的任务&＃xff0c;例如按城市划分故事&＃xff0c;识别故事中涉及的人员姓名&＃xff0c;组织等。在这篇文章中&＃xff0c;我将向您介绍一个名为命名实体识别(NER)的东西。NER的任务是在文本中查找单词的类型。

简介&＃xff1a;

在自然语言处理(NLP)中&＃xff0c;实体识别是常见问题之一。该实体称为感兴趣的文本部分。在NLP中&＃xff0c;NER是一种从大型语料库中提取相关信息并将这些实体分类为预定义类别(如位置&＃xff0c;组织&＃xff0c;名称等)的方法。这是一个简单的示例&＃xff0c;可以解决与特定于领域的问题相关的复杂实体识别。

2.先决条件&＃xff1a;

这篇文章假定您熟悉&＃xff1a;机器学习和神经网络的基本概念

在Python和Keras中运行的LSTM网络

条件随机场(CRF)

3.了解数据&＃xff1a;

我已经使用了kaggle的数据集。该数据集是从GMB(格罗宁根意思银行)语料库中提取的&＃xff0c;该语料库经过标记&＃xff0c;注释和构建&＃xff0c;专门用于训练分类器以预测命名的实体(例如名称&＃xff0c;位置等)。

所有实体均使用BIO方案进行标记&＃xff0c;其中每个实体标签以B或I字母开头。B-表示实体的开始和I-内部。不需要的单词用0 –标签标记。

下表显示了有关单词标签的详细信息。

读取CSV文件并显示前10行。

如您所见&＃xff0c;句子&＃xff03;表示句子编号&＃xff0c;每个句子包含使用标签栏中的BIO方案标记的单词。

这个特定的数据集包含47959个句子和35178个唯一单词。对于预处理步骤&＃xff0c;您可以参考我的Github存储库。

让我们显示第一个句子。

4.使用条件随机字段(CRF)的NER&＃xff1a;

CRF用于预测使用上下文信息添加信息的序列&＃xff0c;模型将使用这些信息进行正确的预测。

以下是CRF的公式&＃xff0c;其中y是输出变量&＃xff0c;X是输入序列。

输出序列被建模为特征函数的归一化乘积。

4.1 CRF的功能准备&＃xff1a;

以下是NER在nltk中使用的默认功能。还可以修改它以进行自定义&＃xff0c;并可以提高模型的准确性。

加入我们的每周时事通讯以接收&＃xff1a;最新文章和访谈

一个我事件&＃xff1a;更新&＃xff0c;免费通行证和优惠码

加入AI Time Journal计划的机会

4.2用scikit-learn训练模型&＃xff1a;

现在&＃xff0c;我们可以使用sklearn-crfsuite提供的条件随机字段实现来训练模型。初始化模型实例&＃xff0c;并使用fit方法拟合训练数据。

4.3评估模型性能&＃xff1a;

我们将使用精度&＃xff0c;召回率和f1得分指标来评估模型的性能&＃xff0c;因为对于该数据集而言&＃xff0c;精度不是一个好的指标&＃xff0c;因为每个类中的数据点数量均不相等。

结果看起来不错。

5.带有双向LSTM – CRF的NER&＃xff1a;

在本节中&＃xff0c;我们将双向LSTM模型与CRF模型结合在一起。这种方法称为Bi LSTM-CRF模型&＃xff0c;这是命名实体识别的最新方法。LSTM(长期短期记忆)是一种特殊类型的递归神经网络&＃xff0c;用于处理数据序列。

5.1定义模型参数&＃xff1a;

如果您知道这些参数的含义&＃xff0c;那么您可以进行尝试并获得良好的结果。

5.2模型架构&＃xff1a;

现在我们可以定义递归神经网络架构&＃xff0c;并为LSTM网络提供训练数据。

我已经使用了keras callback()函数。

5.3可视化模型性能&＃xff1a;

在这里&＃xff0c;我们将绘制训练和验证集的损失与历时之间的图。

分类报告。

您可以从上一节中看到该模型优于性能。

6.评估&＃xff1a;

让我们尝试从测试数据语句中识别出模型在训练过程中看不到的实体&＃xff0c;以了解模型的性能如何。

每次执行时&＃xff0c;以下代码都会从测试数据中随机选择句子&＃xff0c;并为其预测标签。

现在&＃xff0c;我们可以轻松地将模型的预测与实际预测进行比较。

要点&＃xff1a;

我们必须了解这里训练的模型只能识别位置&＃xff0c;人等常见实体。可以建立一个复杂的模型来预测化学实体&＃xff0c;药物等&＃xff0c;但是要完成这样的任务&＃xff0c;制备和标记该数据集将具有挑战性。

7.结论和未来工作&＃xff1a;

这是解决此问题的首选方法&＃xff0c;可以通过以下方法进行修改以改进解决方案&＃xff1a;更改模型超参数&＃xff0c;例如时期数&＃xff0c;嵌入尺寸&＃xff0c;批处理大小&＃xff0c;退出率&＃xff0c;激活等。

使用更大的数据集。在这里&＃xff0c;我们仅使用了47959个句子&＃xff0c;这些句子很少为实体识别问题建立良好的模型。

使用预训练的词嵌入。

对LSTM使用字符级嵌入。

BERT模型的微调。

通过添加在测试时出现的未知标记来改进词汇表&＃xff0c;方法是替换我们训练模型时使用的所有不常见词。为简便起见&＃xff0c;我们还没有这样做。

推荐阅读

ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
python
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
import
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
import
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
import
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
js
全栈工程师在当今技术领域的角色与价值探析

当前，众多初创企业对全栈工程师的需求日益增长，但市场中却存在大量所谓的“伪全栈工程师”，尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值，澄清对这一角色的误解，并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]

蜡笔小新 2024-10-31 10:28:12
js
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
import
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
import
Python 用凝聚层次聚类进行数据分组

本文主要参考《Python机器学习经典实例》在介绍凝聚层次聚类之前，我们需要先理解层次聚类（hierarchicalclustering）。层次聚类是一组聚类算法，通过不断地分 ... [详细]

蜡笔小新 2024-10-20 13:13:52
list
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39
char
Bidirectional LSTMCNNsCRF

上期使用LSTM做短文本分类效果不如CNN，或许有朋友会问什么场景下LSTM能体现出序列性的优势，本期使用双向LSTM-CNNs-CRF实现SequenceLabeling。CRF ... [详细]

蜡笔小新 2024-10-09 21:44:26
python
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
python
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55

郭城镣

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章