「自然语言处理（NLP）论文解读」中文命名实体识别（LatticeLSTM模型优化）

作者：小妖 | 来源：互联网 | 2023-07-17 13:07

来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-27引言今天主要和大家分享一篇关于中文命名实体识别的文章，本文分析Lattice-

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-27

引言

今天主要和大家分享一篇关于中文命名实体识别的文章，本文分析Lattice-LSTM模型，并针对该方法的弊端提出将字符符号信息合并到字符向量表示中，提高了模型的性能（计算量、效果）。

First Blood

TILE: Simplify the Usage of Lexicon in Chinese NER
Contributor : 复旦大学（计科院）
Paper: https://arxiv.org/pdf/1908.05969v1.pdf
Code: https://github.com/v-mipeng/LexiconAugmentedNER

文章摘要

对于中文命名实体是识别，考虑到实际生产应用，本文主要针对Lattice-LSTM模型的弊端（复杂的模型结构和计算效率低），提出了一种简洁而有效的方法，即将字符符号信息合并到字符向量表示中。 这样，我们的方法可以避免引入复杂的序列建模体系结构来对词汇信息进行建模。相反，它只需要微调神经序列模型的字符表示层。通过在四组中文基准NER数据集上的验证，可以发现该方法可以实现更快的推理速度，相对于LSTM及其衍生模型具有更好的性能。

模型的核心思想

本文的核心目标是找到一个更简单的方法来实现LSTM网格思想。即将句子中所有匹配的单词合并到基于字符的NER模型中。首要原则是实现快速的推理速度。为此，本文提出将从词典中获得的匹配词编码成字符的表示形式。与LSTM相比，该方法更加简洁，易于实现。

本文模型介绍

Lattice-LSTM模型分析

优点： 第一、它为每个字符保存所有可能匹配的单词。这可以通过启发式地选择与NER系统匹配的字符结果来避免错误传播。第二、它可以在系统中引入预先训练好的word嵌入，这对最终的性能有很大的帮助。
缺点： Lattice-LSTM模型的缺点是它将句子的输入形式从一个链式序列转换为一个图。这将大大增加句子建模的计算成本。

Proposed Model

基于Lattice-LSTM的思考，本文的设计应尽量保持句子的链式输入形式，同时保持Lattice-LSTM模型的两个优点。

首先本文提出了ExSoftWord，但是通过对ExSoftword的分析，发现ExSoftword方法不能完全继承Lattice-LSTM的两个优点。首先，它不能引入预先训练过的单词嵌入。其次，虽然它试图保持现有的匹配结果为多个分割标签，但它仍然会丢失大量的信息。为此本文提出不仅保留字符可能的分割标签，而且保留它们对应的匹配词。具体地说，在这种改进的方法中，句子s的每个字符c对应于由四个分段标签“bmes”标记的四个单词集。词集b（c）由在句子s上以c开头的所有词库匹配词组成。同样，m（c）由c出现在句子s中间的所有词库匹配词组成，e（c）由以c结尾的所有词库匹配词组成，s（c）是由c组成的单个字符词。如果一个词集是空的，我们将在其中添加一个特殊单词“None”来表示这种情况。

然后是将每个字符的四个词集压缩成一个固定维向量。为了尽可能多地保留信息，我们选择将四个单词集的表示连接起来表示为一个整体，并将其添加到字符表示中。
此外，我们还尝试对每个单词的权重进行平滑处理，以增加非频繁单词的权重。

最后，基于增强字符表示，我们使用任何合适的神经序列标记模型进行序列标记，如基于LSTM的序列建模层和CRF标记推理层。

实验结果

不同 v s v^s vs下本文方法的F1得分《「自然语言处理（NLP）论文解读」中文命名实体识别（Lattice-LSTM模型优化）》是否使用bichar，所提方法对OntoNotes上的训练迭代次数对比。与Lattice LSTM和LR-CNN相比，本方法在不同的序列建模层下的计算速度（平均每秒句子数，越大越好）。《「自然语言处理（NLP）论文解读」中文命名实体识别（Lattice-LSTM模型优化）》在OntoNotes上的性能[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FLk0EcCH-1579348245258)(https://upload-images.jianshu.io/upload_images/18628169-11860b35824b525a.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/540)] 在MRSA上的性能《「自然语言处理（NLP）论文解读」中文命名实体识别（Lattice-LSTM模型优化）》

ACED

Attention

更多自然语言处理相关知识，还请关注**AINLPer**公众号，极品干货即刻送达。

推荐阅读

char
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
char
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
char
福昕软件公司Foxit PDF SDK ActiveX控件的使用指南

本文详细介绍了福昕软件公司开发的Foxit PDF SDK ActiveX控件（版本5.20），并提供了关于其在64位Windows 7系统和Visual Studio 2013环境下的使用方法。该控件文件名为FoxitPDFSDKActiveX520_Std_x64.ocx，适用于集成PDF功能到应用程序中。 ... [详细]

蜡笔小新 2024-12-22 17:47:05
bit
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
bit
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
future
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
future
高效提取PDF页面的实用技巧

在学习和工作中，我们经常需要与他人共享PDF格式的资料。然而，有时只需要分享部分内容，而不仅仅是整个文档。本文将介绍如何使用福昕阅读器领鲜版高效地提取PDF页面，以提高文件传输效率和查阅便捷性。 ... [详细]

蜡笔小新 2024-12-27 00:19:50
char
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
case
中科院学位论文排版指南

随着毕业季的到来，许多即将毕业的学生开始撰写学位论文。本文介绍了使用LaTeX排版学位论文的方法，特别是针对中国科学院大学研究生学位论文撰写规范指导意见的最新要求。LaTeX以其精确的控制和美观的排版效果成为许多学者的首选。 ... [详细]

蜡笔小新 2024-12-22 21:21:03
install
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
instance
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52
bit
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
range
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
char
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
char
MindManager项目管理与甘特图应用

本文介绍了MindManager在项目管理中的强大功能，特别是其内置的甘特图工具。通过该工具，用户可以轻松创建和管理项目计划，优化任务分配，并与其他软件无缝集成。 ... [详细]

蜡笔小新 2024-12-23 11:08:12

小妖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章