热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

「自然语言处理(NLP)论文解读」中文命名实体识别(LatticeLSTM模型优化)

来源:AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-27引言    今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-27

引言

    今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-LSTM模型,并针对该方法的弊端提出将字符符号信息合并到字符向量表示中,提高了模型的性能(计算量、效果)。

First Blood

TILE: Simplify the Usage of Lexicon in Chinese NER
Contributor : 复旦大学(计科院)
Paper: https://arxiv.org/pdf/1908.05969v1.pdf
Code: https://github.com/v-mipeng/LexiconAugmentedNER

文章摘要

    对于中文命名实体是识别,考虑到实际生产应用,本文主要针对Lattice-LSTM模型的弊端(复杂的模型结构和计算效率低),提出了一种简洁而有效的方法,即将字符符号信息合并到字符向量表示中。 这样,我们的方法可以避免引入复杂的序列建模体系结构来对词汇信息进行建模。相反,它只需要微调神经序列模型的字符表示层。通过在四组中文基准NER数据集上的验证,可以发现该方法可以实现更快的推理速度,相对于LSTM及其衍生模型具有更好的性能。

模型的核心思想

    本文的核心目标是找到一个更简单的方法来实现LSTM网格思想。即将句子中所有匹配的单词合并到基于字符的NER模型中。首要原则是实现快速的推理速度。为此,本文提出将从词典中获得的匹配词编码成字符的表示形式。与LSTM相比,该方法更加简洁,易于实现。

本文模型介绍

Lattice-LSTM模型分析

    优点: 第一、它为每个字符保存所有可能匹配的单词。这可以通过启发式地选择与NER系统匹配的字符结果来避免错误传播。第二、它可以在系统中引入预先训练好的word嵌入,这对最终的性能有很大的帮助。
    缺点: Lattice-LSTM模型的缺点是它将句子的输入形式从一个链式序列转换为一个图。这将大大增加句子建模的计算成本。

Proposed Model

    基于Lattice-LSTM的思考,本文的设计应尽量保持句子的链式输入形式,同时保持Lattice-LSTM模型的两个优点。

    首先本文提出了ExSoftWord,但是通过对ExSoftword的分析,发现ExSoftword方法不能完全继承Lattice-LSTM的两个优点。首先,它不能引入预先训练过的单词嵌入。其次,虽然它试图保持现有的匹配结果为多个分割标签,但它仍然会丢失大量的信息。 为此本文提出不仅保留字符可能的分割标签,而且保留它们对应的匹配词。 具体地说,在这种改进的方法中,句子s的每个字符c对应于由四个分段标签“bmes”标记的四个单词集。词集b(c)由在句子s上以c开头的所有词库匹配词组成。同样,m(c)由c出现在句子s中间的所有词库匹配词组成,e(c)由以c结尾的所有词库匹配词组成,s(c)是由c组成的单个字符词。如果一个词集是空的,我们将在其中添加一个特殊单词“None”来表示这种情况。

    然后是将每个字符的四个词集压缩成一个固定维向量。为了尽可能多地保留信息,我们选择将四个单词集的表示连接起来表示为一个整体,并将其添加到字符表示中。
    此外,我们还尝试对每个单词的权重进行平滑处理,以增加非频繁单词的权重。

    最后,基于增强字符表示,我们使用任何合适的神经序列标记模型进行序列标记,如基于LSTM的序列建模层和CRF标记推理层。

实验结果

    不同 v s v^s vs下本文方法的F1得分《「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)》    是否使用bichar,所提方法对OntoNotes上的训练迭代次数对比。《「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)》    与Lattice LSTM和LR-CNN相比,本方法在不同的序列建模层下的计算速度(平均每秒句子数,越大越好)。《「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)》     在OntoNotes上的性能[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FLk0EcCH-1579348245258)(https://upload-images.jianshu.io/upload_images/18628169-11860b35824b525a.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/540)]    在MRSA上的性能《「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)》

ACED

Attention

更多自然语言处理相关知识,还请关注**AINLPer**公众号,极品干货即刻送达。


推荐阅读
  • 解决针织难题:R语言编程技巧与常见错误分析 ... [详细]
  • 本文介绍了如何使用 Node.js 和 Express(4.x 及以上版本)构建高效的文件上传功能。通过引入 `multer` 中间件,可以轻松实现文件上传。首先,需要通过 `npm install multer` 安装该中间件。接着,在 Express 应用中配置 `multer`,以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置,帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]
  • 三角测量计算三维坐标的代码_双目三维重建——层次化重建思考
    双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记,本文从宏观的角度阐 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • 解决Only fullscreen opaque activities can request orientation错误的方法
    本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误,并提供了一种有效的解决方案。 ... [详细]
  • Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器,支持多种编程语言,具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]
  • 微信公众号推送模板40036问题
    返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备,实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析,旨在提升网络安全意识。 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
  • 本文通过具体实例详细分析了哈希冲突的原因及其潜在影响,并探讨了多种有效的解决策略。研究不仅涵盖了MD5等常用哈希算法的局限性,还提出了基于哈希表扩展、双哈希技术和布隆过滤器等方法的综合解决方案,以提高数据处理的可靠性和效率。 ... [详细]
  • 在 Vue 项目中,为了提高页面加载速度和优化用户体验,实现图片上传前的压缩处理至关重要。本文介绍了如何通过集成第三方库和自定义组件,有效减小图片文件大小,确保在不影响图像质量的前提下,提升应用性能。 ... [详细]
  • Flutter 开发中集成极光推送的详细步骤
    本文详细介绍了如何在 Flutter 项目中集成极光推送服务,包括配置和测试的具体步骤。 ... [详细]
author-avatar
小妖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有