热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

NLP论文笔记新标签的关系抽取

之前写过一篇公众号,介绍在没有参考中科院专家论文情况下,我在项目中也使用了类似思路。本文就重点介绍一下这篇论文《JointExtractionofEnt

之前写过一篇公众号,介绍在没有参考中科院专家论文情况下,我在项目中也使用了类似思路。本文就重点介绍一下这篇论文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》,2017年由中科院团队发表1的论文,当时被评为年度杰出论文。


关系抽取简介

实体(Entity)的关系抽取(Relation Extraction)作为NLP领域的一项基本任务,很早就被学者关注到了。早期的实体识别通常基于概率图模型,如隐马尔可夫链(Hidden Markov model,简写 HMM),条件随机场(Conditional random field, 简写CRF),实体识别完成以后再进行实体的关系分类,这就是早期使用的Pipline方法,也称为流水线式的抽取方法。这种方法在今天仍然发挥很大的作用。

另一种方式就是Joint Model方法,一个模型完成多个任务,包括实体识别关系分类两个任务,底层使用参数共享的方式,很好地做到了端到端(end to end)处理方式,并且取得了非常好的效果。


论文介绍

本文最大的贡献是通过定义一种新的标签集,将Joint Model任务转化为序列标注问题,也就是实体识别。关键是把关系定义到标签里。可以参考原文:


We design a kind of novel tags which contain the information of entities and the rela- tionships they hold. Based on this tagging scheme, the joint extraction of entities and relations can be transformed into a tagging problem


来看一下论文中提出的标签策略,实体United States标签本来应该是B-ORG E-ORG,修改为B-CP-1 E-CP-1,而实体Trump应该是S-PER,修改为S-CP-2.实体标签里已经包含了关系CP(Country-President)关系。


通过上面的作为,只要完成序列标注问题,实体的关系也就完成了。


论文的网络结构

本文是在2017年发表,当时处理序列问题流行的仍然是LSTM,下面是编码器和解码器的网络图。

可以看到编码器采用双向的LSTM获取输入的序列特征,解码器使用单向LSTM,并且将上一个输出标签也作为下一个标签的输入,这个点非常重要,因为标签的之间的关系是非常重要的特征。最终输入到softmax层。


论文的一点想法

本文最大的贡献肯定是新标签的提出,将两个任务转化为一个任务,代价是标签的种类增多了,如果在特定领域内或者关系种类较少的情况下,这样的做法简单有效,但是对于开放域,关系较多的情况下,使用这种方法,最终关系分类会进一步增加,效果也有待实验验证,个人觉得效果也不会太差。

论文同步更新在个人博客:http://blackedu.vip
微信公众号(数学编程)以及CSDN(数学编程)上,欢迎关注我。




  1. Wang, S., Zhang, Y., Che, W., & Liu, T. (2018). Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. IJCAI International Joint Conference on Artificial Intelligence, 2018-July, 4461–4467. https://doi.org/10.24963/ijcai.2018/620 ↩︎



推荐阅读
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
  • 【shell】网络处理:判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系
    本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算,可以判断两个IP是否在同一网段。同时,还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文总结了Java中日期格式化的常用方法,并给出了示例代码。通过使用SimpleDateFormat类和jstl fmt标签库,可以实现日期的格式化和显示。在页面中添加相应的标签库引用后,可以使用不同的日期格式化样式来显示当前年份和月份。该文提供了详细的代码示例和说明。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 成功安装Sabayon Linux在thinkpad X60上的经验分享
    本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令,作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版,可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外,Sabayon Linux还可以被安装在硬盘上,方便用户使用。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到,他将msbuild设置为详细模式,但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • Vagrant虚拟化工具的安装和使用教程
    本文介绍了Vagrant虚拟化工具的安装和使用教程。首先介绍了安装virtualBox和Vagrant的步骤。然后详细说明了Vagrant的安装和使用方法,包括如何检查安装是否成功。最后介绍了下载虚拟机镜像的步骤,以及Vagrant镜像网站的相关信息。 ... [详细]
author-avatar
黄小翻_618
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有