关系抽取模型SpERT模型

作者：我叫yyson_836 | 来源：互联网 | 2023-10-12 21:02

关系抽取模型----SpERT模型SpERT模型是联合式抽取模

关系抽取模型----SpERT模型

SpERT模型是联合式抽取模型，同时抽取实体和关系。SpERT模型采用分类的思想实现联合抽取，实体抽取和关系抽取模型均为分类模型。SpERT模型是Span-based Joint Entity and Relation Extraction with Transformer Pre-training(2020)提出的，代码地址，SpERT模型
(1) 实体抽取和关系抽取均采用分类的思想
(2) 采用穷近的思想预测给定文本中所有可能的文本片段所属的实体类型
(3) 关系抽取依赖于出抽取出的实体，预测抽取实体的所有组合的关系类型
(4) 进行关系抽取会可考虑实体间的文本特征信息

模型结构

SpERT的模型采用bert 作为embedding，预测实体类型，选取实体类型为非None的实体进行关系分类，结构如下图：
spert模型
(1)实体分类，这里对实体进行分类，是一个softmax，但是考虑了实体的头尾，实体分类模型得到的是实体的类别和实体span，也就是文本中的那些字段是实体，模型的输入文本tokenizer，实体span，实体mask，实体size等
(2)对实体进行过滤span filter，对实体模型的结果进行过滤，保留有实体，根据保留的实体构建关系负样本，
(3)关系分类，输入是实体，实体间连续文本特征max-pooling，实体宽度矩阵，经过一个线性层，得到关系分类的结果
注意：实体分类采用的是softmax，关系分类采用的是sigmoid

span classification

span’s BERT embeddings
BERT/width embeddings

其中c是是bert embedding中CLS向量，即这个句子的句向量。
entity classification

span filtering

过滤实体类型为None的实体

Relation classification

-特征表示
在这里插入图片描述
-关系分类

其中?(?_1 ),?(?_2)表示BERT/width embeddings，?为实体间max-pooling的BERT embeddings

Loss计算

关系分类的loss和实体分类的loss和为整个模型的loss
在这里插入图片描述
其中ℒ^?为cross entropy ，ℒ^?为binary cross entropy。

模型数据构建说明

span classification数据说明

实体分类模型中加入了负样本，提高模型的鲁棒性。

数据candidate span 实体构建方式
（1）正例：数据中的实体数据
（2）反例：在句子中选取所有长度小于实体最大span长度的文本片段作为实体反例，实体类型为None。
例如：古往今来，能饰演古龙小说人物“楚留香”的，无一不是娱乐圈公认的美男子，2011年，36岁的张智尧在《楚留香新传》里饰演楚留香，依旧帅得让人无法自拔。假设实体最大span长度为5，
实体正例为（张智尧，人物，45，47），（楚留香新传，影视作品，50，54），（楚留香，人物，15，17）
实例反例为：（古，None，0，0），（今，None，1，1）…
（古往，None，0，1）（往今，None，1，2）（今来，None，2，3）…
…
(古往今来，None，0，4) （往今来，能，None，1，5）…
随机选取实体的反例数量为100
注意：反例实体数据中不包含真正的实体数据
relation classification数据说明
（1）正例数据集：正例数据为训练集中的实体关系数据
（2）反例数据：采用正例中的关系subject和关系object两两配对构建关系类型为None的数据。
例如：古往今来，能饰演古龙小说人物“楚留香”的，无一不是娱乐圈公认的美男子，2011年，36岁的张智尧在《楚留香新传》里饰演楚留香，依旧帅得让人无法自拔。
正例数据关系三元组：(楚留香新传，主演，张智尧)，(张智尧，饰演，楚留香)
反例数据关系三元组：(楚留香新传，None，楚留香)
注意：关系反例中的subject和object不能相同，且关系三元组中的subject和object与正例不能相同，关系反例的数量为100

实验结果

在百度2020关系抽取数据集上，SpERT的模型的结果如下：

precision = 57.09, recall = 80.67, f1_score = 66.86

测试集上的举例结果如下：

{ "text": "《吸血鬼偶像》是李根旭指导的一部情景喜剧，集结了洪宗玄、金宇彬等众多年轻偶像，并由搞笑明星申东烨和实力演员金秀美参演配角，讲述了一个吸血鬼星球傻乎乎的王子和他的护卫们来到地球上，为了成为明星而孤军奋斗的故事", "entity": [ { "type": "影视作品", "start_index": 1, "name": "吸血鬼偶像" }, { "type": "人物", "start_index": 8, "name": "李根旭" }, { "type": "人物", "start_index": 24, "name": "洪宗玄" }, { "type": "人物", "start_index": 28, "name": "金宇彬" }, { "type": "人物", "start_index": 45, "name": "申东烨" }, { "type": "人物", "start_index": 53, "name": "金秀美" } ], "relation": [ { "subject": "吸血鬼偶像", "predicate": "导演", "object": "李根旭" }, { "subject": "吸血鬼偶像", "predicate": "主演", "object": "洪宗玄" }, { "subject": "吸血鬼偶像", "predicate": "主演", "object": "金宇彬" }, { "subject": "吸血鬼偶像", "predicate": "主演", "object": "申东烨" }, { "subject": "吸血鬼偶像", "predicate": "主演", "object": "金秀美" } ] }, { "text": "蒋明杭州杭氧股份有限公司董事长他一直主张杭氧要走自主创新的道路，把核心技术、关键技术牢牢掌握在自己手中", "entity": [ { "type": "人物", "start_index": 0, "name": "蒋明" }, { "type": "企业", "start_index": 2, "name": "杭州杭氧股份有限公司" } ], "relation": [ { "subject": "杭州杭氧股份有限公司", "predicate": "董事长", "object": "蒋明" } ] }

总结

SpERT模型采用分类思想实现实体和关系抽取，其中使用了max-pooling特征，SpERT模型可以抽取出span 长度内所有可能的实体和关系。

推荐阅读

default
Django Token 认证详解与 HTTP 401、403 状态码的区别

本文详细介绍了如何在 Django 中配置和使用 Token 认证，并解释了 HTTP 401 和 HTTP 403 状态码的区别。通过具体的代码示例，帮助开发者理解认证机制及权限控制。 ... [详细]

蜡笔小新 2024-12-20 15:43:37
text
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
buffer
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
text
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
text
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
text
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19
text
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
text
解决C# Windows Forms客户端连接SignalR服务器时出现的错误

在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时，遇到了内部服务器错误（500）。本文将详细探讨问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-21 16:55:52
text
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
header
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
sum
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
text
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
require
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
text
Unity编辑器插件：NGUI资源引用检测工具

本文介绍了一款基于NGUI的资源引用检测工具，该工具能够帮助开发者快速查找和管理项目中的资源引用。其功能涵盖Atlas/Sprite、字库、UITexture及组件的引用检测，并提供了替换和修复功能。文末提供源码下载链接。 ... [详细]

蜡笔小新 2024-12-24 17:17:06

我叫yyson_836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章