【读】关系抽取—（1）AttentionBasedBidirectionalLongShortTermMemoryNetworksforRelationClassification

作者：无休止的等待Happy_212 | 来源：互联网 | 2023-10-11 19:41

学习本无底，前进莫徬徨。这是一篇RelationClassification相关的paper，出自于中科大自动化所Zhou，Attenti

学习本无底&＃xff0c;前进莫徬徨。

这是一篇Relation Classification相关的paper&＃xff0c;出自于中科大自动化所 Zhou &＃xff0c;Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification。收录于ACL 2016。

Abstract

1 Introduction

2 Related work

3 Model

3.1 Word Embeddings

3.2 Bidirectional Network

3.3 Attention

3.4 Classifying

3.5 Regularization

4 Experiments

4.1 Dataset and Experimental Setup

4.2 Experimental Results

5 Conclusion

LINK

NOTE

待修改

本文主要做了三个方面的工作&＃xff1a;

&＃xff08;1&＃xff09;基于注意力的双向长短期记忆网络&＃xff08;Att-BLSTM&＃xff09;来捕获句子中最重要的语义信息。

&＃xff08;2&＃xff09;使用词向量级别的attention机制的方法.

&＃xff08;3&＃xff09;句子级特征向量最终用于关系分类。

Abstract
关系分类是自然语言处理领域&＃xff08;NLP&＃xff09;的一项重要的语义处理任务。当前水平的系统仍然依赖于词汇资源&＃xff0c;如WordNet或NLP系统&＃xff0c;如依赖解析器和命名实体识别器&＃xff08;NER&＃xff09;来获得高级特性。另一个挑战是&＃xff0c;重要的信息可以出现在句子的任何位置。为了解决这些问题&＃xff0c;我们建议基于注意力的双向长短期记忆网络&＃xff08;Att-BLSTM&＃xff09;来捕获句子中最重要的语义信息。对SemEval-2010关系分类任务的实验结果表明&＃xff0c;我们只用词向量级别的attention机制的方法&＃xff0c;优于大多数现有的方法。
# 这里要写小评论&＃xff0c;可是我不会改字体

1 Introduction
关系分类是在对许多NLP应用程序中寻找语义关系的任务&＃xff0c;如信息提取&＃xff08;Wu and Weld, 2010&＃xff09;&＃xff0c;问题回答&＃xff08;Yao and Van Durme, 2014&＃xff09;。例如&＃xff0c;下面的句子包含了一个关于名词的花和小教堂之间的实体-目的地关系的例子。
花被带入教堂。
&＃xff0c;&＃xff0c;&＃xff0c;是四个位置指示器&＃xff0c;指定了名词的开始和结束&＃xff08;Hendrickx等人&＃xff0c;2009&＃xff09;。
传统的关系分类方法&＃xff0c;从词汇资源中使用人工标注的特征&＃xff0c;通常基于模式匹配&＃xff0c;并取得了很高的性能(Bunescu and Mooney, 2005; Mintz et al., 2009; Rink and Harabagiu, 2010)&＃xff09;。这些方法的一个缺点是&＃xff0c;许多传统的NLP系统被用来提取高级特性&＃xff0c;比如语音标签的一部分、最短的依赖路径和命名实体&＃xff0c;从而导致计算成本的增加和额外的传播错误。另一个缺点是&＃xff0c;人工标注特征是很耗时间的&＃xff0c;而且由于不同的培训数据集的覆盖率很低&＃xff0c;所以在泛化方面表现不佳。
最近&＃xff0c;深度学习方法提供了一种有效的方法来减少人工标注特征的功能 (Socher et al., 2012; Zeng et al., 2014)。然而&＃xff0c;这些方法仍然使用词汇资源&＃xff0c;如WordNet&＃xff08;Miller&＃xff0c;1995&＃xff09;或NLP系统&＃xff0c;如依赖解析器和NER&＃xff0c;以获得高级特性。
本文提出了一种新的神经网络-BLSTM关系分类。我们的模型利用双向长短期记忆网络&＃xff08;BLSTM&＃xff09;的神经注意机制来捕捉句子中最重要的语义信息。该模型不使用来自词汇资源或NLP系统的任何特性。
本文的贡献是利用BLSTM与注意力机制&＃xff0c;它可以自动聚焦于对分类有决定性影响的词语&＃xff0c;在不使用额外知识和NLP系统的情况下&＃xff0c;捕捉句子中最重要的语义信息。我们在SemEval-2010任务8数据集上进行实验&＃xff0c;并获得84.0%的f1-分数&＃xff0c;比现有的文献中大多数方法都要高。
本文的其余部分按如下方式构造。在第2部分中&＃xff0c;我们回顾了有关关系分类的相关工作。第3部分详细介绍了我们的Att-BLSTM模型。在第4部分中&＃xff0c;我们描述了实验评估的设置和实验结果。最后&＃xff0c;我们在第5部分有了结论。
# 这里要写小评论&＃xff0c;可是我不会改字体

3 Model
在这一节中&＃xff0c;我们将详细地介绍该模型。如图1所示&＃xff0c;本文提出的模型包含五个组件&＃xff1a;
&＃xff08;1&＃xff09;输入层&＃xff1a;该模型的输入句;
&＃xff08;2&＃xff09;嵌入层&＃xff1a;将每个单词映射到一个低维向量;
&＃xff08;3&＃xff09;LSTM层&＃xff1a;利用BLSTM从step&＃xff08;2&＃xff09;获得高级特性;
&＃xff08;4&＃xff09;注意层&＃xff1a;产生一个重量矢量&＃xff0c;并将每个时间步骤的单词级别的特征合并到一个句子级的特征向量中&＃xff0c;通过增加权重向量;
&＃xff08;5&＃xff09;输出层&＃xff1a;句子级特征向量最终用于关系分类。
这些组件将在本节中详细介绍。

3.1 Word Embeddings

3.2 Bidirectional Network

LSTM单元首先由Hochreiter和Schmidhuber&＃xff08;1997&＃xff09;提出&＃xff0c;以克服梯度消失问题。其主要思想是引入一种自适应的控制机制&＃xff0c;它决定了LSTM单元保持前一个状态的程度&＃xff0c;并记住当前数据输入的提取特性。然后&＃xff0c;提出了许多LSTM变体。我们采用了Graves等人&＃xff08;2013&＃xff09;所介绍的一种变体&＃xff0c;该变种将从常量错误木马&＃xff08;CEC&＃xff09;到相同内存块的门上添加了加权的窥视孔连接&＃xff08;&＃xff1f;&＃xff1f;翻译成什么词呢&＃xff1f;&＃xff09;。通过直接使用当前的细胞状态来产生门度&＃xff0c;窥视孔连接允许所有的门进入细胞&＃xff08;即当前的细胞状态&＃xff09;&＃xff0c;即使输出门关闭了(Graves, 2013)。

通常&＃xff0c;四个组件组合了基于lstm的递归神经网络&＃xff1a;一个输入门it和相应的权重矩阵Wxi、Whi、Wci、bi&＃xff1b;一个遗忘门ft和相应的权重矩阵Wxf、Whf、Wcf、bf&＃xff1b;一个输出门ot和相应的权重矩阵Wxo、Who、Wco、bo权重矩阵&＃xff0c;所有这些门将生成一些阈&＃xff0c;使用当前输入xi&＃xff0c;上一步生成的状态hi-1,和当前状态的细胞ci-1(窥视孔)&＃xff0c;决定是否要输入&＃xff0c;之前忘记记忆存储和输出后生成的状态。就像下面这些方程所证明的那样&＃xff1a;

因此&＃xff0c;目前的细胞状态ct将通过使用前一个细胞状态和细胞产生的当前信息来计算加权总和 (Graves, 2013)。

对于许多序列建模任务来说&＃xff0c;访问未来和过去的上下文是有益的。然而&＃xff0c;标准的LSTM网络以时间顺序处理序列&＃xff0c;它们忽略了未来的上下文。双向LSTM网络通过引入第二个层来扩展单向的LSTM网络&＃xff0c;在这个层中隐藏的隐藏连接以相反的时间顺序流动。因此&＃xff0c;该模型能够利用过去和未来的信息。

在本文中&＃xff0c;我们使用BLSTM。如图1所示&＃xff0c;该网络包含两个用于左右顺序上下文的子网络&＃xff0c;分别是向前和向后传递。第ith个单词的输出如下所示

在这里&＃xff0c;我们使用元素求和来组合前进和向后传递输出。

3.3 Attention

注意力的神经网络最近在各种各样的任务中取得了成功&＃xff0c;从问答、机器翻译、语音识别到图像字幕&＃xff08;Hermann et al., 2015; Bahdanau et al., 2014; Chorowski et al., 2015; Xu et al., 2015&＃xff09;。在本节中&＃xff0c;我们提出了关系分类任务的注意机制。让H成为一个由LSTM层产生的输出向量[h1,h2,...,hT]&＃xff0c;T是句子长度。句子的表示r是由这些输出向量的加权和构成的&＃xff1a;

H属于R^dw*T&＃xff0c;dw是向量的维数&＃xff0c;w是一个经过训练的参数向量&＃xff0c;而wT是a的转置。w&＃xff0c;α&＃xff0c;r的维数分别是dw&＃xff0c;T&＃xff0c;dw。

我们得到了用于分类的最后的句子对表示&＃xff1a;

3.4 Classifying

在这个设置中&＃xff0c;我们使用一个softmax分类器来预测一个句子s的离散集合Y的标签Y。分类器将隐藏状态h*作为输入&＃xff1a;

损失函数是真正类标签^y的负对数似然函数&＃xff1a;

本文将dropout与L2正则化结合起来&＃xff0c;以缓解过拟合。

3.5 Regularization

由&＃xff08;Hinton等人&＃xff0c;2012年&＃xff09;提出的Dropout现象&＃xff0c;在向前传播过程中&＃xff0c;通过从网络中随机省略特征检测器来防止隐藏单元的协同适应。我们在嵌入层、LSTM层和倒数第二层中使用了Dropout。

另外&＃xff0c;我们还限制了权重矢量的L2正则化&＃xff0c;当w&＃61;s时&＃xff0c;在梯度下降步骤之后&＃xff0c;如方程式15所示。训练详情将在第4.1节进一步介绍。

4 Experiments

4.1 Dataset and Experimental Setup

实验是在SemEval-2010任务8数据集&＃xff08;Hendrickx等人&＃xff0c;2009年&＃xff09;上进行的。这个数据集包含9个关系&＃xff08;有两个方向&＃xff09;和一个无定向的其他类。有10717个带注释的例子&＃xff0c;包括8000个用于培训的句子&＃xff0c;2717个用于测试。我们采用官方的评估指标来评估我们的系统&＃xff0c;它是基于9个实际关系的宏观平均F1-得分&＃xff08;不包括其他关系&＃xff09;&＃xff0c;并考虑了方向。

为了与Zhang和Wang&＃xff08;2015&＃xff09;的工作相比较&＃xff0c;我们使用了由Turian等人&＃xff08;2010&＃xff09;&＃xff08;50维&＃xff09;提出的相同的词向量来初始化嵌入层。此外&＃xff0c;与Zhang等&＃xff08;2015&＃xff09;的工作相比&＃xff0c;我们还使用了由Pennington等人&＃xff08;2014年&＃xff09;预先训练的100维字向量。

由于没有官方的开发数据集&＃xff0c;所以我们随机选择了800个句子进行验证。我们的模型的超参数被调优到每个任务的开发集。我们的模型使用AdaDelta&＃xff08;Zeiler&＃xff0c;2012&＃xff09;进行了训练&＃xff0c;其学习速度为1.0&＃xff0c;而minibatch为10。该模型参数被强度为10^-5个的L2正则规范化。我们评估了dropout层、dropout LSTM层和dropout the penultimate 层的影响&＃xff0c;当dropout分别为0.3、0.3、0.5时模型的性能更好。我们模型中的其他参数是随机初始化的。

4.2 Experimental Results

表1比较了我们的工作原理和其他最先进的关系分类方法。

SVM&＃xff1a;这是在SemEval-2010的最高执行系统。Rink和Harabagiu&＃xff08;2010&＃xff09;利用了各种人工标注特征的功能&＃xff0c;并使用SVM作为分类器。他们的得分为82.2%。

CNN&＃xff1a;Zeng等人&＃xff08;2014&＃xff09;将句子作为连续的数据处理&＃xff0c;并利用卷积神经网络来学习句子层次的特征;他们还使用一个特殊的位置向量来表示每个单词。然后&＃xff0c;句子级和词汇特征被连接到一个单一的向量中&＃xff0c;并被输入到一个用于预测的softmax分类器中。该模型的f1得分为82.7%。

RNN&＃xff1a;Zhang和Wang&＃xff08;2015&＃xff09;采用双向的网络&＃xff0c;有两个不同维度的词向量进行关系分类。他们使用Mikolov等人&＃xff08;2013年&＃xff09;预先训练的300维字矢量&＃xff0c;取得了82.8%的f1分数&＃xff0c;并使用了由Turian等人&＃xff08;2010年&＃xff09;预先训练的50维字矢量的f1得分为80.0%。我们的模型具有相同的50维字向量&＃xff0c;达到了82.5%&＃xff0c;比他们的多了2.5%。

SDP-LSTM:Yan等人&＃xff08;2015&＃xff09;利用四个不同的渠道在SDP中拾取异质&＃xff0c;他们获得了83.7%的f1。与它们的模型相比&＃xff0c;我们对原始文本作为序列的模型更简单。

BLSTM:Zhang等人&＃xff08;2015&＃xff09;使用了来自NLP工具和词汇资源的许多特性&＃xff0c;使用双向的LSTM网络来学习句子级别的特性&＃xff0c;并且在SemEval-2010任务8数据集上获得了最先进的性能。我们使用相同的单词向量的模型得到了一个非常相似的结果&＃xff08;84.0%&＃xff09;&＃xff0c;并且我们的模型更加简单。

我们提出的这个模型产生了84.0%的F1。它优于大多数现有的竞争方法&＃xff0c;而不使用诸如WordNet或NLP系统之类的词汇资源&＃xff0c;如依赖解析器和NER来获得高级特性。

5 Conclusion
本文提出了一种新的神经网络模型&＃xff0c;名为“一种关系分类”。该模型不依赖于NLP工具或词汇资源来获得&＃xff0c;它使用带有位置指示器的原始文本作为输入。通过对 SemEval-2010关系分类任务的模型进行评价&＃xff0c;证明了该方法的有效性。

LINK
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
Neural Relation Extraction with Selective Attention over Instances

NOTE
一改&＃xff1a;译于18.10.15
二改&＃xff1a;注于18.10.22

推荐阅读

ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
ip
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
text
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
ip
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
const
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
const
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
const
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
const
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
ip
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
ip
玩转系统|初遇ChatGPT,我和TA的第一次约会

最近互联网圈子有一个非常火爆的话题ChatGPT，短短一周的时间就有上百万的用户，如果你不是程序员，也许会问这到底是个什么玩意࿱ ... [详细]

蜡笔小新 2024-10-15 16:52:58
ip
NLP篇【01】tfidf与bm25介绍与对比

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]

蜡笔小新 2024-10-13 12:46:48
search
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
search
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39
char
Bidirectional LSTMCNNsCRF

上期使用LSTM做短文本分类效果不如CNN，或许有朋友会问什么场景下LSTM能体现出序列性的优势，本期使用双向LSTM-CNNs-CRF实现SequenceLabeling。CRF ... [详细]

蜡笔小新 2024-10-09 21:44:26
ip
经验总结_爬虫经验总结

关于爬虫内容的分享，我会分成两篇，六个部分来分享，分别是：我们的目的是什么内容从何而 ... [详细]

蜡笔小新 2024-10-08 10:55:17