论文浅尝|利用KGEmbedding进行问题回答

作者：瑞铭与我_109 | 来源：互联网 | 2023-10-12 19:16

论文笔记整理：吴杨，浙江大学计算机学院，知识图谱、NLP方向。http:esearch.baidu.comPublicuploads5c1c9a58317b3.pdf动机

论文笔记整理：吴杨，浙江大学计算机学院，知识图谱、NLP方向。

640?wx_fmt=png http://research.baidu.com/Public/uploads/5c1c9a58317b3.pdf

动机

本文主要针对基于知识库的问题回答中的简单问题，也就是问题的答案只涉及KG中的一跳，此类问题在KG中找到对应的头实体和关系以后，获取到的尾实体即为问题的答案。本文的思路主要是：直接将问题的文本空间向量转化到KG空间向量，并在预训练的（通过TransE之类）KG Embedding中查找与该向量最相似的那个实体和关系，利用他们得到问题的答案。本文的主要贡献在于：

提出了KEQA框架，能够使用KG Embedding查找问题的实体和关系来解决问题
对预训练的KG Embedding和文本转化来的KG Embedding提出了新的距离度量
解释了KEQA的效率和鲁棒性

方法

(1) 概述

640?wx_fmt=png

对于一个三元组(h, r, t)组成的KG, 我们首先使用KG Embedding模型来对KG中的实体和关系Embedding进行预训练，通过使用TransE或者TransH等方法，最终的得到实体的表示 640?wx_fmt=png ，和关系的表示。随后我们通过神经网络，将问题的单词Embedding作为输入，训练其输出一个关系的Embedding和实体的Embedding，通过计算这两个向量与预训练的关系向量和实体向量的距离，我们取距离最小的两个，作为最终三元组的头实体和关系，来获取到答案。

(2) 转化到KG Embedding空间部分：

640?wx_fmt=png

将问题通过Bi-LSTM转化成为d维度的向量。随后经过Attention层并与原单词的Embedding做合并操作，在经过一个全连接层得到该单词映射到KG空间的Embedding，将所有的向量作加权平均，最终就可以得到问题转化成为的头实体向量或者是关系向量（注意转化到头实体和转化到关系使用的是相同的神经网络架构），该组神经网络的训练数据来源于原始QA对中直接取出Answer的头实体预训练Embedding和关系预训练Embedding。损失函数为向量的欧氏距离，涉及到的公式如下：

640?wx_fmt=png

(3) 头实体探测：

由于KG中的实体一般非常的多，因此有必要在KG中首先将不相关的实体进行剔除操作得到一个子图，然后将的得到Embedding与子图中的实体Embedding进行距离度量已加快速度，在这里，我们首先通过一个神经网络来探测问题中的各单词是否是一个实体。在得到的结果中，我们将输出值为有可能是实体的那些单词，送入KG做实体的字符串匹配，这样就可以拿出仅与这些单词相关的实体了。具体的模型如下：

640?wx_fmt=png

首先，单词经过一个Bi-LSTM后，直接进入全连接层，再通过SoftMax得到一个二维的向量，其中第一维表示这个单词是一个实体的概率，第二维表示不是实体的概率。

(4) 度量部分：

这一部分需要对神经网络输出的实体Embedding和关系Embedding计算其与预训练的Embedding之间的度量：

640?wx_fmt=png

其中，(h, l, t)表示候选的三元组，度量项的前三项分别为输出的头实体、关系、尾实体和预训练的头实体、关系、尾实体之间的欧氏距离。注意，由于QA中一个头实体和关系可能对应有多个尾实体，因此这里不直接使用预训练的尾实体Embedding。而是使用预训练KG时的(h, l ,t)之间的关系函数t = f(h, l)来表示（对于TransE，其为h + l = t）。第四项和第五项分别表示头实体和关系的字符串与(3)部分提取出的问题中可能为实体的单词之间的相似度。至此总的KEQA的流程结束。其算法表示如下：

640?wx_fmt=png

实验

(1) 在各数据集的数据量：

由于去解决的是简单问题，因此所用到的数据集为Freebase，其中Freebase的子集FB2M和FB5M以及FB2M的子集SimpleQuestions这三个数据集的数据量以及一些其他特征见下表：

640?wx_fmt=png

(2) 性能评测：

可以看的出来，本文在简单问题上的正确率相较于当前的模型还是有一定的提升的。

640?wx_fmt=png

如果对于使用了不同的预训练模型，比如TransE/H/R之间的性能区别，以及预训练的KG Embedding对QA问题的性能提升可以在下表中看出，对于noEmbed，也就是使用随机初始化的向量值作为实体和关系的Embedding（在距离度量时也采用该Embedding），由于随机初始化的结果服从均匀分布，因此问题退化为一个基本的分类问题。

640?wx_fmt=png

最后，这一张图则体现了新的距离度量函数对性能的影响，其中第一项表示只保留，第二项表示只删除，第三项则表示依次按顺序将当前的度量项目加入到度量函数中得到的新能结果

总结

本文提出了使用预训练KG Embedding。再使用神经网络将问题空间映射到KG空间的Embedding，并将这二者进行距离度量，取出距离最小的预训练Embedding，从而得到问题的答案头实体和关系的方法。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文，进入 OpenKG 博客。

推荐阅读

ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
list
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
数组
备战BAT面试：掌握这些MySQL核心问题

本文深入探讨了MySQL中常见的面试问题，包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析，帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]

蜡笔小新 2024-12-20 18:58:01
js
优化后的标题：探讨未来长期发展路径的解决方案

优化后的摘要：本文详细分析了当前面临的挑战和机遇，结合具体实例探讨了如何通过创新和改革来推动长期可持续发展。文中还介绍了多种可行的解决方案，并强调了在不同阶段实施这些方案的重要性。 ... [详细]

蜡笔小新 2024-12-20 17:49:13
数组
最强阿里及大厂350道面试大全：框架+数据库+并发+开源+微服务

前言无论是对于刚入行工作还是已经工作几年的java开发者来说，面试求职始终是你需要直面的一件事情。首先梳理自己的知识体系，针对性准备，会有事半功倍的效果。我们往往会把重点放在技术上 ... [详细]

蜡笔小新 2024-12-18 15:33:00
byte
深入探讨ASP.NET中的OAuth、JWT与OpenID Connect

本文作为前文关于OAuth2.0和使用.NET实现OAuth身份验证的补充，详细阐述了OAuth与JWT及OpenID Connect之间的关系和差异，旨在提供更全面的理解。 ... [详细]

蜡笔小新 2024-12-14 18:34:43
list
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
string
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
js
精选30本C# ASP.NET SQL中文PDF电子书合集

欢迎订阅我们的技术博客，获取更多关于C#、ASP.NET和SQL的最新资讯和资源。 ... [详细]

蜡笔小新 2024-12-26 13:54:47
byte
版本控制工具——Git常用操作（下）

本文由云+社区发表作者：工程师小熊摘要：上一集我们一起入门学习了git的基本概念和git常用的操作，包括提交和同步代码、使用分支、出现代码冲突的解决办法、紧急保存现场和恢复 ... [详细]

蜡笔小新 2024-12-21 14:25:43
string
初探七牛云存储：实现多服务器图片共享

为了解决不同服务器间共享图片的需求，我们最初考虑建立一个FTP图片服务器。然而，考虑到项目是一个简单的CMS系统，为了简化流程，团队决定探索七牛云存储的解决方案。本文将详细介绍使用七牛云存储的过程和心得。 ... [详细]

蜡笔小新 2024-12-21 13:15:50
string
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
process
使用Java反射机制模拟Webwork URL解析

本文探讨如何利用Java反射技术来模拟Webwork框架中的URL解析过程。通过这一实践，读者可以更好地理解Webwork及其后续版本Struts2的工作原理，尤其是它们在MVC架构下的角色。 ... [详细]

蜡笔小新 2024-12-18 10:06:40
post
2023年PHP实现1GB视频上传的最佳实践

本文将详细介绍如何使用PHP处理1GB大小的视频上传问题，包括文件类型验证、上传大小限制设置及优化上传过程，确保高效稳定地完成大文件上传。 ... [详细]

蜡笔小新 2024-12-14 12:36:12
list
解决Rails Paperclip中AWS S3 `BadRequest`错误

在使用Rails Paperclip插件与AWS S3进行文件管理时，遇到了`exists?`和`clear`方法调用时出现的`AWS::S3::Errors::BadRequest`错误。本文探讨了问题的原因及可能的解决方案。 ... [详细]

蜡笔小新 2024-12-13 15:19:13

瑞铭与我_109

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章