ocr中文数据集_好的数据集能让生成的对话配的上你的才华知识驱动的中文多轮对话数据集KdConv...

作者：四海承风2502893247 | 来源：互联网 | 2023-09-13 11:16

在开放领域对话系统中，由于缺少包含知识标注、涵盖多个话题的多轮对话语料的支撑，知识驱动对话中的知识交互的研究受到了一定的限制。如可以在多轮对话中有效的对

在开放领域对话系统中&＃xff0c;由于缺少包含知识标注、涵盖多个话题的多轮对话语料的支撑&＃xff0c;知识驱动对话中的知识交互的研究受到了一定的限制。如可以在多轮对话中有效的对知识的交互进行建模&＃xff0c;则可以极大地提升对话系统的逻辑性&＃xff0c;信息量&＃xff0c;可解释性等智能化程度&＃xff0c;从而带来更好的用户体验。

在本次分享中&＃xff0c;讲者将介绍一个最新构造的知识驱动的中文多轮对话数据集KdConv&＃xff0c;并分析知识建模在对话系统中的应用。

一、介绍

a)研究背景

背景知识对对话系统至关重要&＃xff0c;有两大类主要应用&＃xff1a;1) 搜索和问答类型的场景&＃xff1b;2) 自然语言理解类的场景。

对于任务导向对话系统&＃xff0c;背景知识一般被定义为槽值对&＃xff0c;为问答和推荐提供了必要的信息&＃xff1b;
对于开放域对话系统&＃xff0c;它有助于生成更具有信息量和吸引力的回复&＃xff1b;
从形态上来说&＃xff0c;背景知识可以划分成结构化知识图谱或非结构化文本。

现有的带有外部知识的开放域对话语料中&＃xff0c;根据收集方式的不同&＃xff0c;大致可以分为两个类别&＃xff1a;

利用现有的对话数据集&＃xff0c;根据上下文标注相关的外部知识&＃xff1a;
▪常用的标注方法有&＃xff1a;命名实体识别&＃xff08;NER&＃xff09;&＃xff0c;字符串匹配&＃xff0c;人工评分和规则过滤等&＃xff1b;
▪但是也有缺点&＃xff0c;不匹配的知识会为数据集带来噪音&＃xff0c;不利于模型的训练&＃xff1b;
基于给定的背景知识&＃xff0c;由人类标注者从头开始构造对话数据集&＃xff1a;
▪有些语料可能缺少轮次级别的标注&＃xff1b;
▪对话内容局限于1-2个给定的话题&＃xff0c;或缺少话题之间的关系&＃xff1a;限制了对多样化的话题转移和知识规划的建模。

b)研究动机

当前带有知识标注的涵盖多个话题的对话数据集有所欠缺&＃xff1b;
对于进一步的知识交互的建模方面&＃xff08;例如话题转移和知识规划&＃xff09;&＃xff0c;现有的基于知识的对话数据集存在局限性

二、调研部分

a)与现有的基于知识的对话数据集进行对比

可以看到&＃xff0c;KdConv中的知识形式包含了非结构化的文本和结构化的图谱&＃xff0c;并提供了轮次级别的知识标注。语料涵盖三个领域&＃xff08;电影&＃xff0c;音乐和旅游&＃xff09;&＃xff0c;可以用于领域迁移的研究。KdConv中的对话的平均轮次为19.0&＃xff0c;每段对话平均涉及话题数量2.3个。

b)KdConv样例数据

一个音乐领域的数据样例。左侧为对话内容&＃xff0c;斜体内容为话题&＃xff0c;下划线内容则为背景知识。右侧展示了精细的知识标注&＃xff0c;既包含了结构化的知识&＃xff08;如飞得更高-发行日期-2005年3月19日等&＃xff09;&＃xff0c;也包含了非结构化的知识&＃xff08;如information一行&＃xff09;。

在上述对话所使用的知识三元组构成的知识图谱中&＃xff0c;斜体文本和圆圈表示话题&＃xff08;指知识三元组中不同的头实体&＃xff09;&＃xff0c;该图谱还体现了话题转移的过程。

三、数据构造

a)领域相关的知识图谱

构建知识图谱的过程&＃xff1a;

1.从几个相关的网站&＃xff08;豆瓣、去哪儿等&＃xff09;中爬取热门实体&＃xff0c;如电影和电影明星、音乐和歌手以及景点&＃xff0c;将其作为起始实体&＃xff0c;以减少特定领域知识的范围&＃xff1b;

2.在XLORE&＃xff08;一个大型英汉双语知识图谱&＃xff09;中过滤知识三元组很少的起始实体&＃xff1b;

3.以起始实体作为起点&＃xff0c;在XLORE的三跳范围中检索其邻居实体&＃xff0c;以支持对话能够进行合理的话题转移&＃xff1b;

对于旅游领域&＃xff0c;由于XLORE中有关起始实体的知识三元组较少&＃xff0c;该领域的知识图谱仅从网站上爬取。这也导致了旅游领域的知识图谱的统计特征与其他领域有所差别。

4.将这些实体和关系整合为领域相关的知识图谱。

从下面的统计信息来看&＃xff0c;电影领域无论是实体数量&＃xff0c;关系数还是三元组数量都是最多的。旅游领域则由于仅基于网站爬取&＃xff0c;关系数和三元组都较少。

b)构建对话数集

1.在众包平台上&＃xff0c;招募标注者&＃xff0c;在无特定目标和约束的情况下生成多轮对话&＃xff1b;

2.在对话过程中&＃xff0c;两个发言者都可以访问知识图谱&＃xff1b;

3.要求标注人员记录构造发言所用的相关的知识三元组&＃xff0c;以提供轮次级别的知识标注&＃xff1b;

4.指示标注人员从起始实体开始对话&＃xff0c;并鼓励他们将对话的话题转移到其他实体&＃xff1b;

5.过滤掉低质量的对话&＃xff0c;例如包含语法错误、对话内容与知识事实不一致等&＃xff0c;以保证对话数据的质量。

c)统计指标

三个领域各自收集了1500个对话&＃xff0c;数据集按照8:1:1切分为训练集、开发集和测试集。从对话的轮次数与对话所涉及的话题数来看&＃xff0c;电影领域的对话与音乐、旅游领域存在明显不同。从对话数据中包含的实体数、三元组数目来看&＃xff0c;三个领域也存在较大差别。

上图表示在前n个回合中讨论了至少k (k &＃61; 2, 3, 4) 个主题的对话数量统计。随着对话轮次的增长&＃xff0c;包含3个或4个主题的对话比例会变大。

这验证了深入讨论多个话题通常需要足够多的对话轮次&＃xff0c;因为简短的对话通常不足以涵盖多个话题&＃xff0c;更难以产生话题之间的自然过渡。

上面的表格显示了电影领域的1跳、2跳、3跳范围内&＃xff0c;各自频次最高的三种话题转移模式&＃xff0c;其中Tn表示对话的第n个主题&＃xff0c;Tn →X→Tn &＃43; 1表示Tn经由关系X跳转到Tn &＃43; 1。可以看到KdConv中话题转移的模式多样而复杂。“−Information→”则表示Tn &＃43; 1出现在了有关Tn的非结构化知识文本中&＃xff0c;而经由知识文本跳转话题的模式出现得相对更少&＃xff0c;表明比起非结构化文本&＃xff0c;人们更倾向于基于结构化关系转移话题。

四、实验部分

a)实验所用基准模型

包含了三个基于生成的模型&＃xff0c;一个基于检索的模型&＃xff0c;以及通过键值存储模块进行知识增强的模型。

基于生成的模型&＃xff1a;

1.Language Model&＃xff1a;建模对话内容的语言模型&＃xff1b;

2.Seq2Seq&＃xff1a;带注意力机制的序列到序列模型&＃xff1b;

3.HRED&＃xff1a;带有层次化结构的Seq2Seq模型。

基于检索的模型&＃xff1a;BERT&＃xff0c;训练任务是在给定上下文的情况下预测候选回复是否是真实回复。

通过键值存储模块进行知识增强&＃xff1a;将头实体和关系作为键、尾实体作为值&＃xff0c;在上述模型中引入对话相关的知识图谱以利用知识信息。

工具&＃xff1a;CoTK

一种开源工具包&＃xff0c;用于语言生成模型的快速开发和公平测评&＃xff0c;包含了当前主流的语言生成任务的评价方法。

Paper: https://arxiv.org/abs/2002.00583

GitHub: https://github.com/thu-coai/cotk

b)评价

&＃xff08;1&＃xff09;自动评价

生成模型和检索模型的最佳结果分别用粗体和下划线标出。“&＃43;know”表示知识增强的模型。

实验结果表明&＃xff0c;模型可以通过引入背景知识来增强性能&＃xff0c;但多轮对话中的知识建模仍有很大的研究空间。

结果还显示&＃xff0c;各个模型的性能以及知识增强的效果在不同领域之间差别较大&＃xff0c;说明迁移学习和领域转换方面同样值得进一步研究。

&＃xff08;2&＃xff09;人工评估&＃xff1a;

指标&＃xff08;0-2分制&＃xff09;&＃xff1a;

流利度&＃xff1a;回复是否流畅自然&＃xff1b;
连贯性&＃xff1a;回复是否与上下文及背景知识相关、一致&＃xff1b;

评价方式&＃xff1a;

每个领域500个样本&＃xff0c;3个标注者对样本打分&＃xff0c;打分结果如上图所示&＃xff1b;
从标注一致性的角度来看&＃xff0c;Fleiss卡帕值&＃xff1a;在0.37到0.74之间
3个标注者打分相同的比例&＃xff1a;在68.14&＃xff05;至81.33&＃xff05;之间

从结果来看&＃xff0c;融入知识图谱的信息后&＃xff0c;HRED模型获得了一定的性能提升。

c)案例分析

上图包含了旅游领域和电影领域的两个案例&＃xff0c;融入知识图谱信息后&＃xff0c;模型生成的对话能够更有效地利用知识&＃xff0c;但仍然不能有效处理需要利用非结构化文本构建回复的场景。

五、结论

本工作提出一个知识驱动的中文多领域对话数据集&＃xff1a;KdConv。该语料库包含4.5K个对话和86K条语句&＃xff0c;平均对话轮数为19.0&＃xff1b;
实验表明&＃xff0c;通过引入背景知识&＃xff0c;基准模型的性能可以获得一定的提升&＃xff0c;但对话中的知识交互建模在未来的工作中仍然有很大的研究空间。

竞赛&＃xff1a;

SMP2020-ECDT&＃xff08;中文人机对话技术评测&＃xff0c;任务2&＃xff09;

整理&＃xff1a;闫昊
审稿&＃xff1a;郑楚杰

推荐阅读

schema
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
spring
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
process
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
io
Flutter 开发中集成极光推送的详细步骤

本文详细介绍了如何在 Flutter 项目中集成极光推送服务，包括配置和测试的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 00:53:40
io
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
list
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
window
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
list
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
io
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
list
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
window
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
list
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
list
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
io
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
io
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20

四海承风2502893247

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章