热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【文献阅读】2021ACLBASS:BoostingAbstractiveSummarizationwithUnifiedSemanticGraph

原文链接:https:arxiv.orgpdf2105.12041.pdf一 背景和意义TextSummarization(文本摘要)Summarizationà为给定的输入文档生

原文链接:https://arxiv.org/pdf/2105.12041.pdf

一 背景和意义

Text Summarization(文本摘要)

Summarizationà为给定的输入文档生成流畅而简洁的摘要,用户通过阅读摘要获取文章的主要内容。

        摘要问题的特点:输出的文本要比输入的文本少很多,但却包含着非常多的有效信息。

 

        抽取式就是使用算法从源文档中提取现成的句子作为摘要句组成摘要。

        生成式是生成一个序列,通过源文档序列生成摘要序列。

        目前,生成式摘要很多都是利用基于深度学习中的seq2seq模型,或者是在以bert为代表的预训练模型

        此外,由于现实中往往缺少标注好的摘要数据,所以有很多工作聚焦在无监督的方式,使用自编码器等做无监督的生成式摘要。

        比较抽取式和生成式摘要,抽取式有时可能无法简洁凝练地概括原文的内容;而生成式虽然灵活,但是容易产生事实性错误,也就是生成出一些与原文相违背的内容。

        评测文本生成的方法:BLEU,ROUGE等。他们基本上都是从基本语义单元的匹配上去评测候选摘要和标准摘要之间的相似性。所以在句法语义方面存在问题,评测质量甚至比不上人工。

        因此,如何设计一个合适的评测方法,也是目前文本摘要任务的一个研究方向。

 

Seq2Seq面临挑战

        在生成式摘要中,Seq2Seq模型是一种常见的encoder-decoder结构,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。

        · 复杂的摘要场景,如长文档或多文档摘要(MDS),给 Seq2Seq 模型带来了巨大的挑战。

          MDS:利用计算机将同一主题下或者不同主题下的多篇文档描述的主要内容通过信息压缩技术提炼成一个文档的自然语言处理技术。

        · 因为Seq2Seq 模型在主要依赖于长序列的内容选择和组织方面存在困难。

         ——如何在复杂的文本输入中利用深层语义结构是进一步提升摘要性能的关键。

 

        · 与序列相比,图(Graph)可以将相关不相交的上下文统一表示为节点,并将它们的关系表示为边,来聚合相关的不相交上下文

        ——有利于全局结构学习&远程关系建模

 

本文主要内容

工作一:提出了联合语义图(Unified Semantic Graph

        为了更好的建模长距离关系和全局结构→→建议应用短语级联合语义图来促进内容选择和组织

        该图聚合了在上下文中分布的共指短语,以便更好地建模长文档摘要和 MDS 中的长距离关系和全局结构。

        · 适用于借助共指解析的信息聚合,这种解析极大地压缩了输入并有利于内容选择。

        · 短语之间的关系在组织显著内容方面起着重要作用

 工作二:提出了一种基于图的编码器-解码器模型

        基于联合语义图,作者进一步提出了一种基于图的编码器解码器模型。通过利用图结构来改进 Seq2Seq 架构的文档表示和摘要生成过程。

    Graph Encode:

        · 显式建模短语之间的关系以及基于语义图,捕获全局结构,从而有效地编码长序列

        · 此外,在图编码过程中还应用了几种图增强方法,挖掘潜在的语义关系

    Graph Decode:

        · 利用图传播注意力结合图结构来指导摘要生成过程。这可以帮助选择显著内容,并将它们组织成连贯的摘要。

工作三:实验

        实验结果表明,模型对长文档摘要和 MDS 的自动和人工评估优于几个强大的baseline,并验证了基于图形的模型的有效性。

 

二 研究方法

联合语义图——图定义

        联合语义图是定义为 G = (V, E) 的异构图。节点表示短语,边表示短语间的依赖解析关系。

        · V 中的每个节点都代表一个,从共同指称短语合并而来的概念。例如,在图中,节点“Albert Einstein”是从“Albert Einstein”和“he”“his”合并而来的,它们通过共指解析表示同一个人。

        根据短语类型, 节点可以分为三种类型: 名词短语(N)、动词短语(V)、其他短语(O)

        · 联合语义图中的元路径传达了各种语义关系。比如说,元路径 O-N 表示修饰关系,名词短语之间的元路径 N-N 表示同位关系或附加关系

          meta-path是连接两个实体的一条特定的路径

         此外,两跳元路径可以表示图中更复杂的语义关系。 例如,名词-动词-名词结构, [Albert Einstein]-[won]-[the Physics Nobel Prize] 表示 SVO(主语-动词-宾语)关系。 因此,对一些两跳元路径进行建模也至关重要。

 联合语义图——图

        简单来说,首先将tokens合并到短语中,然后将共同指代的短语合并到节点中,从而从句子中提取短语及其关系。

        具体上,首先利用CoreNLP 获取输入序列的共指链和每个句子的依存树。基于依存树,将形成完整语义单元的连续tokens合并为一个短语。然后,将来自不同位置的相同短语和相同共指链中的短语合并,形成语义图中的节点。

        (coreNLP是斯坦福大学开发的一套关于自然语言处理的工具,使用简单功能强大,有命名实体识别、词性标注、词语词干化、语句语法树构造还有指代关系等功能。)

 基于图的摘要生成模型——图编码器&图解码器

        下面是作者的基于图的生成式摘要模型,主要由图编码器和图解码器组成。

    编码阶段:

        · 采用一个文档或一组文档的串联,作为文本输入,通过文本编码器对其进行编码,获得一系列的本地token表示

        · 图编码器进一步将联合语义图作为图输入,并利用图中的显式语义关系获得全局图表示。而且还基于几种图增强方法,挖掘文本输入中的隐含语义关系。

    解码阶段:

        · 图解码器利用图结构通过图传播注意力来指导摘要生成,这有助于突出内容的选择和组织,生成更多信息和连贯的摘要。

 

 

基于图形的摘要生成模型

 

图节点表示是通过在两步合并中合并token表示来初始化的。图编码器对增强的图结构进行建模。解码器同时处理token和节点表示,并通过图传播注意利用图结构。

 

 

基于图的摘要生成模型——文本编码器

        按顺序表示局部特征à预训练的语言模型 RoBERTa

        RoBERTa改进自BERT

          BERTà多层Transformer结构的堆叠      BERT利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer decoder,其每一个token(符号)只会attend到目前往左的token。而双向的Transformer则被称为Transformer encoder,其每一个tokenattend到所有的token

 基于图的摘要生成模型——图编码器

        通过文本编码器获得token表示之后,进一步对图结构进行建模来获得节点表示。作者基于token表示和图构造中的token-to-node对齐信息来初始化图中的节点表示。

        初始化后:应用图编码层对显式语义关系特征进行建模,应用几种图增强方法来学习图传达的隐式内容。

    节点初始化

        两步合并:token合并和短语合并

        · token合并:将本地token特征压缩并生成为更高级别的短语表示。

        · 短语合并:在广泛的上下文中聚合共同指代的短语,捕获长距离和跨文档关系。

        这两个合并步骤是通过平均池化来实现的。

 

    图编码层



         个人理解,图编码层参考了Graph2Seq的节点嵌入表示部分。

     图增强

        作者为了挖掘隐式信息,采取了几种图增强方法

        首先,为了解决原始有向边不足以学习后向信息的问题,在图中添加反向边和自环边

        · Supernode

        作者为了加强图建模的鲁棒性并学习更好的全局表示,添加了一个特殊的超级节点,与图中的每个其他节点连接以增加连通性。

        · Shortcut Edges

        以前的工作表明,CNN在建模多hop关系方面还较弱。然而,长度为 2 的元路径表示丰富的语义结构,因此需要进一步建模节点之间的两跳关系。 所以作者在每个节点及其二阶邻居之间添加了快捷边。

基于图的摘要生成模型——图编码器

          token和节点表示有利于不同方面的摘要生成。token表示善于捕捉局部特征,而图形表示提供全局和生成特征。所以,为了利用这两种表示,作者应用一堆基于 Transformer 的图解码层作为解码器。它处理这两种表示并将它们融合,用来生成摘要。注意,解码器是同时处理token和节点表示的。

        令表示第 (l 1) 个图解码层的输出中的第 t 个摘要 token表示。

        对于图注意力,作者应用了multi-head attention,其中作为q,节点表示作为k v的:

 

 

        其中,是参数权重,表示节点 j 的显著分数。

        作者将全局图向量计算为节点值的加权和:。其中,是可学习的参数。

        另一边,计算token表示之间的multi-head attention,用和前面求全局图向量一样方法求上下文文本向量

        然后,使用一个前馈神经网络(图融合层)融合连接两个特征:

        其中,是线性变换参数,token和图的混合表示。

        在经过 layer-norm 层和前馈层之后,第 l 个图解码层的输出用作下一层的输入,也用于在最后一层生成第 t token

 基于图的摘要生成模型——图传播注意力

        作者发现前面的对图应用multi-head attention时,图解码器只线性地关注节点表示,忽略了图结构。

        因此作者提出利用图传播注意力,利用图结构来指导摘要生成过程。通过进一步利用语义结构,解码器可以更有效地选择和组织显著内容。

        图传播注意力包括两个步骤:显著分数预测和分数传播。

        第一步,线性预测每个节点的显著分数。

        应用公式(1)求出multi-head attention作为显著分数,其中 |v| 是图中节点的数量,C 是注意力头的数量。

        第二步,通过分数传播使显著分数结构化。

        因为在每个摘要解码步骤中,只有部分内容是显著的。 所以,对于每个节点只在图中传播其显著分数 p 次,最多聚合 p-hop 关系。令表示预测的初始显著分数,第 p 次传播后的显著分数为:

        其中,是图的度归一化的邻接矩阵,是显著分数的传播概率,ω是向邻居节点传播的概率,1 – ω是从初始值重新开始的概率 。把代入公式(2),图传播过程也可以表述为:

        在显著分数传播的 p 步之后,利用节点值的加权和计算图向量:

        然后融合的输出来生成第 t 个摘要token,如前所述。

 

三 实验

自动评价

        数据集:SDS 数据集BIGPATENT MDS 数据集WikiSUM

        评价指标:ROUGE-1ROUGE-2ROUGE-LBERTScore

        与所有基线相比,BASS 在所有四个指标上都取得了很大的改进。

 

 

 

        为了分析联合语义图如何有益于摘要学习,作者对图结构进行了消融研究。

        在通过完全连接所有节点,去除短语之间的显式关系后,R-1 指标较明显的下降了,这表明短语间的关系可以提高生成摘要的信息量。

进一步去除短语合并后,所有指标的性能都下降,这表明长距离关系有利于摘要的信息性。

        作者还通过消融研究验证了图编码器中的图增强方法和图解码器中的图传播注意力的有效性。然后,没有间隙传播注意力的实验结果说明,联合语义图的结构也有利于解码。总体而言,模型的性能在去除捷径边缘时下降最多,这表明丰富的潜在信息有利于总结最后,删除所有与图形相关的组件,所有指标的性能都会急剧下降。

 

 

 

 

    · 长度比较

        HT 的性能在输入长度大于 800 后保持稳定。

GraphSum 2400 处取得了最好的性能,当输入长度达到 3000 时其性能开始下降。BASS R-1 3000 处显著增加。

    · 生成性分析

        与GraphSumHT 相比,BASS 生成更多生成摘要,并且比 RoBERTaS2S 更弱。

        RoBERTaS2S 通常会生成与上下文无关的内容

人工评价

          由于专利数据集 BIGPATENT 包含大量术语并且需要注释者的专业背景知识,我们选择 WikiSUM 作为评估数据集。

        邀请 2 位注释者独立评估不同模型的摘要。注释者通过考虑以下标准对摘要进行排名来评估摘要的整体质量:

         (1)信息性:摘要是否传达了输入的重要和忠实事实?

         (2)流畅性:摘要是否流畅、语法、连贯?

         (3) 简洁性:摘要是否简洁,没有描述太多细节?

 

 

 

 

四 总结

        在本文中,作者建议利用联合语义图来提高用于长文档摘要和 MDS 的神经生成模型的性能。

进一步提出了一个基于图的编码器-解码器模型,利用图结构来改进文档表示和摘要生成过程。

        长文档摘要和 MDS 的实验表明,作者的模型优于几个强大的基线,这证明了基于图的模型的有效性以及统一语义图对长输入生成摘要的优越性。

        尽管基于神经网络的摘要系统已经取得了显著成就,但它们仍然不能真正理解语言和语义。所以,作者认为,将语言结构作为先验知识纳入深度神经网络,是帮助总结系统的一种直接有效的方法。

收获与感悟:

        首先,通过这篇文章,我对文本摘要任务有了进一步的认识,了解了他们的输入、输出、评价方法和被普遍关注的问题(比如,长序列文本摘要生成、语义语法分析、生成摘要的可读性等)

        第二,我初步了解了graph2seq等模型,学习了PageRankROUGE等概念。

        第三,我进一步认识到Graph在一些图结构问题上的优势和应用。

        第四,通过对本文的BASS模型的学习,对于EncodeDecode模块的改进方法也有了更多的认识。

 

        最后,对于本文的BASS模型,个人学习到了对联合语义图去冗余、长度大于 2 的元路径处理、图增强等方面的改进思想。

 

 



推荐阅读
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在《数字图像处理及应用(MATLAB)第4章》中,详细探讨了“逢七必过”游戏规则的实现方法,并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例,展示了如何利用MATLAB实现这一游戏规则,并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面,为读者提供了全面的技术支持和实践指导。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文回顾了作者初次接触Unicode编码时的经历,并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析,帮助读者更好地理解和使用这些编码。 ... [详细]
  • [转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]
  • Android开发技巧:使用IconFont减少应用体积
    本文介绍如何在Android应用中使用IconFont来显示图标,从而有效减少应用的体积。 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 在《Linux高性能服务器编程》一书中,第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分,它不仅包含了源端口和目的端口的信息,还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用,为读者提供了深入理解TCP协议的基础。 ... [详细]
  • 提升视觉效果:Unity3D中的HDR与Bloom技术(高动态范围成像与光线散射)
    提升视觉效果:Unity3D中的HDR与Bloom技术(高动态范围成像与光线散射) ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 深入解析C语言中的动态规划算法:以背包问题为例
    本文深入探讨了C语言中动态规划算法的应用,以经典的背包问题为例进行详细解析。通过实例分析,展示了如何利用动态规划解决复杂优化问题,并提供了高效的代码实现方法。文章不仅涵盖了算法的基本原理,还讨论了其在实际编程中的应用技巧和优化策略,为读者提供了全面的理解和实践指导。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 本文详细介绍了在 Vue.js 前端框架中集成 vue-i18n 插件以实现多语言支持的方法。通过具体的配置步骤和示例代码,帮助开发者快速掌握如何在项目中实现国际化功能,提升用户体验。同时,文章还探讨了常见的多语言切换问题及解决方案,为开发人员提供了实用的参考。 ... [详细]
author-avatar
huangzhu321
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有