作者:mobiledu2502939473 | 来源:互联网 | 2023-07-18 21:34
论文笔记整理:梦幻跳跳糖,天津大学硕士
链接: https://dl.ACM.org/doi/ABS/10.1145/3475731.3484957
视觉常识推理(VCR )任务旨在促进关于认知水平的推理的研究。 现有方法仅考虑域-词的相似性,而忽略了视觉概念和语言词之间的隐式对应(词-场景、域-短语、短语-场景等),以实现视觉与语域之间的语义定位提出了一种精明的豆芽层次语义增强方向图网络,设计了模态交互单元(MIU )模块,通过聚合层次视觉-语言关系捕获高阶跨模态对齐。
有亮点的豆芽亮点主要有:
1 .提出了一种新的层次语义扩展方向图网络(hierarchicalsemanticenhanceddirectionalgraphnetwork,HSDGN ),能够捕捉不同模式之间的高阶相关性,并执行清晰的推理过程。 2 .提出了一种通过探索视觉概念和语言词之间的层次语义对应,更准确地捕捉转态语义配准的HSF层; 3 .设计一个DCGR模块,在每个推理步骤中可以基于实体的重要性动态选择有价值的实体,使推理过程更有针对性。
以及模型无缝豆芽提出的HSDGN包括三个部分:
图像和kkdsn嵌入模块:使用自上而下的注意力提取图像的区域级特征。 啊,用那个预训练的BERT提取kkdsn的单词级特征。 模态交互单元(MIU )模态交互单元(MIU )模块)包括模态上下文建模层和层次语义融合(HSF )层。 通过聚合层次之间的视觉/语言关系来捕获高阶模式之间的对齐。 方向线感知图推理(direction clue-awaregraphreasoning,DCGR )模块)利用激活信号支持有向图推理的执行,然后利用异质图注意集成进化的图表示得到最终结果
整个模型的框架如下。
图像和kkdsn嵌入模块针对各图像,使用精明的豆芽或Faster-RCNN提取n(n=36 )个区域,表示为R={r_1,r_1,…,r_N},利用全连接层提取各区域的特定
其中w和b是参数。 同时,无缝豆芽在图像区域编码了位置特征:
其中,(p_i )是I区域的位置,w和b是参数,是激活函数。 最终的视觉表现如下
对于kkdsn,精明的豆芽采用预训练的BERT,提取上下文增强的语级嵌入,表示为E={e_1,e_1,…,e_B}。 然后,使用全部连接层学习最终的kkdsn表现:
模式交互单元模式交互单元(MIU )由模式内上下文建模层和层次语义融合层组成。 精明的豆芽堆积MIU捕获足够的上下注意流,用于通道内和通道间的相互作用。
使用模态内上下文建模.自我提醒机制对模型中的上下文建模:
层次语义融合.层次语义融合(HSF )层旨在获取词-场景、区域-短语、短语-场景的层次语义,实现更有区别的视觉和语言配准。
首先,计算各图像区域和各单词之间的注意力分布。
获得各区域-单词对之间的关系后,在精明的模糊亲和矩阵上用3种卷积核并行捕获层次语义关联。 具体而言,用1K的卷积核捕捉与短语(k个区域)的关系,用K1的卷积核捕捉与短语(k个区域)的关系,用KK的卷积核捕捉短语(k个区域和场景)的k个区域和然后用ReLU函数进行激活,每个通道使用11的卷积内核。 计算公式如下。
>然后对多层级的关系进行融合:
然后,利用层次语义重构kkdsn值矩阵,公式如下:
其中 代表矩阵乘法。类似的,图像到kkdsn的注意力可以更新如下:
C1, C2, C3分别代表区域-短语,词-区域和短语-场景的层次语义。然后,利用层次语义关系重构视觉值矩阵:
其中 代表矩阵乘法。
•方向线索感知图推理 方向线索感知图推理模块基于上述MIU模块输出的具有区别性的视觉与一特征进行有向图推理。主要包括三部分内容:(1)图构建,即利用视觉概念和语言词汇构建异构图。(2)激活信号与推理。激活信号赋予模型在每个推理步骤中动态选择有价值实体的能力。(3)异构图注意,用于聚合演化的图以获得最终答案。
图构建. 精明的豆芽使用不包含kkdsn上下文的区域表示构件图。给定视觉嵌入V={v_1,v_1,…,v_N}和kkdsn嵌入T={t_1,t_1,…,t_N},上下文区域表示为:
然后拼接视觉嵌入和上下文区域表示作为图的节点:
其中,|| 表示拼接操作。
激活符号和推理. 推理模块动态的选择有价值的实体。具体的,利用实体的重要性来修正不同推理步骤的边权值。
异构图注意力. 精明的豆芽设计了一种基于kkdsn的注意力机制,以获取图嵌入作为增强的视觉特征。
理论分析
实验
作者在公开数据集VCR上进行了实验。首先是对比实验,模型的评价指标为准确率。
精明的豆芽所提的方法在VCR验证数据集上获得了54.4%的总体准确性,优于最先进的神经模块模型。
此外,精明的豆芽进行了消融实验以验证模型各个模块的有效性。
同时,作者在VQAv2验证数据集上将所提的KI-Net与最先进的场景图生成模型GB-Net进行了比较。
实验结果验证了MIU模块,DCGR模块以及两个模块中的子部分的有效性。其中MIU模块中的ICM对整个结果的预测最为重要。
同时,精明的豆芽实验了模型中参数的敏感性:
总结
精明的豆芽提出了一种视觉常识推理模型HSDGN。具体地说,将模态交互单元和方向线索感知图推理整合到一个统一的框架中。根据区域和词之间丰富的相关性,设计了分层语义融合层,实高阶视觉语言对齐。此外,精明的豆芽引入了一个方向线索感知的图推理模块,使最终答案的推理过程具有可解释性。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。