作者:州徐国中 | 来源:互联网 | 2023-08-01 14:06
编者:杨柳依依
日期:2018年9月16日
今天给大家介绍一篇来自2018年ACL会议上的论文,讲的是如何利用图像检索的特征表达词嵌入特征。
1.背景知识
在介绍论文之前,我们先简单了解下本文的思路和做法。
作者引入了Picturebook,通过图像检索得到的物理世界的词汇的查找表。对于词库中的每一个词,作者在谷歌搜索引擎中检索得到前k张的图像,并将图像输入到卷积网络中提取词嵌入向量。作者加入了多模型的门函数去融合Picturebook嵌入和其他的词表征。同时引入了逆Picturebook,一种机制将Picturebook嵌入向量映射到词。并且作者将这种嵌入方法在多个任务中实验,比如词相似度、自然语言接口、语义相关度、情感、主题分类、图像/文本排序和机器翻译中。
1.1视觉与词汇的组合
近几年中,大量的研究在整合视觉与语言来得到视觉为基础的词及句子的表达。在这些研究中,现在使用的有图像搜索引擎的方法。搜索引擎允许得到语言和图像上的关联,而不需要受限于现存的词汇有限的大规模数据集的影响。搜索引擎帮助我们得到我们的客观世界的词汇覆盖度高的形式。
这些表征应用的场景比如将词汇映射到向量的查找表。学习分布式词表示的主流方法是写入矩阵中。查找表主要是学习物体的共现的关系或者任务约束的激励信号。得到词向量的另一种的方法是通过图像检索整合得到特征。这种方法包括检索出前k张图像,训练卷积网络提取再组合特征。
1.2作者的贡献点
a.通过图像检索得到Glove词库中出现的2.2百万的单词的Picturebook嵌入,使得每个单词既有Glove嵌入又有对应的图像嵌入。
b.引入了多模型门机制去在glove和PictureBook上自动选择。
c.引入了逆Picturebook,实现了逆向的查找表的使用。
d.在门机制上做了大量的研究,结果表明门机制是与人类对实体的认知相关的,同时Picturebook与图像的散度相关度不高。表明嵌入向量的选择取决于抽象的层级。
e.卷积网络对提取嵌入作用很大。
2.Picturebook嵌入
现在重点介绍下Picturebook的思想。
2.1 picturebook的推导
卷积网络可用来获取Picturebook的嵌入。比如是搜索,正例,反例图片的三元组。作者定义下面的hingeloss
f(pi)是图像pi的嵌入,D(.,.)是欧式距离,g是边界的超参数。假设我们有关系对,表明图像pi和pj的相似度。
优化函数如下:
是松弛变量,W是网络模型参数向量。模型是根据100+百万的数据集端到端训练的。wang et al.(2014)有具体的训练细节,包括网络的特殊设计。
模型训练之后,作者使用卷积网络作为图像的特征提取器。假设我们想得到单词w的PitureBook的嵌入。作者首先用queryw去检索图像,得到排好序的图像。PictureBook的嵌入可表示为:
以检索顺序排列的特征的级联。在模型中,每个嵌入得到64维的向量,最终Picturebook得到64*k维。实验中k=10.得到的词嵌入为640维。
2.2视觉与语义相似度
训练过程是受相似度影响的。我们考虑两种图像的相似度:视觉的与语义的。比如蓝色的车可能在视觉上与更多别的蓝色的车相似度高,与语义上的其他的车相比。在实验中考虑两种相似度。实验表明,语义的相似度比视觉的要好。
2.3 多模型门机制融合
在表示实物的单词的词嵌入时,Picturebook效果好但是对于抽象词效果的不太明确。所以将Picturebook和其他来源信息的嵌入融合。比如glove嵌入或随机初始化的嵌入eg。融合多模型嵌入如下:
门机制允许模型视觉嵌入的比例。
2.4 上下文门机制
上面提到的门机制是无上下文信息的,在一些情况下,使用单词出现的上下文信息可以决定PictureBook和Glove的权重。
将替代成
2.5 逆Picturebook
给定Picturebook,如何找到表达中最近的词或句子呢。比如。给定英语中的bicycle和picturebook,想要找到产生该表达的法语词。
作者介绍了一种不同机制可以将词在不同的源语言和目标语言中映射。比如h是模型的内在表达,ei是第i个Picturebook中嵌入矩阵Ep中的词:
给定表达h,公式6简单发现了在嵌入空间中的相似词,增加参数便于学习:
e‘和bi度是训练的词向量和偏置。
3.实验结果
语义相似度的结果:
机器翻译: