热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

语言理解:图像检索的大规模视觉编码

编者:杨柳依依日期:2018年9月16日今天给大家介绍一篇来自2018年ACL会议上的论文,讲的是如何利用图像检索的特征表达词嵌入特征

编者:杨柳依依

日期:2018年9月16日

今天给大家介绍一篇来自2018年ACL会议上的论文,讲的是如何利用图像检索的特征表达词嵌入特征。


1.背景知识

在介绍论文之前,我们先简单了解下本文的思路和做法。

作者引入了Picturebook,通过图像检索得到的物理世界的词汇的查找表。对于词库中的每一个词,作者在谷歌搜索引擎中检索得到前k张的图像,并将图像输入到卷积网络中提取词嵌入向量。作者加入了多模型的门函数去融合Picturebook嵌入和其他的词表征。同时引入了逆Picturebook,一种机制将Picturebook嵌入向量映射到词。并且作者将这种嵌入方法在多个任务中实验,比如词相似度、自然语言接口、语义相关度、情感、主题分类、图像/文本排序和机器翻译中。


1.1视觉与词汇的组合

近几年中,大量的研究在整合视觉与语言来得到视觉为基础的词及句子的表达。在这些研究中,现在使用的有图像搜索引擎的方法。搜索引擎允许得到语言和图像上的关联,而不需要受限于现存的词汇有限的大规模数据集的影响。搜索引擎帮助我们得到我们的客观世界的词汇覆盖度高的形式。

这些表征应用的场景比如将词汇映射到向量的查找表。学习分布式词表示的主流方法是写入矩阵中。查找表主要是学习物体的共现的关系或者任务约束的激励信号。得到词向量的另一种的方法是通过图像检索整合得到特征。这种方法包括检索出前k张图像,训练卷积网络提取再组合特征。


1.2作者的贡献点

a.通过图像检索得到Glove词库中出现的2.2百万的单词的Picturebook嵌入,使得每个单词既有Glove嵌入又有对应的图像嵌入。

b.引入了多模型门机制去在glove和PictureBook上自动选择。

c.引入了逆Picturebook,实现了逆向的查找表的使用。

d.在门机制上做了大量的研究,结果表明门机制是与人类对实体的认知相关的,同时Picturebook与图像的散度相关度不高。表明嵌入向量的选择取决于抽象的层级。

e.卷积网络对提取嵌入作用很大。


2.Picturebook嵌入

现在重点介绍下Picturebook的思想。


2.1 picturebook的推导

卷积网络可用来获取Picturebook的嵌入。比如是搜索,正例,反例图片的三元组。作者定义下面的hingeloss

f(pi)是图像pi的嵌入,D(.,.)是欧式距离,g是边界的超参数。假设我们有关系对,表明图像pi和pj的相似度。

优化函数如下:

是松弛变量,W是网络模型参数向量。模型是根据100+百万的数据集端到端训练的。wang et al.(2014)有具体的训练细节,包括网络的特殊设计。

模型训练之后,作者使用卷积网络作为图像的特征提取器。假设我们想得到单词w的PitureBook的嵌入。作者首先用queryw去检索图像,得到排好序的图像。PictureBook的嵌入可表示为:

以检索顺序排列的特征的级联。在模型中,每个嵌入得到64维的向量,最终Picturebook得到64*k维。实验中k=10.得到的词嵌入为640维。


2.2视觉与语义相似度

训练过程是受相似度影响的。我们考虑两种图像的相似度:视觉的与语义的。比如蓝色的车可能在视觉上与更多别的蓝色的车相似度高,与语义上的其他的车相比。在实验中考虑两种相似度。实验表明,语义的相似度比视觉的要好。


2.3 多模型门机制融合

在表示实物的单词的词嵌入时,Picturebook效果好但是对于抽象词效果的不太明确。所以将Picturebook和其他来源信息的嵌入融合。比如glove嵌入或随机初始化的嵌入eg。融合多模型嵌入如下:

门机制允许模型视觉嵌入的比例。


2.4 上下文门机制

上面提到的门机制是无上下文信息的,在一些情况下,使用单词出现的上下文信息可以决定PictureBook和Glove的权重。

替代成


2.5 逆Picturebook

给定Picturebook,如何找到表达中最近的词或句子呢。比如。给定英语中的bicycle和picturebook,想要找到产生该表达的法语词。

作者介绍了一种不同机制可以将词在不同的源语言和目标语言中映射。比如h是模型的内在表达,ei是第i个Picturebook中嵌入矩阵Ep中的词:

给定表达h,公式6简单发现了在嵌入空间中的相似词,增加参数便于学习:

e‘和bi度是训练的词向量和偏置。


3.实验结果

语义相似度的结果:

机器翻译:

 


推荐阅读
  • 本文探讨了2012年4月期间,淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型,以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 网络运维工程师负责确保企业IT基础设施的稳定运行,保障业务连续性和数据安全。他们需要具备多种技能,包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 百度服务再次遭遇技术问题,疑似DNS解析故障
    近日晚间,百度多项在线服务出现加载异常,包括移动端搜索在内的多个功能受到影响。初步迹象表明,问题可能与DNS服务器解析有关。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • 本文详细探讨了网站流量统计中常用的三个关键指标:页面浏览量(PV)、独立访客数(UV)和独立IP数(IP)。通过分析这些指标的定义、计算方法及其应用场景,帮助网站运营者更好地理解用户行为,优化网站内容与用户体验。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • 本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ... [详细]
  • ZooKeeper集群脑裂问题及其解决方案
    本文深入探讨了ZooKeeper集群中可能出现的脑裂问题,分析其成因,并提供了多种有效的解决方案,确保集群在高可用性环境下的稳定运行。 ... [详细]
author-avatar
州徐国中
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有