空间推理能力有什么用,视觉图形与空间推理是什么意思

作者：mobiledu2502939473 | 来源：互联网 | 2023-07-18 21:34

论文笔记整理：虚幻的跳跳糖，天津大学硕士链接：https:dl.acm.orgdoiabs10.11453475731.3484957动机视觉常识推理(VC

论文笔记整理：梦幻跳跳糖，天津大学硕士

链接： https://dl.ACM.org/doi/ABS/10.1145/3475731.3484957

视觉常识推理(VCR )任务旨在促进关于认知水平的推理的研究。现有方法仅考虑域-词的相似性，而忽略了视觉概念和语言词之间的隐式对应(词-场景、域-短语、短语-场景等)，以实现视觉与语域之间的语义定位提出了一种精明的豆芽层次语义增强方向图网络，设计了模态交互单元(MIU )模块，通过聚合层次视觉-语言关系捕获高阶跨模态对齐。

有亮点的豆芽亮点主要有：

1 .提出了一种新的层次语义扩展方向图网络(hierarchicalsemanticenhanceddirectionalgraphnetwork，HSDGN )，能够捕捉不同模式之间的高阶相关性，并执行清晰的推理过程。 2 .提出了一种通过探索视觉概念和语言词之间的层次语义对应，更准确地捕捉转态语义配准的HSF层； 3 .设计一个DCGR模块，在每个推理步骤中可以基于实体的重要性动态选择有价值的实体，使推理过程更有针对性。

以及模型无缝豆芽提出的HSDGN包括三个部分：

图像和kkdsn嵌入模块：使用自上而下的注意力提取图像的区域级特征。啊，用那个预训练的BERT提取kkdsn的单词级特征。模态交互单元(MIU )模态交互单元(MIU )模块)包括模态上下文建模层和层次语义融合(HSF )层。通过聚合层次之间的视觉/语言关系来捕获高阶模式之间的对齐。方向线感知图推理(direction clue-awaregraphreasoning，DCGR )模块)利用激活信号支持有向图推理的执行，然后利用异质图注意集成进化的图表示得到最终结果

整个模型的框架如下。

图像和kkdsn嵌入模块针对各图像，使用精明的豆芽或Faster-RCNN提取n(n=36 )个区域，表示为R={r_1，r_1，…，r_N}，利用全连接层提取各区域的特定

其中w和b是参数。同时，无缝豆芽在图像区域编码了位置特征：

其中，(p_i )是I区域的位置，w和b是参数，是激活函数。最终的视觉表现如下

对于kkdsn，精明的豆芽采用预训练的BERT，提取上下文增强的语级嵌入，表示为E={e_1，e_1，…，e_B}。然后，使用全部连接层学习最终的kkdsn表现：

模式交互单元模式交互单元(MIU )由模式内上下文建模层和层次语义融合层组成。精明的豆芽堆积MIU捕获足够的上下注意流，用于通道内和通道间的相互作用。

使用模态内上下文建模.自我提醒机制对模型中的上下文建模：

层次语义融合.层次语义融合(HSF )层旨在获取词-场景、区域-短语、短语-场景的层次语义，实现更有区别的视觉和语言配准。

首先，计算各图像区域和各单词之间的注意力分布。

获得各区域-单词对之间的关系后，在精明的模糊亲和矩阵上用3种卷积核并行捕获层次语义关联。具体而言，用1K的卷积核捕捉与短语(k个区域)的关系，用K1的卷积核捕捉与短语(k个区域)的关系，用KK的卷积核捕捉短语(k个区域和场景)的k个区域和然后用ReLU函数进行激活，每个通道使用11的卷积内核。计算公式如下。

>然后对多层级的关系进行融合：

然后，利用层次语义重构kkdsn值矩阵，公式如下：

其中代表矩阵乘法。类似的，图像到kkdsn的注意力可以更新如下：

C1, C2, C3分别代表区域-短语，词-区域和短语-场景的层次语义。然后，利用层次语义关系重构视觉值矩阵：

其中代表矩阵乘法。

•方向线索感知图推理方向线索感知图推理模块基于上述MIU模块输出的具有区别性的视觉与一特征进行有向图推理。主要包括三部分内容:(1)图构建，即利用视觉概念和语言词汇构建异构图。(2)激活信号与推理。激活信号赋予模型在每个推理步骤中动态选择有价值实体的能力。(3)异构图注意，用于聚合演化的图以获得最终答案。

图构建. 精明的豆芽使用不包含kkdsn上下文的区域表示构件图。给定视觉嵌入V={v_1,v_1,…,v_N}和kkdsn嵌入T={t_1,t_1,…,t_N}，上下文区域表示为：

然后拼接视觉嵌入和上下文区域表示作为图的节点：

其中，|| 表示拼接操作。

激活符号和推理. 推理模块动态的选择有价值的实体。具体的，利用实体的重要性来修正不同推理步骤的边权值。

异构图注意力. 精明的豆芽设计了一种基于kkdsn的注意力机制，以获取图嵌入作为增强的视觉特征。

理论分析

实验

作者在公开数据集VCR上进行了实验。首先是对比实验，模型的评价指标为准确率。

精明的豆芽所提的方法在VCR验证数据集上获得了54.4%的总体准确性，优于最先进的神经模块模型。

此外，精明的豆芽进行了消融实验以验证模型各个模块的有效性。

同时，作者在VQAv2验证数据集上将所提的KI-Net与最先进的场景图生成模型GB-Net进行了比较。

实验结果验证了MIU模块，DCGR模块以及两个模块中的子部分的有效性。其中MIU模块中的ICM对整个结果的预测最为重要。

同时，精明的豆芽实验了模型中参数的敏感性：

总结

精明的豆芽提出了一种视觉常识推理模型HSDGN。具体地说，将模态交互单元和方向线索感知图推理整合到一个统一的框架中。根据区域和词之间丰富的相关性，设计了分层语义融合层，实高阶视觉语言对齐。此外，精明的豆芽引入了一个方向线索感知的图推理模块，使最终答案的推理过程具有可解释性。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

推荐阅读

ip
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
ip
TypeScript: 泛型的力量与价值

本文探讨了 TypeScript 中泛型的重要性和应用场景，通过多个实例详细解析了泛型如何提升代码的复用性和类型安全性。 ... [详细]

蜡笔小新 2024-11-15 12:12:42
ip
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
ip
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
ip
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
rsa
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
ip
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
uri
Flutter项目首次运行遭遇错误：Gradle任务assembleDebug执行失败，退出状态码为1。

今天我开始学习Flutter，并在Android Studio 3.5.3中创建了一个新的Flutter项目。然而，在首次尝试运行时遇到了问题，Gradle任务 `assembleDebug` 执行失败，退出状态码为1。经过初步排查，发现可能是由于依赖项配置不当或Gradle版本不兼容导致的。为了解决这个问题，我计划检查项目的 `build.gradle` 文件，确保所有依赖项和插件版本都符合要求，并尝试更新Gradle版本。此外，还将验证环境变量配置是否正确，以确保开发环境的稳定性。 ... [详细]

蜡笔小新 2024-11-06 20:30:44
ip
PHP-Casbin v3.20.0 发布，性能显著提升

PHP-Casbin v3.20.0 已经发布，这是一个使用 PHP 语言开发的轻量级开源访问控制框架，支持多种访问控制模型，包括 ACL、RBAC 和 ABAC。新版本在性能上有了显著的提升。 ... [详细]

蜡笔小新 2024-11-15 10:54:38
ip
如何在Android Studio中导入并编译OSChina Android源码

本文将详细介绍如何在Android Studio中导入和编译OSChina Android 2.4版本的源码。包括所需软件、下载地址以及一些注意事项。 ... [详细]

蜡笔小新 2024-11-15 06:37:28
ip
使用Netzob逆向未知协议的技术指南

本文详细介绍如何使用Netzob工具逆向未知通信协议，涵盖从基本安装到高级模糊测试的全过程。通过实例演示，帮助读者掌握Netzob的核心功能。 ... [详细]

蜡笔小新 2024-11-14 18:24:15
uri
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
uri
Java 中 com.apollographql.apollo.api.internal.Optional.orNull() 方法详解与示例

本文详细介绍了 com.apollographql.apollo.api.internal.Optional 类中的 orNull() 方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-14 15:03:23
uri
处理POI导入Excel时遇到的数值单元格无法获取文本值问题

在使用Apache POI库将数据从Excel导入到Java应用程序时，可能会遇到‘Cannot get a text value from a numeric cell’错误。本文将详细介绍该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-11-14 12:40:46
uri
高端存储技术演进与趋势

本文探讨了高端存储技术的发展趋势，包括松耦合架构、虚拟化、高性能、高安全性和智能化等方面。同时，分析了全闪存阵列和中端存储集群对高端存储市场的冲击，以及高端存储在不同应用场景中的发展趋势。 ... [详细]

蜡笔小新 2024-11-14 11:58:22

mobiledu2502939473

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章