图像理解DetectingandRecognizingHumanObjectInteractions

作者：sunqingfen5863 | 来源：互联网 | 2023-09-08 17:46

DetectingandRecognizingHuman-ObjectInteractionshttps:arxiv.orgabs1704.07333大牛们已经从图像的检测分割向

Detecting and Recognizing Human-Object Interactions
https://arxiv.org/abs/1704.07333

大牛们已经从图像的检测分割向图像理解的研究方向过渡了&＃xff01;

本文主要关注图像中的人和物体的关系检测和识别&＃xff0c;这种关系可以用一个三元素《human, verb, object》来描述&＃xff0c;这里我们提出一个 human-centric model 来检测人和物的关系。

这里写图片描述
这里我们主要根据 person’s appearance 来给出action 类别概率及关联物体的位置。

在我们提出的方法 InteractNet 中&＃xff0c;使用了 Faster R-CNN 检测框架&＃xff0c;对于含有人的一个候选区域 RoI&＃xff0c; human-centric recognition 分支进行 action classification 和 action 关联的物体位置的 density estimation。密度估计器给出一个4维的高斯分布&＃xff0c;对于每个 action type&＃xff0c;主要对人和物体的相对位置进行建模。这种预测纯粹基于 person appearance

这里写图片描述
上图是我们模型的检测效果图示例图

模型框架如下图所示&＃xff1a;
这里写图片描述

3.1. Model Components
Object Detection
这个分支和 Faster R-CNN 完全一样&＃xff0c;使用 Region Proposal Network (RPN) 提取候选区域&＃xff0c;然后进行分类和矩形框坐标回归&＃xff0c;得到人和物体的类别及位置矩形框和对应的概率&＃xff0c;在 inference 是只是用检测出人和物体的候选区域&＃xff0c;在训练时使用RPN提取的所有候选区域

Action Classification
human-centric 分支的第一个任务就是对每一个human box b_h 和 action a 赋予一个 action classification score&＃xff0c;因为人可以同时进行多种动作&＃xff0c;所有我们这里进行多类别东西分类。

Target Localization
human-centric 分支的第二个任务就是基于人的 appearance 预测相关联物体的位置&＃xff0c;直接预测位置难度较大&＃xff0c;这里我们给出物体位置的密度概率。

这里我们将这个密度使用基于human appearance 和正在进行的动作的高斯函数来建模
We model the density over the target object’s location as a Gaussian function whose mean is predicted based on the human appearance and action being performed.

这里写图片描述

Interaction Recognition 为了提高模型的表达能力&＃xff0c;我们这里进一步利用了 the appearance of the target object&＃xff0c;得到一个新的分支 interaction branch

3.2. Multi-task Training
我们将人-物关系的学习看做一个多任务学习问题&＃xff0c;所有三个分支是共同训练的。
损失函数定义&＃xff1a;
Our overall loss is the sum of all losses in our model including: (1) the classification and regression loss for the object detection branch, (2) the action classification and target localization loss for the human-centric branch, and (3) the action classification loss of the interaction branch.

3.3. Cascaded Inference
在Inference 阶段&＃xff0c;我们使用了 Cascaded 来降低时间复杂度&＃xff0c;关键是只对人的矩形框进行相关处理&＃xff01;
实现 ∼ 135ms on a typical image running on a single Nvidia M40 GPU

这里写图片描述

我们方法检测失败的例子&＃xff1a;
这里写图片描述

推荐阅读

string
hdu 5439（找规律）的数列求和问题

本文讨论了一个数列求和问题，该数列按照一定规律生成。通过观察数列的规律，我们可以得出求解该问题的算法。具体算法为计算前n项i*f[i]的和，其中f[i]表示数列中有i个数字。根据参考的思路，我们可以将算法的时间复杂度控制在O(n)，即计算到5e5即可满足1e9的要求。 ... [详细]

蜡笔小新 2023-12-12 14:05:58
split
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
function
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
function
Codeforces 1294A题解：Collecting Coins整除+不整除问题解析

本文为Codeforces 1294A题目的解析，主要讨论了Collecting Coins整除+不整除问题。文章详细介绍了题目的背景和要求，并给出了解题思路和代码实现。同时提供了在线测评地址和相关参考链接。 ... [详细]

蜡笔小新 2023-12-14 21:14:58
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
get
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
get
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
function
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
get
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
bit
P1651 塔 (动态规划) 的最大高度计算方法

本文介绍了P1651题目的描述和要求，以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术，将问题转化为求解差值的问题，并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]

蜡笔小新 2023-12-13 19:52:19
get
编写可保护的代码的重要性及优化方法

本文讨论了编写可保护的代码的重要性，包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法，如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道，如不规范的命名、重复代码、过长的函数和参数列表等。最后，介绍了如何处理数据泥团和进行函数重构，以提高代码质量和可维护性。 ... [详细]

蜡笔小新 2023-12-11 18:32:44
jsp
Java集合库的使用方法及下溯造型的应用

本文介绍了Java集合库的使用方法，包括如何方便地重复使用集合以及下溯造型的应用。通过使用集合库，可以方便地取用各种集合，并将其插入到自己的程序中。为了使集合能够重复使用，Java提供了一种通用类型，即Object类型。通过添加指向集合的对象句柄，可以实现对集合的重复使用。然而，由于集合只能容纳Object类型，当向集合中添加对象句柄时，会丢失其身份或标识信息。为了恢复其本来面貌，可以使用下溯造型。本文还介绍了Java 1.2集合库的特点和优势。 ... [详细]

蜡笔小新 2023-12-10 17:57:40
string
拆点+KM，建图思路看的题解，求解最小权匹配问题

本文介绍了一种求解最小权匹配问题的方法，使用了拆点和KM算法。通过将机器拆成多个点，表示加工的顺序，然后使用KM算法求解最小权匹配，得到最优解。文章给出了具体的代码实现，并提供了一篇题解作为参考。 ... [详细]

蜡笔小新 2023-12-09 09:24:15
string
如何使用MATLAB调用摄像头进行人脸检测和识别

本文介绍了如何使用MATLAB调用摄像头进行人脸检测和识别。首先需要安装扩展工具，并下载安装OS Generic Video Interface。然后使用MATLAB的机器视觉工具箱中的VJ算法进行人脸检测，可以直接调用CascadeObjectDetector函数进行检测。同时还介绍了如何调用摄像头进行人脸识别，并对每一帧图像进行识别。最后，给出了一些相关的参考资料和实例。 ... [详细]

蜡笔小新 2023-12-09 08:56:44
get
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08

sunqingfen5863

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章