详解边框回归(BoundingBoxRegression)

作者：亚璨的秘密 | 来源：互联网 | 2023-10-11 13:24

原文链接：https:blog.csdn.netzijin0802034articledetails77685438Bounding-Boxregression最近一

原文链接&＃xff1a;https://blog.csdn.net/zijin0802034/article/details/77685438/

Bounding-Box regression

最近一直看检测有关的Paper, 从rcnn&＃xff0c; fast rcnn, faster rcnn, yolo, r-fcn, ssd&＃xff0c;到今年cvpr最新的yolo9000。这些paper中损失函数都包含了边框回归&＃xff0c;除了rcnn详细介绍了&＃xff0c;其他的paper都是一笔带过&＃xff0c;或者直接引用rcnn就把损失函数写出来了。前三条网上解释比较多&＃xff0c;后面的两条我看了很多paper&＃xff0c;才得出这些结论。

为什么要边框回归&＃xff1f;
什么是边框回归&＃xff1f;
边框回归怎么做的&＃xff1f;
边框回归为什么宽高&＃xff0c;坐标会设计这种形式&＃xff1f;
为什么边框回归只能微调&＃xff0c;在离Ground Truth近的时候才能生效&＃xff1f;

为什么要边框回归&＃xff1f;

这里引用王斌师兄的理解&＃xff0c;如下图所示&＃xff1a;

对于上图&＃xff0c;绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机&＃xff0c;但是由于红色的框定位不准(IoU<0.5)&＃xff0c; 那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调&＃xff0c; 使得经过微调后的窗口跟Ground Truth 更接近&＃xff0c; 这样岂不是定位会更准确。确实&＃xff0c;Bounding-box regression 就是用来微调这个窗口的。

边框回归是什么&＃xff1f;

继续借用师兄的理解&＃xff1a;对于窗口一般使用四维向量(x,y,w,h)。

边框回归的目的既是&＃xff1a;给定(Px,Py,Pw,Ph)

边框回归怎么做的&＃xff1f;

那么经过何种变换才能从图 2 中的窗口 P 变为窗口G^呢&＃xff1f; 比较简单的思路就是: 平移&＃43;尺度放缩

先做平移(Δx,Δy)

观察(1)-(4)我们发现&＃xff0c; 边框回归学习就是dx(P),dy(P),dw(P),dh(P)这四个变换。下一步就是设计算法那得到这四个映射。

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX 。那么 Bounding-box 中我们的输入以及输出分别是什么呢&＃xff1f;

Input:

RegionProposal→P&＃61;(Px,Py,Pw,Ph))

Output:

需要进行的平移变换和尺度缩放 dx(P),dy(P),dw(P),dh(P)

那么目标函数可以表示为 d∗(P)&＃61;wT∗Φ5(P)差距最小&＃xff0c; 得到损失函数为&＃xff1a;

L o s s &＃61; \sum i N (t i * - w^T * ϕ 5 (P i)) 2

函数优化目标为&＃xff1a;

W * &＃61; a r g m i n w * \sum i N (t i * - w^T * ϕ 5 (P i)) 2 &＃43; λ | | w^* | | 2

利用梯度下降法或者最小二乘法就可以得到 w∗。

为什么宽高尺度会设计这种形式&＃xff1f;

这边我重点解释一下为什么设计的tx,ty会有log形式&＃xff01;&＃xff01;&＃xff01;

首先CNN具有尺度不变性&＃xff0c; 以图3为例&＃xff1a;

x,y 坐标除以宽高

上图的两个人具有不同的尺度&＃xff0c;因为他都是人&＃xff0c;我们得到的特征相同。假设我们得到的特征为ϕ1,ϕ2。也就是说同一个x对应多个y&＃xff0c;这明显不满足函数的定义。边框回归学习的是回归函数&＃xff0c;然而你的目标却不满足函数定义&＃xff0c;当然学习不到什么。

宽高坐标Log形式

我们想要得到一个放缩的尺度&＃xff0c;也就是说这里限制尺度必须大于0。我们学习的tw,th怎么保证满足大于0呢&＃xff1f;直观的想法就是EXP函数&＃xff0c;如公式(3), (4)所示&＃xff0c;那么反过来推导就是Log函数的来源了。

为什么IoU较大&＃xff0c;认为是线性变换&＃xff1f;

当输入的 Proposal 与 Ground Truth 相差较小时(RCNN 设置的是 IoU>0.6)&＃xff0c; 可以认为这种变换是一种线性变换&＃xff0c; 那么我们就可以用线性回归来建模对窗口进行微调&＃xff0c; 否则会导致训练的回归模型不 work&＃xff08;当 Proposal跟 GT 离得较远&＃xff0c;就是复杂的非线性问题了&＃xff0c;此时用线性回归建模显然不合理&＃xff09;。这里我来解释&＃xff1a;

Log函数明显不满足线性函数&＃xff0c;但是为什么当Proposal 和Ground Truth相差较小的时候&＃xff0c;就可以认为是一种线性变换呢&＃xff1f;大家还记得这个公式不&＃xff1f;参看高数1。

l i m x &＃61; 0 l o g (1 &＃43; x) &＃61; x

现在回过来看公式(8):

t w &＃61; log (G w / P w) &＃61; l o g (G w &＃43; P w - P w P w) &＃61; l o g (1 &＃43; G w - P

推荐阅读

default
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
default
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
settings
解决iOS应用推送通知错误：未找到有效aps-environment权限

在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时，遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]

蜡笔小新 2024-11-21 19:26:31
default
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
ip
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
char
SQL Server 存储过程实现高效分页查询

本文介绍了一种使用SQL Server存储过程来实现基于单一条件的高效分页查询的方法。通过示例代码，详细说明了如何构建和执行这种分页查询。 ... [详细]

蜡笔小新 2024-11-21 17:23:20
uri
深入解析JQuery Mobile特有的事件与方法

本文详细介绍了JQuery Mobile框架中特有的事件和方法，帮助开发者更好地理解和应用这些特性，提升移动Web开发的效率。 ... [详细]

蜡笔小新 2024-11-21 14:24:21
input
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
char
解决SQL Server中几何类型列的INTERSECT操作问题

本文探讨了在SQL Server中处理几何类型列时遇到的INTERSECT操作限制，并提供了解决方案，包括通过转换数据类型和使用额外表结构的方法。 ... [详细]

蜡笔小新 2024-11-20 20:09:58
default
Linux环境下MySQL的安装与部署指南

本文详细介绍了在Linux操作系统上安装和部署MySQL数据库的过程，包括必要的环境准备、安装步骤、配置优化及安全设置等内容。 ... [详细]

蜡笔小新 2024-11-20 18:10:53
default
深入解析 Bootstrap Table 的使用技巧

本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 17:21:26
default
菜鸟物流核心部门诚聘P6及以上JAVA工程师

菜鸟物流用户增长部现正大规模招聘P6及以上级别的JAVA工程师，提供年后入职选项。 ... [详细]

蜡笔小新 2024-11-20 16:25:34
default
LeetCode 题解：高效搜索二维矩阵 II

本题要求实现一个高效的算法，在一个 m x n 的矩阵中搜索目标值 target。该矩阵具有以下特性：每行的元素从左到右按升序排列，每列的元素从上到下按升序排列。 ... [详细]

蜡笔小新 2024-11-18 17:06:13
default
idea全局主题_IntelliJ IDEA好看的主题设置（支持自定义）

现在越来越多的人使用IntelliJIDEA，你是否想要一个好看的IDEA主题呢？本篇博客教你如何设置一个美美哒IDEA主题，你也可以根据 ... [详细]

蜡笔小新 2024-11-17 18:31:07
uri
PHP中防止SQL注入的高级策略（下）_MySQL

本文详细探讨了如何在PHP中有效防止SQL注入攻击，特别是在使用MySQL数据库时。文章通过具体示例和专业建议，帮助开发者理解和应用最佳实践。 ... [详细]

蜡笔小新 2024-11-17 14:31:22

亚璨的秘密

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章