SIoULoss的原理详解及代码实现分析

作者：年少不轻易谈情 | 来源：互联网 | 2024-11-09 18:30

本文详细解析了SIoULoss的原理及其在边界框回归任务中的优势，并通过代码实现对其性能进行了深入分析。SIoULoss作为一种改进的损失函数，能够更有效地优化目标检测模型的边界框回归效果，提升模型的准确性和鲁棒性。文中还提供了具体的代码示例，帮助读者更好地理解和应用这一技术。

paper：SIoU Loss: More Powerful Learning for Bounding Box Regression

code：https://github.com/meituan/YOLOv6/blob/main/yolov6/utils/figure_iou.py#L75

存在的问题

之前的目标检测模型的回归损失考虑到了预测的bounding box和gt box之间的distance、overlap area、aspect ratio等因素（如GIoU、CIoU等），但是都没有考虑到方向不匹配的问题，这可能会导致收敛速度较慢，因为训练过程中预测的bounding box可能会在gt box附近震荡，最终得到一个较差的模型。

创新点

本文提出了一种新的目标检测损失函数SIoU Loss，其中重新定义了penalty metrics并且考虑到了回归向量的角度。这会让预测的bounding box快速的先移动到最近的坐标轴，随后只需要沿一个方向X或Y回归坐标即可，简而言之，增加角度惩罚项减少了自由度的数量。

方法介绍

SIoU loss一共包括四个惩罚项：

Angle cost
Distance cost
Shape cost
IoU cost

Angle cost

如下图所示，定义gt box和predict box中心点连线的夹角 \(\alpha\)，当 \(\alpha <\frac{\pi }{4}\) 时，目标是最小化 \(\alpha\)，当 \(\alpha >\frac{\pi }{4}\) 时，目标是最小化 \(\beta=\frac{\pi}{2}-\alpha\)。

为此，作者提出下式

其中

Distance cost

distance cost也被重新设计，加入了上述的angle cost

其中

注意，这里的 \(c_w,c_h\) 和angle cost中的不一样，不然的话这里 \(\rho_x=\rho_y=1\) 了。angle cost中的是predict box和gt box中心点沿 \(x,y\) 方向的距离，这里的是两者最小外接矩形的宽和高，如下图所示

Shape cost

shape cost的定义如下

其中

其中 \(\theta\) 值定义了shape cost的权重并且不同的数据集 \(\theta\) 值也不同。

SIoU loss的最终形式如下

其中

代码

下面是YOLOv6中实现的SIoU loss，其中计算angle_cost是对论文中的式子进行了转换，如下

s_cw = (b2_x1 + b2_x2 - b1_x1 - b1_x2) * 0.5 + self.eps s_ch = (b2_y1 + b2_y2 - b1_y1 - b1_y2) * 0.5 + self.eps sigma = torch.pow(s_cw ** 2 + s_ch ** 2, 0.5) sin_alpha_1 = torch.abs(s_cw) / sigma sin_alpha_2 = torch.abs(s_ch) / sigma threshold = pow(2, 0.5) / 2 sin_alpha = torch.where(sin_alpha_1 > threshold, sin_alpha_2, sin_alpha_1) angle_cost = torch.cos(torch.arcsin(sin_alpha) * 2 - math.pi / 2) rho_x = (s_cw / cw) ** 2 rho_y = (s_ch / ch) ** 2 gamma = angle_cost - 2 distance_cost = 2 - torch.exp(gamma * rho_x) - torch.exp(gamma * rho_y) omiga_w = torch.abs(w1 - w2) / torch.max(w1, w2) omiga_h = torch.abs(h1 - h2) / torch.max(h1, h2) shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4) iou = iou - 0.5 * (distance_cost + shape_cost) loss = 1.0 - iou

实验结果

下图是一个简单的实验用于比较anchor初始位置不同时SIoU和CIoU的收敛速度，其中蓝色box是anchor的初始位置，位于原点的绿色box是target box，可以看出，当anchor初始位置和目标box在同一轴上时，收敛速度要比不在同一轴上快的多。而两种情况下SIoU的收敛速度都比CIoU快。

作者又用了CIoU里设计的模拟实验来评估SIoU的效果，实验具体设计为：7个中心在坐标(10,10)处，面积为1，宽高比分别为1:4, 1:3, 1:2, 1:1, 2:1, 3:1, 4:1的box作为target box，如下图中(10,10)处的各色box所示。anchor box均匀的放置在以坐标(10,10)为中心半径为3的区域内的5000个点上，即下图中的蓝色点。每个点放置7种尺度7种宽高比共49个anchor，尺度分别为0.5, 0.67, 0.75, 1.33, 1.5, 2，宽高比和target box的一致。因此一共有5000x7x7=1715000个回归实例。

下图是实验结果，可以看出SIoU的最大误差要比CIoU小了两个数量级，并且SIoU的误差表面更加平滑，表明在模拟的所有情况下，SIoU的总误差都比CIoU小。

下图是误差随迭代次数的变化，可以看出SIoU比CIoU的收敛速度更快，最终的误差也更小。

参考

一文搞懂EIoU与SIoU - 知乎

推荐阅读

golang
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
list
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
list
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
main
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
config
Spring Boot 中使用 @PropertySource 读取自定义配置文件的最佳实践

本文详细介绍了如何在 Spring Boot 应用中通过 @PropertySource 注解读取非默认配置文件，包括配置文件的创建、映射类的设计以及确保 Spring 容器能够正确加载这些配置的方法。 ... [详细]

蜡笔小新 2024-12-26 19:35:47
main
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
sum
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
main
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
python
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
sum
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
replace
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
filter
ECharts线性渐变色应用实例

本文详细介绍了如何在ECharts中使用线性渐变色，通过echarts.graphic.LinearGradient方法实现。文章不仅提供了完整的代码示例，还解释了各个参数的具体含义及其应用场景。 ... [详细]

蜡笔小新 2024-12-26 08:13:53
list
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
list
考虑输入生命周期的 manual_async_fn

对 manual_async_fn 进行了改进，确保其能够正确处理和捕获输入的生命周期。 ... [详细]

蜡笔小新 2024-12-12 11:27:50

年少不轻易谈情

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章