当前位置: 开发笔记 > 编程语言 > 正文

CornerNet代码解析——损失函数

作者：loloyoyo555 | 来源：互联网 | 2023-06-30 04:35

CornerNet代码解析——损失函数文章目录CornerNet代码解析——损失函数前言总体损失1、Heatmap的损失2、Embedding的损失3、Offset的损失前言今天

CornerNet代码解析——损失函数

文章目录

CornerNet代码解析——损失函数
- 前言
- 总体损失
- - 1、Heatmap的损失
  - 2、Embedding的损失
  - 3、Offset的损失

前言

今天要解析的是CornerNet的Loss层源码&＃xff0c;论文中Loss的解析在这&＃xff1a;CornerNet的损失函数原理

总体损失

总体的损失函数如下图所示&＃xff0c;三个输出分别对应三部分损失&＃xff0c;每部分损失有着对应的权重。接下来分别讲述每一块的损失。

源码中将Loss写成一个类&＃xff1a;class AELoss&＃xff0c;在CornerNet\models\py_utils\kp.py中.

class AELoss(nn.Module):def __init__(self, pull_weight&＃61;1, push_weight&＃61;1, regr_weight&＃61;1, focal_loss&＃61;_neg_loss):super(AELoss, self).__init__()# pull_weight &＃61; αself.pull_weight &＃61; pull_weight# push_weight &＃61; βself.push_weight &＃61; push_weight# regr_weight &＃61; γself.regr_weight &＃61; regr_weight# 这其实就是heatmap的lossself.focal_loss &＃61; focal_loss# 这其实就是embedding的lossself.ae_loss &＃61; _ae_loss# 这其实就是offset的lossself.regr_loss &＃61; _regr_lossdef forward(self, outs, targets):stride &＃61; 6# ::跳着选&＃39;&＃39;&＃39;首先明确两个输入&＃xff1a;outs和targetsouts&＃xff1a;这是网络的预测结果&＃xff0c;outs是一个列表&＃xff0c;列表维度为12&＃xff0c;outs[0::stride]这些是表示列表的切片操作&＃xff0c;意思是隔stride(6)个跳着选。举个例子outs &＃61; [1,2,3,4,5,6,7,8,9,10,11,12]&＃xff0c;outs[0::6]&＃61;[1, 7],其实这12个事6个两两成对&＃xff0c;也就是左上角的heatmap有两个&＃xff0c;右下角的heatmap有两个左上角的embedding有两个&＃xff0c;右下角的embedding有两个&＃xff0c;左上角的offset有两个&＃xff0c;右下角的offset有两个&＃xff0c;共12个&＃xff0c;为什么要两份&＃xff1f;应该跟上面的nstack有关&＃xff0c;上述的nstack&＃61;2&＃xff0c;所以循环出来outs不是6&＃xff0c;而是12&＃xff0c;映射到论文就是跟这句话&＃xff1a;we also add intermediate supervision in training。这是中继监督&＃xff0c;具体是啥我也还在看。也就是说下面的6个都是列表&＃xff0c;每个列表里面都含有两个tensor&＃xff0c;具体维度如下&＃xff1a;&＃39;&＃39;&＃39;# 两个都是[batch_size, 类别数, 128, 128]tl_heats &＃61; outs[0::stride]# 两个都是[batch_size, 类别数, 128, 128]br_heats &＃61; outs[1::stride]# 两个都是[batch_size, 128, 1]tl_tags &＃61; outs[2::stride]# 两个都是[batch_size, 128, 1]br_tags &＃61; outs[3::stride]# 两个都是[batch_size, 128, 2]tl_regrs &＃61; outs[4::stride]# 两个都是[batch_size, 128, 2]br_regrs &＃61; outs[5::stride]&＃39;&＃39;&＃39;targets是gt&＃xff0c;标准答案,也是个列表&＃xff0c;但就只有下面5个&＃xff0c;没有两份具体维度如下&＃39;&＃39;&＃39;# [batch_size, 类别数, 128, 128]gt_tl_heat &＃61; targets[0]# [batch_size, 类别数, 128, 128]gt_br_heat &＃61; targets[1]# [3, 128]gt_mask &＃61; targets[2]# [3, 128, 2]gt_tl_regr &＃61; targets[3]# [3, 128, 2]gt_br_regr &＃61; targets[4]

上述就是传入的预测值和真实值&＃xff0c;Loss也就是计算预测的和真实之间的误差&＃xff0c;当Loss值越小&＃xff0c;那么说明网络预测的结果越好。接下去有了预测和真实值&＃xff0c;具体分析三个部分的Loss。

1、Heatmap的损失

Heatmap损失的理论理解在这&＃xff0c;接下来是源码理解&＃xff1a;

这部分代码在CornerNet\models\py_utils\kp.py中

# focal lossfocal_loss &＃61; 0# 到这里将heatmap经过sigmoid&＃xff0c;将值映射到0-1之间&＃xff0c;变成keypoint的响应值&＃xff0c;还是列表&＃xff0c;# 维度还是[batch_size, 类别数, 128, 128]tl_heats &＃61; [_sigmoid(t) for t in tl_heats]br_heats &＃61; [_sigmoid(b) for b in br_heats]# 在CornerNet\models\py_utils\kp_utils.py中详细讲述了focal_loss&＃xff0c;这个focal loss就是_neg_loss&＃xff0c;形参有体现focal_loss &＃43;&＃61; self.focal_loss(tl_heats, gt_tl_heat)focal_loss &＃43;&＃61; self.focal_loss(br_heats, gt_br_heat)

接着去到CornerNet\models\py_utils\kp_utils.py中详细讲述focal_loss&＃xff1a;

&＃39;&＃39;&＃39; 首先清楚函数的输入&＃xff1a; preds是列表&＃xff1a;(2,)&＃xff0c;表示一个列表中含两个tensor&＃xff0c;每个tensor的维度是(batch_size, 类别数, 128, 128) gt是tensor&＃xff1a;(batch_size, 类别数, 128, 128) &＃39;&＃39;&＃39; def _neg_loss(preds, gt):# pos_inds是0、1tensor&＃xff0c;维度[3,7,128,128]。# eq函数是遍历gt这个tensor每个element&＃xff0c;和1比较&＃xff0c;如果等于1&＃xff0c;则返回1&＃xff0c;否则返回0pos_inds &＃61; gt.eq(1)# otherwise则是表明ycij第c个通道的&＃xff08;i,j&＃xff09;坐标上值不为1# 遍历gt这个tensor每个element&＃xff0c;和1比较&＃xff0c;如果小于1&＃xff0c;则返回1&＃xff0c;否则返回0neg_inds &＃61; gt.lt(1)# 总结下上面两个变量&＃xff1a;上面这两个0-1位置互补# 回头看这两个变量&＃xff0c;再结合公式1&＃xff0c;公式1后面有两个判断条件&＃xff1a;if ycij&＃61;1 and otherwise# 这里就是那两个判断条件&＃xff0c;ycij&＃61;1表示第c个通道的&＃xff08;i,j&＃xff09;坐标上值为1&＃xff0c;也即是gt中这个位置有目标# 也就是pos_inds是ycij&＃61;1&＃xff0c;neg_inds是otherwise# torch.pow是次幂函数,其中gt[neg_inds]表示取出neg_inds中值为1的gt的值# 所以gt[neg_inds]就变成一个向量了&＃xff0c;那么维度就等于neg_inds中有多少为1的# 可以neg_inds.sum()看看&＃xff0c;1 - gt[neg_inds]就是单纯的用1减去每个element&＃xff0c;# 然后每个element开4次方&＃xff0c;就成了neg_weights&＃xff0c;这个neg_weights是一维向量# 把gt中每个小于1的数字取出来&＃xff0c;然后用1减去&＃xff0c;在开方&＃xff0c;那不是更小了&＃xff0c;# 就是原来就很小&＃xff0c;现在又降权。# gt[neg_inds]就是公式(1)中的Ycij# neg_weights就是公式(1)中的(1-ycij)^β&＃xff0c;β就是4neg_weights &＃61; torch.pow(1 - gt[neg_inds], 4)loss &＃61; 0# 循环2次&＃xff0c;因为preds是一个列表&＃xff0c;有2部分&＃xff0c;每部分放着一个tensor&＃xff0c;每个tensor的# 维度为[batch_size&＃xff0c;类别数&＃xff0c;128&＃xff0c;128]&＃xff0c;也就是pred维度为[batch_size&＃xff0c;类别数&＃xff0c;128&＃xff0c;128]for pred in preds:# 首先记住pos_inds中的1就是gt中有目标的地方&＃xff0c;neg_inds中的1是gt中没有目标的地方# 将gt认为有目标的地方&＃xff0c;pred也按这个地方取出数值&＃xff0c;变成向量&＃xff0c;pos_inds有多少个1&＃xff0c;# pos_pred就多少维(一行向量)pos_pred &＃61; pred[pos_inds]# 将gt认为没有目标的地方&＃xff0c;pred也按这个地方取出数值&＃xff0c;变成向量&＃xff0c;neg_inds有多少个1&＃xff0c;# neg_pred就多少维(一行向量)neg_pred &＃61; pred[neg_inds]# 以上出现的pos_xxx, neg_xxx&＃xff0c;命名的意思就是正样本positive和负样本negative# 这里对应的是论文中的公式(1)&＃xff0c;也就是heatmap的loss# 可以先根据公式把相应的变量确认下&＃xff1a;pos_pred就是公式中的Pcij。# neg_pred就是公式中的要经过二维高斯的Pcij&＃xff0c;neg_weights就是(1-ycij)^βpos_loss &＃61; torch.log(pos_pred) * torch.pow(1 - pos_pred, 2)neg_loss &＃61; torch.log(1 - neg_pred) * torch.pow(neg_pred, 2) * neg_weights# gt的那个tensor中&＃xff0c;值为1的个数&＃xff0c;num_pos对应公式(1)中的Nnum_pos &＃61; pos_inds.float().sum()# 累加pos_loss &＃61; pos_loss.sum()neg_loss &＃61; neg_loss.sum()# pos_pred是一维的。统计pos_pred中的元素个数&＃xff0c;单纯的数个数而已&＃xff0c;# 就算pos_pred中值为0的&＃xff0c;也算一个if pos_pred.nelement() &＃61;&＃61; 0:loss &＃61; loss - neg_losselse:# 用减号体现公式(1)中的-1loss &＃61; loss - (pos_loss &＃43; neg_loss) / num_pos# 返回最终的heatmap的lossreturn loss

2、Embedding的损失

Heatmap损失的理论理解在这&＃xff0c;接下来是源码理解&＃xff1a;

接着回到CornerNet\models\py_utils\kp.py&＃xff0c;看怎么调用embedding的loss&＃xff1a;

# tag loss# 初始化为0pull_loss &＃61; 0push_loss &＃61; 0# tl_tags、br_tags是列表&＃xff0c;里面有两个tensor&＃xff0c;每个tensor的维度为[batch_size, 128, 1]# 论文中说到的embedding是一维向量。也就是说&＃xff0c;维度表示&＃xff1a;一个batch_size一张图&＃xff0c;用128*1的矩阵表示&＃xff1f;&＃xff1f;# 那么这个for循环&＃xff0c;循环2次&＃xff0c;每次进去的是[batch_size, 128, 1]的tl_tag, br_tagfor tl_tag, br_tag in zip(tl_tags, br_tags):pull, push &＃61; self.ae_loss(tl_tag, br_tag, gt_mask)pull_loss &＃43;&＃61; pullpush_loss &＃43;&＃61; push# 算出来的loss乘以相应的权重pull_loss &＃61; self.pull_weight * pull_losspush_loss &＃61; self.push_weight * push_loss

接着去到CornerNet\models\py_utils\kp_utils.py中详细讲述ae_loss&＃xff1a;

&＃39;&＃39;&＃39; embedding的损失输入&＃xff1a;tag0、tag1为左上右下各一个[batch_size, 128, 1]的tensor&＃xff0c;再来一个gt中的mask&＃xff0c;这个mask是 0、1矩阵&＃xff0c;维度[batch_size, 128],也就是一张图用128维来表示&＃xff1f;&＃xff1f;&＃xff1f;&＃xff1f;&＃xff1f;&＃xff1f; &＃39;&＃39;&＃39; def _ae_loss(tag0, tag1, mask):# mask是[batch_size, 128]&＃xff0c;这个就是第一维全部相加(sum)&＃xff0c;就是把每个batch的128个数字相加&＃xff0c;所以num的# 维度是[batch_size, 1]&＃xff0c;1是128个数字的值相加变成一个数字&＃xff0c;而mask还是0-1矩阵&＃xff0c;所以这个num代表了# 每张图有多少个1.这个num代表公式(4)和(5)中的Nnum &＃61; mask.sum(dim&＃61;1, keepdim&＃61;True).float()# 先看torch.squeeze() 这个函数主要对数据的维度进行压缩&＃xff0c;去掉维数为1的的维度# 所以tag0和tag1的维度变成了[batch_size, 128]&＃xff0c;和mask一样# tag0就是公式(4)中的etktag0 &＃61; tag0.squeeze()# tag0就是公式(4)中的ebktag1 &＃61; tag1.squeeze()# 单纯的求平均而已&＃xff0c;这个tag_mean对应公式(4)和(5)中的ek,维度不变tag_mean &＃61; (tag0 &＃43; tag1) / 2# 这里能够体现是同类别的&＃xff0c;因为累加只有一次&＃xff0c;也就是Lpull用来缩小# 同类别左上右下角点的embedding vector的距离# 公式(4)前半段tag0 &＃61; torch.pow(tag0 - tag_mean, 2) / (num &＃43; 1e-4)# 这句能体现累加&＃xff0c;这里tag0已经是单个数字tag0 &＃61; tag0[mask].sum()# 公式(4)后半段tag1 &＃61; torch.pow(tag1 - tag_mean, 2) / (num &＃43; 1e-4)# 这句能体现累加&＃xff0c;这里tag1已经是单个数字tag1 &＃61; tag1[mask].sum()# 总的Lpullpull &＃61; tag0 &＃43; tag1# Lpush# 这里能够体现是不同类别的&＃xff0c;因为累加有两次&＃xff0c;公式(5)中的j不等于k,也就是Lpush用来扩大# 不同类别左上右下角点的embedding vector的距离# 这时候mask的维度由[3,128]-->[3,128,128]mask &＃61; mask.unsqueeze(1) &＃43; mask.unsqueeze(2)# 遍历mask这个tensor每个element&＃xff0c;和2比较&＃xff0c;如果等于2&＃xff0c;则返回1&＃xff0c;否则返回0&＃xff0c;但为啥是2呢&＃xff1f;mask &＃61; mask.eq(2)# num的维度[3, 1]-->[3, 1, 1]num &＃61; num.unsqueeze(2)# num2的维度[3, 1, 1],num2表示公式(5)中的N(N-1)num2 &＃61; (num - 1) * num# dist是公式(5)中绝对值之间的运算# dist维度[3, 128, 128]&＃61;[3, 1, 128]-[3, 128, 1]dist &＃61; tag_mean.unsqueeze(1) - tag_mean.unsqueeze(2)# 1表示公式(5)三角形dist &＃61; 1 - torch.abs(dist)# 公式(5)就是relu&＃xff0c;所以计算方式直接套reludist &＃61; nn.functional.relu(dist, inplace&＃61;True)dist &＃61; dist - 1 / (num &＃43; 1e-4)dist &＃61; dist / (num2 &＃43; 1e-4)# 这时候mask的维度[3,128,128]&＃xff0c;dist维度[3,128,128]dist &＃61; dist[mask]# sum之后就变成一个数字了push &＃61; dist.sum()# 返回两个loss&＃xff0c;两个tensor的数字return pull, push

3、Offset的损失

Heatmap损失的理论理解在这&＃xff0c;接下来是源码理解&＃xff1a;

接着回到CornerNet\models\py_utils\kp.py&＃xff0c;看怎么调用offset的loss&＃xff1a;

# offsets lossregr_loss &＃61; 0# tl_regrs、br_regrs是列表&＃xff0c;里面有两个tensor&＃xff0c;每个tensor的维度为[batch_size, 128, 2]# 维度表示&＃xff1a;一个batch_size一张图&＃xff0c;用128*2的矩阵表示&＃xff1f;&＃xff1f;# 那么这个for循环&＃xff0c;循环2次&＃xff0c;每次进去的是[batch_size, 128, 2]的tl_regr, br_regrfor tl_regr, br_regr in zip(tl_regrs, br_regrs):regr_loss &＃43;&＃61; self.regr_loss(tl_regr, gt_tl_regr, gt_mask)regr_loss &＃43;&＃61; self.regr_loss(br_regr, gt_br_regr, gt_mask)regr_loss &＃61; self.regr_weight * regr_loss# 总的lossloss &＃61; (focal_loss &＃43; pull_loss &＃43; push_loss &＃43; regr_loss) / len(tl_heats)# unsqueeze(i) 表示将第i维设置为1维return loss.unsqueeze(0)

接着去到CornerNet\models\py_utils\kp_utils.py中详细讲述regr_loss&＃xff1a;

&＃39;&＃39;&＃39; 输入&＃xff1a;regr偏移量&＃xff0c;维度[batch_size, 128, 2],gt_regr维度[batch_size, 128, 2] mask维度[batch_size, 128] &＃39;&＃39;&＃39; def _regr_loss(regr, gt_regr, mask):# 公式(3)的Nnum &＃61; mask.float().sum()# mask.unsqueeze(2)维度[batch_size, 128, 1]# mask的维度[batch_size, 128, 2]mask &＃61; mask.unsqueeze(2).expand_as(gt_regr)# 取出mask中1对应的位置&＃xff0c;然后在预测的偏移量和真实的偏移量中取出这些位置的值# 此时二者的维度变为一维向量regr &＃61; regr[mask]gt_regr &＃61; gt_regr[mask]# 直接调用自带的SmoothL1Lossregr_loss &＃61; nn.functional.smooth_l1_loss(regr, gt_regr, size_average&＃61;False)# 最后除Nregr_loss &＃61; regr_loss / (num &＃43; 1e-4)return regr_loss

推荐阅读

int
深入探讨C++中的GCD函数与队列

在iOS开发中，多线程技术的应用非常广泛，能够高效地执行多个调度任务。本文将重点介绍GCD（Grand Central Dispatch）在多线程开发中的应用，包括其函数和队列的实现细节。 ... [详细]

蜡笔小新 2024-11-16 14:59:50
int
设计无SQL死锁的编码模式 - Achieving SQL Deadlock-Free Design

在运行于MS SQL Server 2005的.NET 2.0 Web应用中，我偶尔会遇到令人头疼的SQL死锁问题。过去，我们主要通过调整查询来解决这些问题，但这既耗时又不可靠。我希望能找到一种确定性的查询模式，确保从设计上彻底避免SQL死锁。 ... [详细]

蜡笔小新 2024-11-16 13:09:51
int
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
int
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
int
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
int
DirectShow Filter 开发指南

本文总结了 DirectShow Filter 的开发经验，重点介绍了 Source Filter、In-Place Transform Filter 和 Render Filter 的实现方法。通过使用 DirectShow 提供的类，可以简化 Filter 的开发过程。 ... [详细]

蜡笔小新 2024-11-16 23:50:16
int
PHP函数的工作原理与性能分析

在编程语言中，函数是最基本的组成单元。本文将探讨PHP函数的特点、调用机制以及性能表现，并通过实际测试给出优化建议。 ... [详细]

蜡笔小新 2024-11-16 19:21:45
int
一个转子曲线面积问题及其反问题的解答

曾经解答过这样一个问题，从该ID的最后一次登录时间、该ID显示的专业信息，误以为是新闻里某个想不开的同学，不安了一阵子。经确认是我多虑了,不过把问题答案还是写出来。之后就收到一堆要求帮忙算 ... [详细]

蜡笔小新 2024-11-16 14:10:33
int
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
int
数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇

数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-13 18:49:58
int
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
int
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
int
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
int
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28

loloyoyo555

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章