YOLOV3Pytorch实战教程Part4：深入解析置信度阈值与非极大值抑制技术

作者：xinyaolin_857 | 来源：互联网 | 2024-10-26 14:31

在上一节中，我们完成了网络的前向传播实现。本节将重点探讨如何为检测输出设定目标置信度阈值，并应用非极大值抑制技术以提高检测精度。为了更好地理解和实践这些内容，建议读者已经完成本系列教程的前三部分，并具备一定的PyTorch基础知识。此外，我们将详细介绍这些技术的原理及其在实际应用中的重要性，帮助读者深入理解目标检测算法的核心机制。

前一节我们实现了网络的前向传播。这一节我们对检测输出设置目标置信度阈值和进行非极大值抑制。

必要条件&＃xff1a;

1.此系列教程的Part1到Part3。

2.Pytorch的基本知识&＃xff0c;包括如何使用nn.Module&＃xff0c;nn.Sequential&＃xff0c;torch.nn.parameter类构建常规的结构

3.numpy的基础知识

此前我们已经建立了一个模型&＃xff0c;给定一张输入图片它能产生B*10674*85维的输出向量。B是批中图片的数目&＃xff0c;10674是每张图片预测的边界框数目&＃xff0c;85是边界框属性数目。

但就像我们在part1中描述的那样&＃xff0c;我们必须对输出进行目标置信度阈值化和非极大值抑制&＃xff0c;以获得最终剩余的真正检测。为此&＃xff0c;我们将在文件util.py中创建一个名为write_results的函数。

def write_results(prediction, confidence, num_classes, nms_conf &＃61; 0.4):

这个函数将prediction、confidence(目标置信度阈值)、num_classes(在我们的示例中是80)和nms_conf (NMS IoU的阈值)作为输入。

目标置信度阈值&＃xff1a;

我们的预测张量包含了关于B x 10647个边界框的信息。对于每个目标置信度低于阈值的边界框&＃xff0c;我们将它的每个属性(行向量)的值设置为零。

conf_mask &＃61; (prediction[:,:,4] > confidence).float().unsqueeze(2)

prediction&＃61; prediction*conf_mask

执行极大值抑制&＃xff1a;

我们现在拥有的是边界框的中心坐标以及高度和宽度&＃xff0c;然而使用边界框的对角点更容易计算IOU。因此&＃xff0c;我们将框的(center x, center y, height, width)属性转换为(左上角x&＃xff0c;左上角y&＃xff0c;右下角x&＃xff0c;右下角y)。

box_corner &＃61;prediction.new(prediction.shape)

box_corner[:,:,0]&＃61; (prediction[:,:,0] - prediction[:,:,2]/2)

box_corner[:,:,1] &＃61; (prediction[:,:,1] - prediction[:,:,3]/2)

box_corner[:,:,2] &＃61; (prediction[:,:,0] &＃43; prediction[:,:,2]/2)

box_corner[:,:,3] &＃61; (prediction[:,:,1] &＃43; prediction[:,:,3]/2)

prediction[:,:,:4] &＃61; box_corner[:,:,:4]

每幅图像中真实检测框的数目可能不同。例如&＃xff0c;一批大小为3的图像&＃xff0c;其中图像1、2和3分别有5、2、4个真检测值。因此&＃xff0c;每次必须对同一个图像进行置信阈值和NMS&＃xff0c;而不能对所涉及的操作进行矢量化&＃xff0c;必须在预测的第一个维度(包含成批图像的索引)上进行遍历操作。

batch_size &＃61;prediction.size(0)

write&＃61;Falsefor ind inrange(batch_size):

image_pred&＃61; prediction[ind] #image Tensor

#confidence threshholding

#NMS

write标志位用于指示我们是否对output进行了初始化&＃xff0c;将会使用一个向量来收集整个批中真实的预测。

循环的开始我们进行数据清理。因为每个边界框行有85个属性&＃xff0c;其中80个是类得分。我们只关心类得分最大值的那个&＃xff0c;所以会从每行中删除80个类得分&＃xff0c;添加具有最大值的类的索引&＃xff0c;以及该类的类得分。

max_conf, max_conf_score &＃61; torch.max(image_pred[:,5:5&＃43; num_classes], 1)

max_conf&＃61; max_conf.float().unsqueeze(1)

max_conf_score&＃61; max_conf_score.float().unsqueeze(1)

seq&＃61; (image_pred[:,:5], max_conf, max_conf_score)

image_pred&＃61; torch.cat(seq, 1)

我们前面已经将目标置信度得分低于阈值的边界框行属性设置为了0&＃xff0c;现在就筛除它们。

non_zero_ind &＃61; (torch.nonzero(image_pred[:,4]))try:

image_pred_&＃61; image_pred[non_zero_ind.squeeze(),:].view(-1,7)except:continue

#For PyTorch 0.4 compatibility

#Since the above code with not raise exception for no detection

#as scalars are supported in PyTorch 0.4

if image_pred_.shape[0] &＃61;&＃61;0:continue

try-except块用于处理没有检测到的情况。在这种情况下&＃xff0c;我们使用continue跳过此图像的其余循环体。

接下来&＃xff0c;让我们在图像中检测目标。

#Get the various classes detected in the image

img_classes &＃61; unique(image_pred_[:,-1]) #-1 index holds the class index

因为对于同一个类别可能存在多个正确检测&＃xff0c;我们使用一个叫unique的函数来获得给定图片中所有出现的类。

defunique(tensor):

tensor_np&＃61;tensor.cpu().numpy()

unique_np&＃61;np.unique(tensor_np)

unique_tensor&＃61;torch.from_numpy(unique_np)

tensor_res&＃61;tensor.new(unique_tensor.shape)

tensor_res.copy_(unique_tensor)return tensor_res

之后我们对于每个类进行NMS

for cls inimg_classes:#perform NMS

一进入这个循环&＃xff0c;首先要做的事情就是提取对于某一特定类别的检测(用变量cls表示)

#get the detections with one particular class

cls_mask &＃61; image_pred_*(image_pred_[:,-1] &＃61;&＃61; cls).float().unsqueeze(1)

class_mask_ind&＃61; torch.nonzero(cls_mask[:,-2]).squeeze()

image_pred_class&＃61; image_pred_[class_mask_ind].view(-1,7)#sort the detections such that the entry with the maximum objectness#confidence is at the top

conf_sort_index &＃61; torch.sort(image_pred_class[:,4], descending &＃61; True )[1]

image_pred_class&＃61;image_pred_class[conf_sort_index]

idx&＃61; image_pred_class.size(0) #Number of detections

然后我们进行NMS

for i inrange(idx):#Get the IOUs of all boxes that come after the one we are looking at

#in the loop

try:

ious&＃61; bbox_iou(image_pred_class[i].unsqueeze(0), image_pred_class[i&＃43;1:])exceptValueError:break

exceptIndexError:break

#Zero out all the detections that have IoU > treshhold

iou_mask &＃61; (ious

image_pred_class[i&＃43;1:] *&＃61;iou_mask#Remove the non-zero entries

non_zero_ind &＃61; torch.nonzero(image_pred_class[:,4]).squeeze()

image_pred_class&＃61; image_pred_class[non_zero_ind].view(-1,7)

这里我们使用到了一个函数bbox_iou。第一个输入参数是循环体变量i索引处的边界框&＃xff0c;第二个输入参数是多行边界框的一个tensor。函数bbox_iou的输出是一个tensor它包含了第一个输入的边界框与第二个输入的所有边界框的IOU。如下&＃xff1a;

之前我们已经将目标置信度高的边界框放在前面&＃xff0c;如果后面的边界框IoU值与前面的相比超过了阈值&＃xff0c;那后者就会被删去。

循环体里面下面这行计算IoU。

ious &＃61; bbox_iou(image_pred_class[i].unsqueeze(0), image_pred_class[i&＃43;1:])

每轮迭代&＃xff0c;如果有任何索引大于i的边界框与第i个边界框的IoU大于阈值nms_thresh&＃xff0c;那这个边界框就会被删除。

#Zero out all the detections that have IoU > treshhold

iou_mask &＃61; (ious

image_pred_class[i&＃43;1:] *&＃61;iou_mask#Remove the non-zero entries

non_zero_ind &＃61; torch.nonzero(image_pred_class[:,4]).squeeze()

image_pred_class&＃61; image_pred_class[non_zero_ind]

还要注意的是&＃xff0c;我们将计算IoU的代码行放在try-catch块中。这是因为此循环按照id进行迭代(image_pred_class中的行数)。但因为我们循环过程中可能会从image_pred_class中删除一些边界框。这样一来&＃xff0c;迭代可能会出现索引越界触发IndexError或者image_pred_class[i&＃43;1:]返回一个空张量触发ValueError。此时我们可以确定NMS已经无法删除多余的边界框了&＃xff0c;从而跳出循环。

计算IoU:

defbbox_iou(box1, box2):"""Returns the IoU of two bounding boxes"""

#Get the coordinates of bounding boxes

b1_x1, b1_y1, b1_x2, b1_y2 &＃61; box1[:,0], box1[:,1], box1[:,2], box1[:,3]

b2_x1, b2_y1, b2_x2, b2_y2&＃61; box2[:,0], box2[:,1], box2[:,2], box2[:,3]#get the corrdinates of the intersection rectangle

inter_rect_x1 &＃61;torch.max(b1_x1, b2_x1)

inter_rect_y1&＃61;torch.max(b1_y1, b2_y1)

inter_rect_x2&＃61;torch.min(b1_x2, b2_x2)

inter_rect_y2&＃61;torch.min(b1_y2, b2_y2)#Intersection area

inter_area &＃61; torch.clamp(inter_rect_x2 - inter_rect_x1 &＃43; 1, min&＃61;0) * torch.clamp(inter_rect_y2 - inter_rect_y1 &＃43; 1, min&＃61;0)#Union Area

b1_area &＃61; (b1_x2 - b1_x1 &＃43; 1)*(b1_y2 - b1_y1 &＃43; 1)

b2_area&＃61; (b2_x2 - b2_x1 &＃43; 1)*(b2_y2 - b2_y1 &＃43; 1)

iou&＃61; inter_area / (b1_area &＃43; b2_area -inter_area)return iou

写入预测&＃xff1a;

write_results函数输出一个形状为 Dx8 的tensor。这里D是所有图像的真实检测&＃xff0c;每个都用一行表示。每个检测有8个属性&＃xff0c;即检测所属批次图像的索引、4个角坐标、目标置信度得分、最大置信类得分、该类的索引。

和此前一样&＃xff0c;我们等到有一个检测时才初始化输出向量并将后续的检测拼接进来。使用写标志来表示tensor是否已经初始化。在遍历类的循环结束时&＃xff0c;我们将检测结果添加到输出tensor中。

batch_ind &＃61; image_pred_class.new(image_pred_class.size(0), 1).fill_(ind)#Repeat the batch_id for as many detections of the class cls in the image

seq &＃61;batch_ind, image_pred_classif notwrite:

output&＃61; torch.cat(seq,1)

write&＃61;Trueelse:

out&＃61; torch.cat(seq,1)

output&＃61; torch.cat((output,out))

在函数的末尾&＃xff0c;我们检查输出是否已经初始化。如果没有&＃xff0c;就意味着这批图像中没有一个检测到。在这种情况下&＃xff0c;我们返回0。

try:returnoutputexcept:

return 0

这就是这一部分所要讲解的内容了。现在我们终于有了一个预测&＃xff0c;它以tensor的形式列出了每一个边界框。所以只剩下一件事就是创建一个输入管道来从磁盘读取图像&＃xff0c;计算预测&＃xff0c;在图像上绘制边界框&＃xff0c;然后显示/写入这些图像。这是我们下一部分要做的。

推荐阅读

go
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
buffer
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
const
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
go
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
go
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
int
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
buffer
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
int
Python与PyTorch中图像数据的互转换方法

本文详细介绍了如何在Python和PyTorch环境中实现Tensor与NumPy数组之间的转换，以及PIL图像对象与NumPy数组之间的相互转换。内容包括具体的转换函数及其使用示例。 ... [详细]

蜡笔小新 2024-12-05 11:16:09
include
如何在Python中调用C++代码

本文介绍了一种方法，通过使用Python的ctypes库来调用C++代码。具体实例为实现一个简单的加法器，并详细说明了从编写C++代码到编译及最终在Python中调用的全过程。 ... [详细]

蜡笔小新 2024-11-20 16:35:59
go
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
go
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
text
优化Windows右键菜单管理

本文介绍如何通过注册表编辑器自定义和优化Windows文件右键菜单，包括删除不需要的菜单项、添加绿色版或非安装版软件以及将特定应用程序（如Sublime Text）添加到右键菜单中。 ... [详细]

蜡笔小新 2024-12-27 12:00:01

xinyaolin_857

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章