【目标检测算法YOLO学习记录】深度残差网络，图片输入尺寸和输出张量维度

作者：双子-殇 | 来源：互联网 | 2023-02-10 19:20

【目标检测算法YOLO学习记录】深度残差网络，图片输入尺寸和输出张量维度,Go语言社区,Golang程序员人脉社

YOLO全称You Only Look Once，是一个端到端（end-to-end）的目标检测算法，现在已经发展到第三个版本。由于第三个版本已经比较复杂，我们选择学习第一个版本。

github上有个同学实现了一个pytorch的版本：https://github.com/xiongzihua/pytorch-YOLO-v1

我基于他的源码学习，学习过程中的代码修改放在：https://git.dev.tencent.com/zzpu/yolov1.git

1 源码中使用的残差网络

YOLO V1原论文中使用CNN来提取图像的特征，最后使用全连接层做回归预测，并且借鉴GooLeNet的思路，使用了1×1卷积核。而在V3中开始借鉴了ResNet的残差结构，使用这种结构可以让网络结构更深。所以在这个源码的实现中没有按照原论文参考GoogLeNet,而是直接修改了pytorch的ResNet的官方实现作为前置网络。看下论文原版ResNet的网络结构

输入图片尺寸要求224*224，输出feature map尺寸为7*7。但是yolo要求输入图片尺寸为448*448，输出张量希望是7*7*30（本实现代码输出希望是14*14*30），所以需要对PyTorch官方实现的ResNet进行必要的修改。

Pytorch中：

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x) #输出B* block.expansion * 7*7

        x = self.avgpool(x)


        x = x.view(x.size(0), -1)
        

        x = self.fc(x)

        return x

到layer4输出B* block.expansion * 7*7（其中B为Batch size），因为输入图片尺寸由224*224变为448*448，所以到layer4层输出feature map尺寸为14*14，为了构造14*14*30的输出张量，我们调整输出维度就可以：

class ResNet(nn.Module):

    def __init__(self, block, layers, num_classes=1470):
        self.inplanes = 64
        super(ResNet, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
                               bias=False)

        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        # self.layer5 = self._make_layer(block, 512, layers[3], stride=2)

        #转换为256维的输出---feature map尺寸不变
        self.layer5 = self._make_detnet_layer(in_channels=2048)

        # self.avgpool = nn.AvgPool2d(14) #fit 448 input size
        # self.fc = nn.Linear(512 * block.expansion, num_classes)

        #调整输出维度为30
        self.conv_end = nn.Conv2d(256, 30, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn_end = nn.BatchNorm2d(30)
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))
            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()

    def _make_layer(self, block, planes, blocks, stride=1):
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes * block.expansion),
            )

        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes))

        return nn.Sequential(*layers)
    
    def _make_detnet_layer(self,in_channels):
        layers = []

        #尺寸不变
        layers.append(detnet_bottleneck(in_planes=in_channels, planes=256, block_type='B'))
        layers.append(detnet_bottleneck(in_planes=256, planes=256, block_type='A'))
        layers.append(detnet_bottleneck(in_planes=256, planes=256, block_type='A'))
        return nn.Sequential(*layers)

    def forward(self, x):

        x = self.conv1(x) # 输出：224*224

        x = self.bn1(x)

        x = self.relu(x) # 输出：224*224


        x = self.maxpool(x) # 输出：112*112



        x = self.layer1(x) # 输出：112*112


        x = self.layer2(x) # 输出：56*56



        x = self.layer3(x) # 输出：28*28


        x = self.layer4(x) # 输出：14*14


        x = self.layer5(x) # 输出：14*14


        x = self.conv_end(x) # 输出：1*30*14*14


        x = self.bn_end(x) # 输出：1*30*14*14



        x = torch.sigmoid(x) # 输出：1*30*14*14


        # x = x.view(-1,7,7,30)
        x = x.permute(0,2,3,1)   # 输出：1*14*14*30                 #(-1,7,7,30)


        return x

推荐阅读

ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
ip
计算成像的原理与应用研究

本文探讨了计算成像的原理与应用研究。首先介绍了小孔成像实验和软件方面的相关内容。随后从傅里叶光学的角度简单谈了成像的过程。成像是观测样品分布的一种方法，通过成像系统接收光的强度来呈现图像。视网膜作为接收端接收到的图像实际上是由像元组成的矩阵，每个元素代表相应位置像元接收光的强度。大脑通过对图像的分析，得出一系列信息，如识别物体、判断距离等。计算成像是一种采集记录系统，通过处理数据得到样品分布与像的对应关系，用于后续问题的分析。 ... [详细]

蜡笔小新 2023-12-13 11:40:23
ip
S3D算法详解

S3D论文详解论文地址：RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]

蜡笔小新 2023-10-16 17:45:39
ip
【MicroServices】【Arduino】装修甲醛检测，ArduinoDart甲醛、PM2.5、温湿度、光照传感器等，数据记录于SD卡，Python数据显示，UI5前台，微服务后台……

这篇文章介绍了一个基于Arduino的装修甲醛检测项目，使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件，并将数据记录于SD卡，使用Python进行数据显示，使用UI5进行前台设计，使用微服务进行后台开发。该项目还在不断更新中，有兴趣的可以关注作者的博客和GitHub。 ... [详细]

蜡笔小新 2023-12-13 15:03:06
function
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
function
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
function
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
java
Android工程师面试准备及设计模式使用场景

本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 18:25:26
function
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
function
macOS Big Sur全新设计大版本更新，10+个值得关注的新功能

本文介绍了Apple发布的新一代操作系统macOS Big Sur，该系统采用全新的界面设计，包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出，macOS Big Sur的设计与iPadOS越来越接近，结合了去年iPadOS对鼠标的完善等功能。 ... [详细]

蜡笔小新 2023-12-10 19:53:41
ip
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
ip
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
sum
pytorch Dropout过拟合的操作

这篇文章主要介绍了pytorchDropout过拟合的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完 ... [详细]

蜡笔小新 2023-10-16 19:35:56
sum
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03

双子-殇

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章