当前位置: 开发笔记 > 编程语言 > 正文

pytorchyolov3代码详解_6.YOLOv3与RFSong在人手检测数据集的对比

作者：童T-Aurora | 来源：互联网 | 2023-08-13 13:29

前言：上一篇文章说到了自己最近学习的YOLO剪枝项目，自己的复现效果不是很理想，水平太菜了，还得多学学相关知识再去调调看&#

前言&＃xff1a;

上一篇文章说到了自己最近学习的YOLO剪枝项目&＃xff0c;自己的复现效果不是很理想&＃xff0c;水平太菜了&＃xff0c;还得多学学相关知识再去调调看&＃xff1a;

Lam1360/YOLOv3-model-pruninggithub.com

之前自己将YOLO架构放到SSD上进行了实验比较&＃xff0c;这一篇文章则是直接对比YOLOv3及其剪枝与自己行人检测文章改进的RFSong&＃xff0c;看看YOLO进行剪枝之后的效果与RFSong相比究竟如何。

数据准备&＃xff1a;

首先还是看看网络输入为448GT框的分布情况&＃xff1a;

分析可得&＃xff1a;

主要是中小目标&＃xff0c;&＃xff0c;因此可以适当减少检测层数目&＃xff0c;适当增大网络的输入分辨率。这里我就去掉最后两个检测层了&＃xff0c;实现了下采样64倍&＃xff0c;因此输入分辨率可以设置为64的倍数&＃xff0c;这里为了方便跟yolo416进行比较&＃xff0c;网络输入分辨率设置为了448.
比例变化较大&＃xff0c;从0.3-3都有&＃xff0c;因此比例得稍微多设置一些

具体配置如下&＃xff1a;

自己还利用kmeans聚类进行了SSD的anchor设置尝试

lars76/kmeans-anchor-boxesgithub.com

聚类出来后的设置如下&＃xff0c;感觉聚类出来的anchor尺度变化更小一些了&＃xff0c;而且好像不太能体现SSD的多尺度检测了。效果也大打折扣&＃xff0c;降了1.2个点&＃xff0c;还不如自己根据GT框分布自己大概设置。

VOC_Config &＃61; {&＃39;feature_maps&＃39; : [56, 28, 14, 7],&＃39;min_dim&＃39; : 448,&＃39;steps&＃39; : [8, 16, 32, 64],&＃39;anchor_sizes&＃39; : [[12.1, 15.8, 20.7, 22.3],[26.2, 26.6, 32.0, 33.2],[34.4, 40.7, 42.9, 50.9],[59.9, 65.4, 86.1, 127.3]],&＃39;aspect_ratios&＃39; : [[0.64, 0.74, 0.65, 1.22],[0.53, 0.80, 1.34, 0.81],[0.55, 0.74, 1.27, 0.69],[1.34, 0.73, 0.98, 0.83]],&＃39;variance&＃39; : [0.1, 0.2],&＃39;clip&＃39; : True, }

RFSong网络&＃xff1a;

只有四个检测层&＃xff0c;下采样了64倍&＃xff0c;因此支持64倍的输入

网络在行人检测代码RFSong7993上进行了修改&＃xff0c;因为发现0.99MB版本与这个版本速度测出来都是200FPS&＃xff08;发现是推理时间0.99MB版本稍快一点点&＃xff0c;但是由于精度下降&＃xff0c;NMS处理的时间增加了&＃xff09;&＃xff0c;这也说明通道减少有时候对模型的加速还是有限的&＃xff1a;

songwsx/RFSong-7993github.com

这里由于还去掉了最后的一些卷积层&＃xff0c;虽然输入分辨率从300变为了448&＃xff0c;速度应该也还是非常快的。

这里调参的一个重要的地方就是匹配的iou阈值调低&＃xff0c;这样对于小目标更加友好&＃xff0c;匹配更多小目标进行训练&＃xff1a;

实验结果&＃xff1a;

速度对比&＃xff1a;

YOLO v3剪枝项目的介绍&＃xff1a;

用 YOLOv3 模型在一个开源的人手检测数据集oxford hand上做人手检测&＃xff0c;并在此基础上做模型剪枝。对于该数据集&＃xff0c;对 YOLOv3 进行 channel pruning 之后&＃xff0c;模型的参数量、模型大小减少 80% &＃xff0c;FLOPs 降低 70%&＃xff0c;前向推断的速度可以达到原来的 200%&＃xff0c;同时可以保持 mAP 基本不变。

需要注意的是&＃xff0c;项目代码的速度均是直接随机产生数据进行模拟输入&＃xff0c;这样得到的推理速度不是真正的速度。因此前向推理速度达到两倍的话&＃xff0c;速度上肯定还是RFSong胜出。

精度对比&＃xff1a;

作者达到的精度是77.5&＃xff0c;自己经过多次调参&＃xff0c;终于从一开始的72达到了77.7&＃xff0c;不过非常不稳定&＃xff0c;也就出现一次77.7。不过群里朋友有经过剪枝达到79.1的&＃xff0c;虽然剪的比较少一些。因此&＃xff0c;YOLO的最好成绩是79.1。

利用自己修改的的RFSong&＃xff0c;则比较稳定的能达到79.5&＃xff0c;精度上也还是RFSong略高一点。

train from scratch对比&＃xff1a;

自己对YOLO适当删减通道后进行了从头训练&＃xff0c;最高只能达到50的AP&＃xff0c;感觉YOLO从头训难度比RFBNet大&＃xff0c;不是很方便自己设计&＃xff0c;可能得先去coco数据集或者其他检测数据集进行一些预训练。当然这个剪枝的思路也是非常好的&＃xff0c;非常感谢作者的开源。

RFSong还是train from scratch的&＃xff0c;因此进行修改设计非常的方便&＃xff0c;并且在这种比较小的数据集表现依旧很好&＃xff0c;就是训练的epoch数目多很多&＃xff0c;这里我训练了140个epoch&＃xff0c;花了三四个小时。

总结&＃xff1a;

YOLOv3效果不如修改的RFSongt好&＃xff0c;原因也可能是本身这个Pytorch的YOLO实现精度没有那么好&＃xff0c; kevinCK大佬说是没有达到指标。

KevinCK&＃xff1a;目标检测——YOLO V3简介及代码注释&＃xff08;附github代码——已跑通&＃xff09;zhuanlan.zhihu.com

不过综合来看&＃xff0c;RFBNet还是很优秀啊&＃xff01;&＃xff01;自己稍加修改的RFSong在其他数据集上表现也都非常好&＃xff0c;还是比较实用的。

本人水平较菜&＃xff0c;欢迎大家批评指正&＃xff0c;也非常欢迎进群一起交流&＃xff1a;云深不知处-目标检测 763679865&＃xff08;代码和模型权重都放在群文件了&＃xff09;

更新&＃xff1a;

对下面这个版本的yolov3源码进行了阅读&＃xff0c;发现这个源码实现不够完备&＃xff0c;不过非常简洁易懂&＃xff0c;适合学习&＃xff1a;

eriklindernoren/PyTorch-YOLOv3github.com

实验结果&＃xff08;开启多尺度&＃xff09;&＃xff1a;78.0

这个实现之所以没有达到非常好的表现&＃xff0c;可能有以下原因&＃xff1a;

数据增广太少&＃xff0c;不完整&＃xff0c;并且多尺度训练的尺度变化也较小一些(320-512)
学习率直接默认&＃xff0c;没有warm up和decay
loss的加权处理不符合&＃xff0c;有些甚至没有设置
anchor匹配策略&＃xff0c;这里对应每个yolo层都去匹配一个iou最大的

自己又采用了下面这个yolo实现&＃xff0c;这个实现效果更好&＃xff0c;推荐使用&＃xff1a;

https://github.com/ultralytics/yolov3github.com

实验结果&＃xff08;开启多尺度&＃xff09;&＃xff1a;81.5

ultralytics/yolov3实现更加完备一些&＃xff0c;效果也比之前的提高了3.5个点&＃xff0c;相比RFSong也高了两个点。这也更加符合一般认识&＃xff0c;小目标iou0.5下YOLO效果更好一些。

推荐阅读

go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
自动化部署服务——AWS CodeDeploy 快速入门

https:amazonaws-china.comcnblogschinagetting-started-with-codedeploy作为DevOps和微服务的深入践行者 ... [详细]

蜡笔小新 2024-09-30 20:35:57
go
以下内容|尾部_quarkus实战之一：准备工作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了quarkus实战之一：准备工作相关的知识，希望对你有一定的参考价值。欢迎访问我的GitHub ... [详细]

蜡笔小新 2024-09-30 16:17:04
controller
UILabel的混合显示动画效果

UILabel的混合显示动画效果 ... [详细]

蜡笔小新 2024-09-29 20:18:24
go
FluxCD、ArgoCD或Jenkins X，哪个才是适合你的GitOps工具？

GitOps是一种使用基于Git的工作流程来全面管理应用和基础设施的想法，其在最近获得了极大关注。新一代的部署工具更能说明这一点，它们将GitOps作为 ... [详细]

蜡笔小新 2024-09-29 19:04:37
go
docker是跨平台的?_跨平台构建 Docker 镜像新姿势，x86、arm 一把梭

点击阅读原文可以获得更好的阅读体验。前言在工作和生活中，我们可能经常需要将某个程序跑在不同的CPU架构上，比如让某些不可描述的软件运行在树莓派或嵌入 ... [详细]

蜡笔小新 2024-09-29 15:52:01
go
Shiro 简单了解

Shiro简单了解简单用过SpringSecurity安全框架后，再试试另一个安全框架——Shiro。1.Shiro简介ApacheShiro是一个强大且易用的Java安全框架：S ... [详细]

蜡笔小新 2024-09-29 15:14:16
go
NLP | 一文完全搞懂序列标注算法

序列标注模型用到了长短期记忆网络（LSTM），条件随机场（CRF），Highway网络，本文循序渐进的介绍了序列标注算法，Bepatience!跟 ... [详细]

蜡笔小新 2024-09-25 18:37:30
go
保姆级使用PyTorch训练与评估自己的HorNet网络教程

文章目录前言0.环境搭建&快速开始1.数据集制作1.1标签文件制作1.2数据集划分1.3数据集信息文件制作2.修改参数文件3.训练4.评估5.其他教程前言项目地址： ... [详细]

蜡笔小新 2024-09-25 16:40:17
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解

本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台，然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程，包括编译内核和配置设备驱动。最后，列举了关键词和相关信息供读者参考。 ... [详细]

蜡笔小新 2023-12-13 12:34:44
metadata
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
hook
42VERSE & 圆圈徽章，Web3 社交的流派之争——针对两个国内案例的调研

01 行业分析本文所研究的细分赛道为：Web3应用层——社交与内容场景——DID/创新场景（以元宇宙3D空间为 ... [详细]

蜡笔小新 2024-09-29 12:10:23
char
Linux网络编程：自己动手写高性能HTTP服务器框架（二）

github：https:github.comfroghuiyolandaIO模型和多线程模型实现多线程设计的几个考虑在我们的设计中，mainre ... [详细]

蜡笔小新 2024-09-29 11:22:09
string
在ROS中处理yaml文件

在ROS系统中，参数读写一般通过xml或者yaml格式的文件，其中yaml用得比较多。这是一种可读性高，轻量级的标记语言，简单好用。对于yaml文件，ros中用的较早版本的yaml- ... [详细]

蜡笔小新 2024-09-29 00:37:59

童T-Aurora

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章