分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

作者：張張186coolgirl | 来源：互联网 | 2023-10-15 19:37

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害

1.1 赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害虫对农田的生产危害有重要意义。常见农田害虫共有 138 种，天敌昆虫则为 40 种。病虫害是农业生产中的“灰犀牛”，如果不能及时地控制病虫害问题，会导致农作物减产歉收。

如何去控制病虫害，从而提高农作物的收成是一项很重要的任务，其中最重要的一环是准确检测病虫害。在传统方式已经无法满足规模日益增大的农业需求之后，虫情检测灯的出现让无人监管的病虫害检测成为了可能。虫情检测灯能实现自动诱集、杀虫、虫体分散、拍照以及上传数据等作业过程，可以帮助植保人员更快、更准确地分析虫情，从而减少农产品农药残留，改善农田环境。虫情检测灯的效果依赖于目标检测算法，采用高效的目标检测算法可以提高效率和精度且降低成本，为此，国内外专家做了大量的研究，其中深度学习成为了目标检测算法的热点。

复杂的网络结构和庞大的数据样本是深度学习的最大特点，自从深度学习横空出世，图像识别获得了跨越性的进展。

1.2 问题重述

问题一要求我们结合附件 1 中由虫情探测灯采集的图像文件以及附件 2 中部分已识别图像的信息，建立一个识别率高、速度快、分类准确的模型和算法，确认害虫的位置及种类。问题二要求我们将模型应用于现实，对附件 3 进行图像识别作业并将识别结果放在“result2.csv”中。问题三要求我们将识别结果进一步分类统计，得出附件 3 中各类害虫的数量并将统计结果放在“result3.csv”中。

1.3 文献综述 You Only Look Once (YOLO) 是一种能够实时处理对象的检测算法。它是一种 Onestage 的目标检测算法，因为它建议使用端到端的神经网络，可以同时预测边界框和类别概率。因此，YOLO 比之前的两阶段模型（R-CNN、Fast R-CNN、Faster R-CNN）具有更好的推理速度。YOLO 的结构很简单，它可以通过神经网络直接输出限定框的位置与类别。另外，YOLO 的速度更快，因为 YOLO 只需要将图像放到网络即可得到最终的检测结果，因此 YOLO 也可以实现对一段视频进行检测。YOLO 直接使用整张图片进行检测，可以对全局信息进行编码，因而可以减少因背景造成的误差。YOLO 可以将高度广义的特征转化到其他领域，同时它可以将目标检测问题转化为回归问题，但是回归的精度有待提高。

随着 YOLOv5 的引入，YOLO 系列模型达到了一个前所未有的高度，其推理速度做到了当世最强，而且 Yolov5 的模型大小只有轻量级，它的 Backbone 阶段采用了 Focus 和 CSPDarknet53 结构，Focus 结构其中比较关键的部分是切片操作，CSP 结构先将基础层的特征映射后划分为 2 个部分，然后通过跨阶段层次结构将它们合并，解决了梯度信息重复问题，得到更多的正样本锚，在减少了计算量的同时也可以保证准确率。并且使用了路径聚合网络和空间金字塔池化作为 Neck 结构，PANet 基于 Mask Ｒ-CNN 和 FPN 框架，同时增强了信息的流动，该网络的特征提取器采取了一种自下向上路径的改进的 FPN 网络结构，改善了低层特征的传播。Neck 结构主要是生成特征金字塔，该结构可以产生不同固定尺寸的池化特征向量，同时强化了特征的表达能力，对于同一物体在不同尺寸的检测有很好的作用。最后经过 YOLO 通用预测层，该层主要用 Head 模型预测最终结果，在格网中根据特征标记锚定框，通过损失计算得出目标类的概率和边框最终位置。YOLOv5 在输出端使用 GIOU Loss 作为边界框的损失函数，因此边框有很快很好的收敛效果。

YOLOv5 共有 s、m、l、x4 种模型，4 种模型具有相同的网络结构，调整 2 个参数来改变模型的深度和宽度。相比 YOLOv5s 模型的深度最浅，YOLOv5x 模型的 Neck 数量最多，是 s 模型的 4 倍。YOLOv5s 模型的宽度最窄，因此卷积核的数量减半，YOLOv5x 模型的卷积核的数量最多，通道层的数量是 s 模型的 2．5 倍。YOLOv5l 模型的宽度和深度都是初始值。在相同数据集的情况下，YOLOv5s 模型的训练和推理性能最佳，体量最小，但是 YOLOv5x 模型的平均精度均值最佳。

二、数据探索

2.1 类别不平衡的问题在提供的正式数据中，共计 3015 张图片，其中 2213 张图片已经给出了标注样例，剩余 802 张图片作为测试集，训练集中共出现 28 种昆虫，使用 SPSSSPRO 平台对所有给出标注结果的图片统计分析，发现严重存在类别不平衡问题，如图 3所示，出现最多的昆虫是共出现 247 次的八点灰灯蛾，而出现最少的昆虫类别，例如豆野螟只出现一次，干纹冬夜蛾只出现一次，水螟蛾只出现三次。经过统计，共有 17 种昆虫给出的标注次数少于 20 次。与此同时，其中 1637 张图片被官方判定为无需标注，即正式数据标注了这些图片，却没有标注任何昆虫。在 2213 张给出标注的图片中有 1637 张为负样本，这对模型的训练不利，大大减少了能从正式数据中能够获得的信息。

2.2 数据标注质量问题

通过 python 调用 opencv 库，我们对所给出的标注图片中昆虫的具体图像做了分离，可以发现给出的标注图像中，很多图片标注中出现了标注不准确的问题，如图 4中中一只翅膀分别被标记为了稻螟蛉和紫条尺蛾，而图 5中对于草地螟所有通过标记给出的五张图片中，只有一张能够完整的表示出草地螟的完整生物学特征。

样本是模型训练的基石，倘若没有良好的、大量的数据集做支撑，再好的模型也难以训练出表现优良的模型。

2.3 样本标注不清晰通过对给出的图片的标注区域可视化，可以发现所提供训练数据集本身对于某些昆虫标注存在标准不明确、不完全的问题，比如大黑鳃金龟在一些图片中，训练集中标出了大黑鳃金龟，而在别的图片中反而没有标注。在一些图片中有多只大黑鳃金龟，但是却没有标注完全，只标注了某一只。原数据集给出的大黑鳃金龟样例图如图 6

未标出的大黑鳃金龟和甘蓝夜蛾图（均见于左上角），如图 7。对于这样模棱两可的训练集，难以分辨清楚哪些昆虫需要标注，哪些昆虫不需要标注。急需人工的加以干预，对数据集处以再处理。

推荐阅读

python
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
python
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
rsa
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
rsa
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
python
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
php
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
php
《计算机视觉：算法与应用》第二版初稿上线，全面更新迎接未来

经典计算机视觉教材《计算机视觉：算法与应用》迎来了其第二版，现已开放初稿下载。本书由Facebook研究科学家Richard Szeliski撰写，自2010年首版以来，一直是该领域的标准参考书。 ... [详细]

蜡笔小新 2024-11-30 20:56:47
php
深入解析：Android 视频处理开源框架

本文将详细介绍多个流行的 Android 视频处理开源框架，包括 ijkplayer、FFmpeg、Vitamio、ExoPlayer 等。每个框架都有其独特的优势和应用场景，帮助开发者更高效地进行视频处理和播放。 ... [详细]

蜡笔小新 2024-12-21 19:49:35
format
Python面试题精粹

本文档汇总了Python编程的基础与高级面试题目，涵盖语言特性、数据结构、算法以及Web开发等多个方面，旨在帮助开发者全面掌握Python核心知识。 ... [详细]

蜡笔小新 2024-12-19 20:26:25
format
全面功能测试要点概览

本文详细列举了软件开发中常见的功能测试要点，涵盖输入框、搜索、添加/修改、删除、文件上传下载等多个方面，旨在帮助测试人员全面覆盖测试需求，确保软件质量。 ... [详细]

蜡笔小新 2024-12-17 13:52:23
hash
可能存在无限递归_递归算法看这一篇就够了|多图

前言递归是一种非常重要的算法思想，无论你是前端开发，还是后端开发，都需要掌握它。在日常工作中，统计文件夹大小， ... [详细]

蜡笔小新 2024-12-13 10:24:12
hash
浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录

近日，国际权威AI基准测试平台MLPerf发布了最新的推理测试结果，浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录，显著提升了数据中心AI推理性能。 ... [详细]

蜡笔小新 2024-12-12 13:57:17
数组
强人工智能时代，区块链的角色与前景

随着强人工智能的崛起，区块链技术在新的技术生态中扮演着怎样的角色？本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]

蜡笔小新 2024-12-07 14:46:21
python
如何用GPU服务器运行Python

如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ... [详细]

蜡笔小新 2024-12-06 11:54:09
python
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15

張張186coolgirl

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章