卷积神经网络（4）目标检测

作者：chnger | 来源：互联网 | 2023-10-11 12:16

简单来说，分类、定位和检测的区别如下：

分类：是什么？
定位：在哪里？是什么？（单个目标）
检测：在哪里？分别是什么？（多个目标）


(1)目标分类	(2)目标定位	(3)目标检测

二、目标定位：

1）案例1：在构建自动驾驶时，需要定位出照片中的行人、汽车、摩托车和背景，即四个类别。

输出：

卷积神经网络（4）----目标检测

1，2，3为要检测的行人、汽车、摩托车， Pc=1

4为背景， Pc=0

Pc：首先第一个元素p_c=1表示有要定位的物体的概率，即是有1，2，3类的概率，否则p_c=0表示只有背景第4类如上图的第二个图。

bx，by,bh，bw：这四个输出元素表示定位框的中心坐标bx，by和宽高bh，bw

c1,c2,c3：3个输出元素one-hot表示是三个类别（1，2，3）中的哪一类。

当第一个元素p_c=0时表示是背景，然后就不需要考虑其他输出了

损失函数：

输出向量中有8个元素：故：

if y1 =1 ，L = （y'₁-y₁)² + (y'₂-y₂)² + ……+（y'₈-y₈)²

if y1 = 0，L = （y'₁-y₁)²

实际使用中p_c使用逻辑回归，c₁,c₂,c₃是用softmax激活然后用对数损失函数，位置信息是使用平方误差损失函数，然后将这些损失函数相加起来得到最终的代价函数。当标签y=0时，只考虑p_c即可。

三、特征点检测：

特征点检测就是第一个单元输出1，表示有这个对象（如人脸），

然后如果在人脸上定义了64个特征点（如下图所示），每个特征点用（x,y）表示，那么网络将会有1+2*68=129个单元输出。

需要注意的一点是在标注样本时，所有标签在所有图片中务必保持一致，比如说，第5个特征点表示左眼的外眼角，那么所有图片的第五个特征点都应该是这个。

卷积神经网络（4）----目标检测

四、目标检测：滑动窗口、YOLO算法【更好解决边界】

https://www.cnblogs.com/ys99/p/9326637.html

传统的窗口滑动：将图片切割成很多小窗口，然后进行目标检测。直到某个小窗口检测到目标。

卷积的滑动窗口实现：在原输入补上边，在进行卷积操作，得到结果。

例如：

原输入是14*14*3，输出是1*1*4【4个分类】。传统的滑动窗口是将原输入切成4个，每个大小为12*12*3。经过重复4次卷积操作得到4个1*1*4。

卷积的滑动窗口：将原输入补成16*16*3，输出为2*2*4。只需要经过一次卷积操作就可以得到和4个1*1*4相同的结果2*2*4=2*2*（1*1*4）。

交并比函数是用来判断对象定位是否准确，IoU=（A∩B）/（A∪B），一般将交并比的值大于0.5看成是检测正确的，当然这个值可以根据实际情况来定。

推荐阅读

jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
callback
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
callback
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
case
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
instance
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
instance
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
import
探讨Java中将图像对象转换为文件和字节数组的方法

本文详细探讨了在Java中如何将图像对象转换为文件和字节数组（Byte[]）的技术。虽然网络上存在大量相关资料，但实际操作时仍需注意细节。本文通过使用JMSL 4.0库中的图表对象作为示例，提供了一种实用的方法。 ... [详细]

蜡笔小新 2024-11-21 21:42:59
request
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
import
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
format
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
format
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
usb
汽车电子架构与CAN网络基础解析——鉴源实验室专业解读

汽车电子架构与CAN网络基础解析——鉴源实验室专业解读 ... [详细]

蜡笔小新 2024-11-06 14:10:48
usb
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
import
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
import
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48

chnger

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章