当前位置: 开发笔记 > 编程语言 > 正文

Paddle带你零基础入门深度学习(二)

作者：golanger | 来源：互联网 | 2023-05-18 00:38

Paddle带你零基础入门深度学习（二）一、卷积神经网络1.卷积（Convolution）2.感受野3.批归一化（BatchNormalization）二、图像分类1.LeNet2

Paddle带你零基础入门深度学习（二）

一、卷积神经网络

1.卷积（Convolution）
2.感受野
3.批归一化（Batch Normalization）

二、图像分类

1.LeNet
2.AlexNet
3.VGG
4.ResNet

一、卷积神经网络

卷积神经网络是目前计算机视觉中使用最普遍的模型结构。下面主要介绍卷积神经网络的一些基础模块，包括：

卷积（Convolution）
池化（Pooling）
ReLU**函数
批归一化（Batch Normalization）
丢弃法（Dropout）

1.卷积（Convolution）

卷积计算
卷积是数学分析中的一种积分变换的方法，在图像处理中采用的是卷积的离散形式。这里需要说明的是，在卷积神经网络中，卷积层的实现方式实际上是数学中定义的互相关（cross-correlation）运算，与数学分析中的卷积定义有所不同，这里跟其他框架和卷积神经网络的教程保持一致，都使用互相关运算作为卷积的定义，具体的计算过程如下图所示。

Paddle带你零基础入门深度学习(二)

2.感受野

输出特征图上每个点的数值，是由输入图片上大小为h×w的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上h×w区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如3×3卷积对应的感受野大小就是3×3。

3.批归一化（Batch Normalization）

批归一化方法（Batch Normalization，BatchNorm）是由Ioffe和Szegedy于2015年提出的，已被广泛应用在深度学习中，其目的是对神经网络中间层的输出进行标准化处理，使得中间层的输出更加稳定。

通常我们会对神经网络的数据进行标准化处理，处理后的样本数据集满足均值为0，方差为1的统计分布，这是因为当输入数据的分布比较固定时，有利于算法的稳定和收敛。对于深度神经网络来说，由于参数是不断更新的，即使输入数据已经做过标准化处理，但是对于比较靠后的那些层，其接收到的输入仍然是剧烈变化的，通常会导致数值不稳定，模型很难收敛。BatchNorm能够使神经网络中间层的输出变得更加稳定，并有如下三个优点：

使学习快速进行（能够使用较大的学习率）
降低模型对初始值的敏感性
从一定程度上抑制过拟合

BatchNorm主要思路是在训练时按mini-batch为单位，对神经元的数值进行归一化，使数据的分布满足均值为0，方差为1。具体计算过程如下：
Paddle带你零基础入门深度学习(二)

二、图像分类

图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉的核心，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用，如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。

1.LeNet

LeNet是最早的卷积神经网络之一[1]。1998年，Yan LeCun第一次将LeNet卷积神经网络应用到图像分类上，在手写数字识别任务中取得了巨大成功。LeNet通过连续使用卷积和池化层的组合提取图像特征，其架构如下图所示，这里展示的是作者论文中的LeNet-5模型：
Paddle带你零基础入门深度学习(二)
第一模块：包含5×5的6通道卷积和2×2的池化。卷积提取图像中包含的特征模式（**函数使用sigmoid），图像尺寸从32减小到28。经过池化层可以降低输出特征图对空间位置的敏感性，图像尺寸减到14。

第二模块：和第一模块尺寸相同，通道数由6增加为16。卷积操作使图像尺寸减小到10，经过池化后变成5。

第三模块：包含5×5的120通道卷积。卷积之后的图像尺寸减小到1，但是通道数增加为120。将经过第3次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是64，第二个全连接层的输出神经元个数是分类标签的类别数，对于手写数字识别其大小是10。然后使用Softmax**函数即可计算出每个类别的预测概率。

2.AlexNet

随着技术的进步和发展，计算机的算力越来越强大，尤其是在GPU并行计算能力的推动下，复杂神经网络的计算也变得更加容易实施。另一方面，互联网上涌现出越来越多的数据，极大的丰富了数据库。同时也有越来越多的研究人员开始专门针对神经网络做算法和模型的优化，Alex Krizhevsky等人提出的AlexNet以很大优势获得了2012年ImageNet比赛的冠军。这一成果极大的激发了产业界对神经网络的兴趣，开创了使用深度神经网络解决图像问题的途径，随后也在这一领域涌现出越来越多的优秀成果。

AlexNet与LeNet相比，具有更深的网络结构，包含5层卷积和3层全连接，同时使用了如下三种方法改进模型的训练过程：

数据增广：深度学习中常用的一种处理方式，通过对训练随机加一些变化，比如平移、缩放、裁剪、旋转、翻转或者增减亮度等，产生一系列跟原始图片相似但又不完全相同的样本，从而扩大训练数据集。通过这种方式，可以随机改变训练样本，避免模型过度依赖于某些属性，能从一定程度上抑制过拟合。

使用Dropout抑制过拟合

使用ReLU**函数减少梯度消失现象

Paddle带你零基础入门深度学习(二)

3.VGG

VGG模型因为结构简单、应用性极强而广受研究者欢迎，尤其是它的网络结构设计方法，为构建深度神经网络提供了方向。下图是VGG-16的网络结构示意图，有13层卷积和3层全连接层。VGG网络的设计严格使用3×33\times 33×3的卷积层和池化层来提取特征，并在网络的最后面使用三层全连接层，将最后一层全连接层的输出作为分类的预测。在VGG中每层卷积将使用ReLU作为**函数，在全连接层之后添加dropout来抑制过拟合。使用小的卷积核能够有效地减少参数的个数，使得训练和测试变得更加有效。比如使用两层3×33\times 33×3卷积层，可以得到感受野为5的特征图，而比使用5×55 \times 55×5的卷积层需要更少的参数。由于卷积核比较小，可以堆叠更多的卷积层，加深网络的深度，这对于图像分类任务来说是有利的。VGG模型的成功证明了增加网络的深度，可以更好的学习图像中的特征模式。
Paddle带你零基础入门深度学习(二)

4.ResNet

ResNet是2015年ImageNet比赛的冠军，将识别错误率降低到了3.6%，这个结果甚至超出了正常人眼识别的精度。

通过前面几个经典模型学习，我们可以发现随着深度学习的不断发展，模型的层数越来越多，网络结构也越来越复杂。那么是否加深网络结构，就一定会得到更好的效果呢？从理论上来说，假设新增加的层都是恒等映射，只要原有的层学出跟原模型一样的参数，那么深模型结构就能达到原模型结构的效果。换句话说，原模型的解只是新模型的解的子空间，在新模型解的空间里应该能找到比原模型解对应的子空间更好的结果。但是实践表明，增加网络的层数之后，训练误差往往不降反升。

Kaiming He等人提出了残差网络ResNet来解决上述问题，其基本思想如图6所示。

下图(a)：表示增加网络的时候，将x映射成y=F(x)输出。
下图(b)：对图6(a)作了改进，输出y=F(x)+x。这时不是直接学习输出特征y的表示，而是学习y−x。
如果想学习出原模型的表示，只需将F(x)的参数全部设置为0，则y=x是恒等映射。
F(x)=y−x也叫做残差项，如果x→y的映射接近恒等映射，下图(b)中通过学习残差项也比下图(a)学习完整映射形式更加容易。
Paddle带你零基础入门深度学习(二)
下图表示出了ResNet-50的结构，一共包含49层卷积和1层全连接，所以被称为ResNet-50。

参考:百度架构师手把手带你零基础实践深度学习课程

推荐阅读

format
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
io
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
io
掌握PHP框架开发与应用的核心知识点：构建高效PHP框架所需的技术与能力综述

掌握PHP框架开发与应用的核心知识点对于构建高效PHP框架至关重要。本文综述了开发PHP框架所需的关键技术和能力，包括但不限于对PHP语言的深入理解、设计模式的应用、数据库操作、安全性措施以及性能优化等方面。对于初学者而言，熟悉主流框架如Laravel、Symfony等的实际应用场景，有助于更好地理解和掌握自定义框架开发的精髓。 ... [详细]

蜡笔小新 2024-10-31 14:51:01
hook
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
io
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
io
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
io
MVVM架构~mvc,mvp,mvvm大话开篇

返回目录百度百科的定义：MVP是从经典的模式MVC演变而来，它们的基本思想有相通的地方：ControllerPresenter负责逻辑的处理，Model提供数据，View负责显示。作为一种新的模 ... [详细]

蜡笔小新 2024-10-30 09:25:56
io
SpringBoot启动脚本详解：BAT文件应用与基础入门指南（SpringBoot系列第1篇）

如果你还在为SSM框架的复杂搭建过程和繁琐的配置文件而烦恼，那么SpringBoot将是你的一大福音。作为SpringBoot系列的第一篇文章，本文详细介绍了如何使用BAT文件来启动SpringBoot应用，并提供了基础入门指南，帮助开发者快速上手，简化开发流程。 ... [详细]

蜡笔小新 2024-10-28 18:48:35
process
【高效构建全面的iOS直播应用】（美颜功能深度解析）

本文深入探讨了如何高效构建全面的iOS直播应用，特别聚焦于美颜功能的技术实现。通过详细解析美颜算法和优化策略，帮助开发者快速掌握关键技术和实现方法，提升用户体验。适合对直播应用开发感兴趣的开发者阅读。 ... [详细]

蜡笔小新 2024-10-24 13:52:42
process
深度森林算法解析：特征选择与确定能力分析

本文深入探讨了深度森林算法在特征选择与确定方面的能力。提出了一种名为EncoderForest（简称eForest）的创新方法，作为首个基于决策树的编码器模型，它在处理高维数据时展现出卓越的性能，为特征选择提供了新的视角和工具。 ... [详细]

蜡笔小新 2024-10-29 18:09:45
usb
不要急着丢弃旧手机：轻松改装成高效PC游戏性能监控工具

对于许多PC玩家来说，实时监控游戏过程中的硬件状态是一项常见需求，例如关注游戏帧率、CPU和GPU频率以及温度等关键指标。通常情况下，玩家会借助第三方软件将这些数据展示在屏幕的一角。然而，一种更为创新的方法是利用旧手机改装成高效的性能监控工具，不仅节省成本，还能提供更加便捷和直观的监控体验。通过简单的设置和应用程序安装，旧手机可以变成一个专门的硬件监控设备，实时显示各种重要信息，帮助玩家更好地优化游戏性能。 ... [详细]

蜡笔小新 2024-10-29 16:42:03
io
NVIDIA新一代Ampere架构详解：革新与优化并存的显卡技术飞跃

NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破，不仅在性能上实现了显著提升，还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进，为用户带来更加流畅的图形处理体验，同时降低了功耗，提升了计算效率。 ... [详细]

蜡笔小新 2024-10-29 14:10:54
sum
自回归与非自回归模型如何融合？预训练模型BANG提供可能解决方案

近年来，预训练技术的快速发展显著提升了自然语言生成的性能。然而，自回归模型和非自回归模型在生成质量和效率上各有优劣。微软研究院提出了一种新的预训练模型BANG，通过巧妙地结合两者的优点，提供了一种有效的解决方案。该模型不仅在生成质量上表现出色，还在推理速度上实现了显著提升，为自然语言生成任务带来了新的可能性。 ... [详细]

蜡笔小新 2024-10-27 15:09:41
client
Kali Linux 渗透测试实战指南：第24章客户端安全威胁分析与防御策略

客户端安全威胁分析与防御策略主要探讨了终端设备（如计算机、平板电脑和移动设备）在使用互联网时可能面临的各种安全威胁。本章详细介绍了这些设备如何作为信息和服务的提供者或接收者，以及它们在与服务器等其他系统交互过程中可能遇到的安全风险，并提出了有效的防御措施。 ... [详细]

蜡笔小新 2024-10-27 10:18:04

golanger

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章