面向新手的CNN入门指南（一）

作者：ya的sky | 来源：互联网 | 2023-10-12 20:34

https:www.cnblogs.comkongweisip10987870.htmlCNN（卷积神经网络）入门https:zhuanlan.zh

https://www.cnblogs.com/kongweisi/p/10987870.html

CNN&＃xff08;卷积神经网络&＃xff09;入门

https://zhuanlan.zhihu.com/p/37146355

作者&＃xff1a;Adit Deshpande

编译&＃xff1a;Bot

编者按&＃xff1a;最近小编在搜集CNN卷积计算方面的资料&＃xff0c;希望能出一份清晰明了的图文列表&＃xff0c;但即便是在CNN介绍已经泛滥的今天&＃xff0c;一篇好的、简单易懂的博客文章都是那么稀缺。今天&＃xff0c;小编就先编译加州大学洛杉矶分校学生Adit Deshpande的几篇入门文章&＃xff0c;希望能给新手读者带来帮助。

简介

单从字面上看&＃xff0c;卷积神经网络这个词听起来就像是生物学和数学的诡异组合&＃xff0c;里面可能还掺了一点计算机科学的意味&＃xff0c;但这种神经网络一直在为计算机视觉领域默默贡献着最具影响力的创新。2012年是神经网络蓬勃发展的第一年&＃xff0c;Alex Krizhevsky利用它们在当年的ImageNet竞赛中赢得了胜利&＃xff0c;把分类错误率从原来的26%降低到了15%&＃xff0c;这在当时简直是惊天之举。

从那之后&＃xff0c;许多公司开始把深度学习纳入自家的核心产品中&＃xff1a;Facebook把神经网络用于自动标记算法&＃xff0c;Google把神经网络用于图像搜索&＃xff0c;亚马逊把它们用于商品推荐&＃xff0c;Pinterest把它们用于主页的个性化&＃xff0c;而Instagram则开始用神经网络改进搜索架构。

而在这些神经网络中&＃xff0c;应用最为广泛的就是今天我们要聊的CNN。以图像处理为例&＃xff0c;我们来看看CNN是怎么帮助进行图像分类的。

输入和输出

图像分类指的是输入一张图像后&＃xff0c;神经网络输出一个关于这个图像的类&＃xff0c;或是图像属于某类的概率的任务。对人类而言&＃xff0c;这是我们从出生那一刻起就开始不断学习的技能之一&＃xff0c;而且随着年龄的增长&＃xff0c;人们处理这种任务会越来越轻松自然。

无需二次思考&＃xff0c;我们就能快速无缝识别身处的环境和周围的所有物体。当看到一幅图或是观察周围环境时&＃xff0c;我们几乎是下意识地调用以往学习的所有知识&＃xff0c;为场景中的各个对象一一打上标签。

但计算机不同。我们把图像输入计算机后&＃xff0c;它“看”到的其实是一组像素值。这些像素值的数量会随图像的大小和分辨率发生改变&＃xff0c;如果输入图像是一张JPG格式的彩色图像&＃xff0c;它的像素为480×480&＃xff0c;那么计算机得到的就是一个大小为480×480×3&＃xff08;这里3表示RGB值&＃xff09;的数组。

这个数组里的每一个值都介于0-225之间&＃xff0c;描述了对应像素的强度。虽然这些值对分类任务来说毫无意义&＃xff0c;但它们是计算机可以用的唯一输入。这就带出了另一个更直白的图像分类任务描述&＃xff1a;它其实是把像素值数组作为输入&＃xff0c;然后输出图像属于某一类的具体概率&＃xff0c;如80%&＃xff08;猫&＃xff09;、15%&＃xff08;狗&＃xff09;、5%&＃xff08;鸟&＃xff09;。

我们想让计算机做什么

知道了理想的输入和输出&＃xff0c;我们面临的下一个问题是如何让计算机解决这个任务。我们希望它能区分所有图像&＃xff0c;然后找出狗之所以是狗、猫之所以是猫的独特特征。这是人类的本能反应。当我们看到包含狗的图像时&＃xff0c;如果图像里出现了一些明确的识别特征&＃xff0c;如狗爪子和四条小短腿&＃xff0c;我们可以迅速将其归类。

同样的&＃xff0c;计算机分辨猫狗的做法是观察边缘、曲线等低层次特征&＃xff0c;然后把这些放进一系列卷积层中进一步提取更多抽象概念。当然&＃xff0c;这只是CNN进行图像分类的一般概述&＃xff0c;在下一节中我们会具体说明。

在开始正题前&＃xff0c;我们先来探讨一下“卷积神经网络”这个词。当你第一次接触这个术语时&＃xff0c;你会不会觉得这应该是神经科学或生物学方面的东西&＃xff1f;其实这种感觉是正确的&＃xff0c;CNN是生物学家对动物的视觉研究成果的一个衍生物。

视觉皮层中存在一块对视野特定区域尤为敏感的细胞。1962年&＃xff0c;Hubel和Wiesel对视觉神经细胞做了一个实验&＃xff0c;实验表结果明&＃xff0c;只有在存在特定方向边缘的情况下&＃xff0c;大脑中的一些神经细胞个体才会响应。他们发现所有这些神经细胞都位于一个柱状结构中&＃xff0c;而且能产生视觉感知。这种在特定任务的系统内部寻找特定组件的思想正是如今许多计算机任务的核心&＃xff0c;它也是CNN背后的基础。

让我们回到CNN&＃xff0c;简而言之&＃xff0c;它的一般流程就是&＃xff1a;输入图像——卷积层、非线性层、池化层&＃xff08;下采样&＃xff09;、完全连接层——输出分类/概率。那么这些层分别都做了什么呢&＃xff1f;

第一层 - 数学视角

CNN的第一层是一个卷积层。我会假装你还记得神经网络的输入和输出分别是什么&＃xff0c;所以在这里我们假设输入图像是一张像素为32×32的彩色JPG&＃xff0c;相应的&＃xff0c;CNN的输入就是一个32×32×3的像素值数组。那么作为第一层的卷积层究竟有什么用&＃xff1f;如下图所示&＃xff0c;我们可以把卷积层想象成一片区域&＃xff0c;上面一个发光的手电筒正在从左上角开始一块块检查所有区域。手电筒的光照范围是5×5。

在机器学习术语中&＃xff0c;这个手电筒是filter&＃xff08;神经元/卷积核&＃xff09;&＃xff0c;每次照亮的这块5×5的区域是receptive field&＃xff08;感受野&＃xff09;。filter也是一个数组&＃xff08;权重/参数&＃xff09;&＃xff0c;而且深度必须和输入图像深度一致&＃xff0c;这样才能确保计算。在我们的例子中&＃xff0c;filter的尺寸是5×5×3。

随着手电筒从左上角开始逐渐照亮周围区域&＃xff0c;图像正在卷积&＃xff0c;这时filter的数组会与原图像像素值数组相乘&＃xff08;计算点积&＃xff09;&＃xff0c;在上述示例中&＃xff0c;它需要进行75次乘法运算&＃xff0c;然后把这些乘积相加得到一个值。检查完第一块5×5后&＃xff0c;我们把手电筒往右挪一个像素继续计算点积&＃xff0c;之后继续往右挪一个像素&＃xff0c;以此类推。

已知原输入是32×32×3&＃xff0c;filter尺寸5×5×3&＃xff0c;当手电筒扫完整片区域后&＃xff0c;最后我们在隐藏层获得的是一个28×28×1的数组&＃xff08;窗口逐格挪动&＃xff0c;边界少2&＃xff1b;3个颜色通道合并成1个&＃xff09;。它也被称为activation map&＃xff08;加激活函数&＃xff09;或feature map。

注&＃xff1a;如果这里我们用了两个5×5×3的filter&＃xff0c;那最后的映射结果会是28×28×2。filter越多&＃xff0c;空间维度保留得越好。

第一层 - 高层次的视角

知道了具体的数学计算步骤后&＃xff0c;我们似乎还是不清楚卷积层的作用&＃xff0c;所以这里我们从高层次的视角再看一遍。

每个filter都可以被看作是特征标识符&＃xff08; feature identifiers&＃xff09;&＃xff0c;这里的特征指的是直线边缘、曲线、黑白等&＃xff0c;它们是每个图像的都具备的最简单的特征。假设我们有一个7×7×3的能检测曲线的filter&＃xff0c;它会给带有曲线像素结构的区域更高数值。&＃xff08;请忽略filter的深度&＃xff0c;只把它看成一个数组&＃xff09;

上图就是这个filter的可视化&＃xff0c;它在曲线区域赋予了更高的权重&＃xff0c;因此当图像感受野和它相乘时&＃xff0c;相应区域的值会很高。

假设输入图像是一只小老鼠的简笔画。当filter从左上角开始卷积时&＃xff0c;窗口先接触到老鼠尾部。请记住一点&＃xff0c;我们必须计算filter与图像原始像素数组和乘积。

这个圆润的曲线和filter的理想曲线形状相似&＃xff0c;相乘后&＃xff0c;它们产生了一个很大的值。

但是&＃xff0c;如果这时我们把窗口移到老鼠头部&＃xff0c;输出结果就很差了。我们要注意一点&＃xff0c;就是filter的输出是个activation map&＃xff08;必定要ReLu一下&＃xff09;&＃xff0c;所以在这个只包含一个filter的简单示例中&＃xff0c;第一个卷积层在图像左上角的区域得到了高值&＃xff0c;而对右上角不会有激活反应。这就起到了“过滤”的效果。

当然这只是一个filter&＃xff0c;一个只能分辨向左凸出的曲线的filter&＃xff0c;在真实实践中&＃xff0c;我们可以设置大量不同的filter来获得更全面的activation map&＃xff0c;如检测直线的、色彩的。

注&＃xff1a;这里的曲线、直线、色彩都是假设&＃xff0c;事实上我们并不清楚CNN捕捉的特征是什么&＃xff0c;我们只能从数据中看出它有没有得到新特征&＃xff0c;切勿认为计算机看到的就等同于人眼看到的。

越来越深的网络

现在在一些经典CNN架构中&＃xff0c;卷积层之间偶尔也会出现一些其他层&＃xff0c;感兴趣的读者可以去了解一下这些层分别是什么&＃xff0c;或者分别有什么作用&＃xff0c;但总的来说&＃xff0c;它们的出现都是为了增强神经网络的稳定性并控制过拟合。从某种角度上说&＃xff0c;CNN一般长这样&＃xff1a;

常规的CNN包含两个卷积层就够了&＃xff0c;一些更高级的可能会存在多个卷积层的情况。就上图而言&＃xff0c;最后一个完全连接层是非常重要的&＃xff0c;但我们把它放到下一节再介绍&＃xff0c;先聊聊之前的各个步骤。把图像输入神经网络后&＃xff0c;第一个卷积层输出的是activation map&＃xff0c;这时网络提取到了图像中的一些低层次特征&＃xff0c;就像人类眼中的边缘和曲线。

用ReLu激活后&＃xff0c;CNN把activation map输入第二个卷积层&＃xff0c;在这里&＃xff0c;filter过滤的就是activation map中的特征&＃xff0c;这是一个从低层次特征中提取高层次特征的过程&＃xff0c;虽然我们不知道计算机看到了什么&＃xff0c;但如果拿人类学习来类比&＃xff0c;这一步可以被理解为从之前看到的边缘、曲线中找出能组成半圆、正方形的线条组合。

卷积层越多&＃xff0c;我们能提取到的高层次特征就越多&＃xff0c;神经网络对像素空间就越敏感。反过来看&＃xff0c;这时网络复杂度也高了&＃xff0c;容易产生过拟合。

全连接层

有了高层次特征&＃xff0c;现在我们就能品尝CNN的精华——全连接层了。无论之前是卷积层的输出还是ReLu、池化层的输出&＃xff0c;全连接层基本只接受一个输入&＃xff0c;并输出一个N维向量&＃xff0c;其中N是必须从中选择的分类数。如果你想要分类手写数字&＃xff0c;这时N就是10&＃xff0c;因为有10个数字。

这个N维向量中的每个数字代表属于某个类别的概率。例如&＃xff0c;如果全连接层的输出是[0 .1 .1 .75 0 0 0 0 .05]&＃xff0c;那么图像是1的概率就是10&＃xff05;&＃xff0c;是2概率是10&＃xff05;&＃xff0c;是3的概率是75&＃xff05;&＃xff0c;是9的概率则是5&＃xff05;&＃xff08;注意&＃xff1a;还有其他方法可以表示输出&＃xff0c;这里只展示softmax方法&＃xff09;。

简而言之&＃xff0c;全连接层的作用就是观察前一层的输出&＃xff08;一般是包含高层次特征的activation map&＃xff09;&＃xff0c;然后确定哪些特征与特定类最相关。以人类类比&＃xff0c;如果要辨别图像里的是不是狗&＃xff0c;我们会注意里面有没有爪子、四肢&＃xff1b;如果要辨别是不是鸟&＃xff0c;翅膀和喙就特别重要。全连接层会赋予这些相关性更强的特征更多权重&＃xff0c;以便当我们计算权重和上一层之间的乘积时&＃xff0c;我们可以得到图像属于不同类别的正确概率。

训练

最后就到了CNN最重要的部分——训练了。在阅读前文时&＃xff0c;我们可能有诸多疑惑&＃xff1a;filter是怎么知道自己要找哪些低层次特征的&＃xff1f;全连接层又是怎么筛选activation map的&＃xff1f;计算机能自动选取filter中的权重吗&＃xff1f;很显然&＃xff0c;这一切都是由经典的反向传播来实现的。

在我们刚出生的时候&＃xff0c;一切都是新的&＃xff0c;我们不知道什么是狗&＃xff0c;也不知道什么是鸟。同样的&＃xff0c;当一个CNN被刚写出来的时候&＃xff0c;它的世界也才刚起步&＃xff0c;所有数值都是随机选取的&＃xff0c;filter不知道自己要筛选什么特征&＃xff0c;全连接层也无法在activation map里放大有效信息。而随着年龄的增长&＃xff0c;我们的父母和老师逐渐向我们展示了这个多彩的世界&＃xff0c;以及和它紧密相关的诸多标签。训练就是CNN学习的过程&＃xff0c;通过查看数据集中成千上万的图片&＃xff0c;神经网络也能慢慢从中捕捉到特征&＃xff0c;并学会正确分类。

反向传播由4个不同步骤组成&＃xff1a;正向传递、损失函数、反向传递和权重更新。

正向传递时&＃xff0c;我们输入一张图像&＃xff0c;一个尺寸为32×32×3的像素值数组&＃xff0c;然后将其传递给整个网络。在我们的第一个训练示例中&＃xff0c;由于所有权重/filter值都是随机初始化的&＃xff0c;因此输出结果可能类似[.1 .1 .1 .1 .1 .1 .1 .1 .1]&＃xff0c;它在分类上“不偏不倚”。

损失函数开启了“反向”的第一步。当网络现有权重无法提取低层次特征时&＃xff0c;这就意味着它没法得出合理的分类结果。但是记住一点&＃xff0c;我们用的是训练数据&＃xff0c;它包含图像和标签两种信息&＃xff0c;这就意味着我们能用损失函数计算预测标签和真实标签的差异&＃xff0c;差异越小&＃xff0c;CNN预测正确的可能性就越大&＃xff0c;性能也越好。损失函数有很多&＃xff0c;其中最常用的MSE&＃xff08;均方误差&＃xff09;&＃xff1a;

既然目的是把损失值降到最低&＃xff0c;那这就成了一个优化问题——找出对输出影响最大的输入&＃xff0c;也就是dL / dW&＃xff0c;其中W是特定层的权重。

现在&＃xff0c;我们要做的是通过网络进行反向传递&＃xff0c;确定哪些权重对损失影响最大&＃xff0c;并找到调整它们的方法从而减少损失。一旦我们计算出这个导数&＃xff0c;我们就会进入最后一步&＃xff0c;权重更新。

学习率&＃xff08;learning rate&＃xff09;是一个可以自定义调整的超参数&＃xff0c;它影响着着CNN的收敛速度。如果学习率过大&＃xff0c;权重更新的幅度就很大&＃xff0c;这时CNN能快速收敛&＃xff0c;但它也带来一个问题&＃xff0c;就是权重的精度不够&＃xff0c;无法得出最优解。

正向传递、损失函数、反向传递和权重更新的过程构成一轮训练迭代。CNN会对参与训练的每组图像&＃xff08;batch&＃xff09;进行进行固定次数的迭代。一旦你完成了最后一个训练样本的参数更新&＃xff0c;这时网络的性能更好了&＃xff0c;各层的权值也终于调整正确了。

下期预告

本文介绍了CNN的一些基础知识&＃xff0c;包括filter的作用、各层的作用等&＃xff0c;但还未介绍网络架构、批量归一化、损失函数选择、数据增强、正则化方法等内容。新人可以依靠本文对CNN建立初步认识&＃xff0c;部分重要内容我们会在下一篇文章中详谈。

原文地址&＃xff1a;adeshpande3.github.io/adeshpande3.github.io/A-Beginner’s-Guide-To-Understanding-Convolutional-Neural-Networks/

译文地址&＃xff1a;

推荐阅读

version
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15
ip
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
input
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
function
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
text
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
version
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
ip
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
ip
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
dll
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
数组
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
数组
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
数组
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
object
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
ip
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
ip
深入解析HTML中的标签及其应用场景

本文详细介绍了HTML中标签的使用方法和作用。通过具体示例，解释了如何利用标签为网页中的缩写和简称提供完整解释，并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]

蜡笔小新 2024-12-27 17:05:37

ya的sky

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章