浅谈卷积神经网络CNN

作者：怕疼不怕死 | 来源：互联网 | 2023-08-24 15:37

前言：鉴于这是本人的第一篇深度学习博客（之前写过几篇C++和RCNN的，不过比较水，自认干货不多），就想唠叨几句，看客老爷如果不喜欢，可直接跳过看正文哈。写这篇的时候，本人马上要硕

前言：

鉴于这是本人的第一篇深度学习博客（之前写过几篇C++和RCNN的，不过比较水，自认干货不多），就想唠叨几句，看客老爷如果不喜欢，可直接跳过看正文哈。写这篇的时候，本人马上要硕士毕业了，学了将近2年半的深度学习（图像描述和生成方向），想着在毕业之前，对所学的相关知识做个总结，也为后续的工作做个预热（在菊厂做人工智能工程师），所以就想做个系列，既是为自己，也想给大家分享一下我在这方面的一些看法和感悟。当然本人也不是什么AI大牛，对知识以及相关概念的理解难免会有偏差，如果小伙伴们发现了，可以及时评论或者私信我，我会在第一时间纠正。每篇的最后我也会把相关参考文献和本人的公众号放上去，如果感兴趣的话也欢迎大家与我交流学习。

正文：

其实说到卷积神经网络，大家都不陌生，从2012年深度学习的崛起，大家或许第一个知道的就是CNN，其实卷积神经网络的概念早在上世纪八九十年代就提出来了，经过二十多年的发展，随着计算机算力的巨大提升，直至2012年在Imagene上面的惊人的准确率（top-5:15.3%），这才使得人们看到CNN的巨大价值。那么为什么CNN就可以取得这么好的效果呢？这还得从过去人们对图像的处理手段说起。其实学图像处理专业的学生都知道过去有一门必修的课程就是冈萨雷斯的《数字图像处理》（还有幸听过他的讲座），厚厚的一本绿皮书，其实在这本书里面对图像的处理更多的是数学上的计算与统计。你看SIFT，HOG，LBP等这些特征都是有其数学变换的意义在里面，其背后就是抓住了图像空间特征的特点：局部信息，所以传统图像处理方法可解释性很好，因为数学公式是所有人都能看懂并信服的。但是它有一些很大的缺点就是麻烦，门槛高，依赖个人的主观经验。人工提取特征本身就是一件耗时耗力的事情，而且推广性差，换个场景或者图片内容，就要重新制定一套新的模版，所以LeCun等人就提出CNN来彻底改变图像处理的方式，使得图像处理的门槛大大降低（当然网络设计也很难，最近的神经网络搜索NAS就是想改进这一点，总之就是越来越趋向于自动化，变得更智能），处理的性能和扩展性都大大增加了。

卷积神经网络一般有5个部分：1.输入层 2.卷积层 3.池化层 4.激励函数 5.全连接（输出层）

1.输入层

这个根据数据特点来，图像的话就是RGB三通道，例如（Height x Width x Channel），文本的话就是Length x word-vector（一般是one-hot或者是word2vec），视频的话就是（Height x Width x Channel x time）对应与三维卷积操作。

2.卷积层

这个主要就是定义stride，卷积核大小，是否padding和channel通道数，这个一般是根据特征尺寸以及具体的任务来的，尤其是channel通道数，过大或者过小都不好，一般建议是2或者是4的倍数，运算过程中的点积计算示意图如下：

浅谈卷积神经网络CNN

3.池化层

pooling层一般分为最大值pooling和均值pooling，根据图像的特点，即局部图像的表达性，maxpooling用的最多。作用一般有三个：（1）改变特征尺寸，降维（2）减少参数量（3）防止过拟合的同时尽可能地保留特征最显著的部分。

浅谈卷积神经网络CNN

4.激励层

激励函数能够提升网络的非线性表达能力，要不然的话网络表达的能力将十分有限。用的最多的Relu和LeaklyRelu（在负数部分有差别)，tanh和sigmoid用的比较少，sigmoid是非0均值，且极大和极小值导数都是0，tanh是0均值的，但是导数不如Relu简便。

5.全连接（输出）

其实全连接也不一定必须要使用，要不然全卷积网络咋来的，但是一般情况还是要用的，比如分类和检测。fc层会极大地增加网络的参数量，所以用的时候要慎重，不宜过多，一般3层以内。

下面说一下卷积神经网络的最大特点：权值共享

这个也是区别与传统神经网络的一个关键地方。传统神经网络为什么难以训练，就是因为其网络参数过多，有人说还是算力达不到，当然这也是个原因。但是最本质的还是参数量但过于巨大，对一般的图像任务而言，我们的输入一般是256x256x3（RGB），如果我们做1000类物体分类，那么传统神经网络就需要256x256x3x1000（忽略偏置）将近20亿个参数！这是很难训练的，那么如果我们利用权值共享呢，以3x3的卷积核为例就是3x3x1000=9000的参数量，孰多孰少一目了然。这里就会有人问了，那么它们的效果怎么样呢，我们也不能只追求减少参数量而忽略网络的表达能力吧。其实我们可以想一下，无论是文本还是图像又或者是视频，它们局部信息都是有关联的，文本的话就是每个词之间是有逻辑的，图像的话局部往往代表着物体的某一个部位，所以我们就借鉴传统图像处理那一套，利用特征模版进行窗口滑动，每一个特征模版滑动的结果都对应着一种特征响应，我们利用多个特征模版就可以得到图像的各种信息，比如图像的边缘，颜色，纹理信息，再把它们集合起来，再利用同样的方式进行特征提取，这样我们就会得到由低层到高层的不同级别的图像特征来帮助我们进行图像的进一步处理。这里有一个特征的可视化结果：

浅谈卷积神经网络CNN

这样的话我们不仅减少了参数量，避免了过拟合，而且还充分利用了图像信息，所以卷积神经网络越来越被人们所接受。当然了，传统图像处理的一些方法现在仍然有用，由于CNN对于样本的依赖和难解释性，传统的一些处理图像的方法也可以进行一个补充和完善。

好了，今天的分享就到这里吧，当然卷积神经网络的内容还有很多，下一次我可以给大家分享一下BP反向传播机制，这个对于网络的学习与理解也是至关重要的，我们一起加油~~

最后附上本人的公众号（昨天才开通，后续会分享一些自己的学习和工作感悟）和微信，感兴趣的小伙伴欢迎找我进一步地讨论

我的微信：公众号：

浅谈卷积神经网络CNN

参考文献：

1.博客：https://www.jianshu.com/p/ac7d7a46106a

2.博客：https://blog.csdn.net/littlestudent12/article/details/80777494

3.博客：https://baijiahao.baidu.com/s?id=1636468254076776780&wfr=spider&for=pc

推荐阅读

https
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
facebook
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
百度
同事工资打听话题，如何提高自己的薪水

本文讨论了同事工资打听的话题，包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系，以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满，通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]

蜡笔小新 2023-12-14 16:22:57
百度
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
微信
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
微信
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
微信
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
百度
iOS开发中的内存泄漏检测和解决方法，以及最能挣钱的行业和选行业技巧

本文介绍了iOS开发中检测和解决内存泄漏的方法，包括静态分析、使用instruments检查内存泄漏以及代码测试等。同时还介绍了最能挣钱的行业，包括互联网行业、娱乐行业、教育行业、智能行业和老年服务行业，并提供了选行业的技巧。 ... [详细]

蜡笔小新 2023-12-09 10:07:05
百度
杭州PHP大厂有哪些(2023年最新分享)

导读：今天编程笔记来给各位分享关于杭州PHP大厂有哪些的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： ... [详细]

蜡笔小新 2023-10-17 20:53:07
百度
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
百度
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
facebook
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
facebook
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
facebook
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
facebook
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58

怕疼不怕死

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章