当前位置: 开发笔记 > 后端 > 正文

深度网络图像大小不一致_构建深度神经网络，我有20条不成熟的小建议

作者：手机用户2602881441 | 来源：互联网 | 2023-07-11 17:06

加入极市专业CV交流群，与6000来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互

加入极市专业CV交流群&＃xff0c;与6000&＃43;来自腾讯&＃xff0c;华为&＃xff0c;百度&＃xff0c;北大&＃xff0c;清华&＃xff0c;中科院等名企名校视觉开发者互动交流&＃xff01;更有机会与李开复老师等大牛群内互动&＃xff01;
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总&＃xff0c;行业技术交流。关注 极市平台 公众号 &＃xff0c;回复 加群&＃xff0c;立刻申请入群~

来源&＃xff1a;机器之心&＃64;微信公众号
作者&＃xff1a;Matt H、Daniel R
参与&＃xff1a;Geek ai、路

本文介绍了构建深度神经网络的一些基本技巧&＃xff0c;从通用技巧、神经网络调试和案例研究三方面展开。

在我们的机器学习实验室中&＃xff0c;我们已经在许多高性能的机器上进行了成千上万个小时的训练&＃xff0c;积累了丰富的经验。在这个过程中&＃xff0c;并不只有电脑学习到了很多的知识&＃xff0c;事实上我们研究人员也犯了很多错误&＃xff0c;并且修复了很多漏洞。

在本文中&＃xff0c;我们将根据自身经验(主要基于 TensorFlow)向大家提供一些训练深度神经网络的实用秘诀。有些建议可能对你来说可能已经很熟悉了&＃xff0c;但是其他人可能并不太了解。另外还有些建议可能并不适用&＃xff0c;甚至可能对于特定的任务来说是不好的建议&＃xff0c;所以请谨慎使用&＃xff01;

这些都是一些广为人知的方法&＃xff0c;我们也是站在了巨人的肩膀上&＃xff01;本文的目的只是高屋建瓴地对如何在实践中使用它们进行总结。

通用秘诀

使用 ADAM 优化器。它确实很有效&＃xff0c;相对于较传统的优化器(如原版梯度下降)&＃xff0c;我们更喜欢使用 ADAM。在 TensorFlow 环境下使用 ADAM 时&＃xff0c;请注意&＃xff1a;如果你想要保存和恢复模型权重&＃xff0c;请记住在设置完 AdamOptimizer 后设置 Saver&＃xff0c;这是因为 ADAM 也有需要恢复的状态(即对应于每个权重的学习率)。

ReLU 是最好的非线性(激活函数)&＃xff0c;这就好比 Sublime 是最好的文本编辑器。但说实话&＃xff0c;ReLU 确实是运行速度最快、最简便的&＃xff0c;而且令人惊讶的是&＃xff0c;它们在工作时梯度并不会逐渐减小(从而能够防止梯度消失)。尽管 sigmoid 是一个常用激活函数&＃xff0c;但是它在 DNN 中传播梯度的效果并不太好。

不要在输出层使用激活函数。这应该是显而易见的&＃xff0c;但是如果你通过一个共用的函数构建每一层&＃xff0c;那这可能是一个很容易犯的错误&＃xff1a;请确保在输出层不要使用激活函数。

为每一层添加一个偏置项。这是机器学习的入门知识&＃xff1a;本质上&＃xff0c;偏置项将一个平面转换到最佳拟合位置。在 y&＃61;mx&＃43;b 式中&＃xff0c;b 是偏置项&＃xff0c;使直线能够向上或向下移动到最佳的拟合位置。

使用方差缩放初始化。在 TensorFlow 中&＃xff0c;该方法写作 tf.contrib.layers.variance_scaling_initializer()。根据我们的实验&＃xff0c;这种初始化方法比常规高斯分布初始化、截断高斯分布初始化及 Xavier 初始化的泛化/缩放性能更好。粗略地说&＃xff0c;方差缩放初始化根据每一层输入或输出的数量(在 TensorFlow 中默认为输入的数量)来调整初始随机权重的方差&＃xff0c;从而帮助信号在不需要其他技巧(如梯度裁剪或批归一化)的情况下在网络中更深入地传播。Xavier 和方差缩放初始化类似&＃xff0c;只不过 Xavier 中每一层的方差几乎是相同的&＃xff1b;但是如果网络的各层之间规模差别很大(常见于卷积神经网络)&＃xff0c;则这些网络可能并不能很好地处理每一层中相同的方差。

白化(归一化)输入数据。在训练中&＃xff0c;令样本点的值减去数据集的均值&＃xff0c;然后除以它的标准差。当网络的权重在各个方向上延伸和扩展的程度越小&＃xff0c;你的网络就能更快、更容易地学习。保持数据输入以均值为中心且方差不变有助于实现这一点。你还必须对每个测试输入也执行相同的归一化过程&＃xff0c;所以请确保你的训练集与真实数据类似。

以合理地保留动态范围的方式对输入数据进行缩放。这个步骤和归一化有关&＃xff0c;但是应该在归一化操作之前进行。例如&＃xff0c;在真实世界中范围为 [0, 140000000] 的数据 x 通常可以用「tanh(x)」或「tanh(x/C)」来进行操作&＃xff0c;其中 C 是某个常数&＃xff0c;它可以对曲线进行拉伸&＃xff0c;从而在 tanh 函数的动态倾斜(斜率较大)部分对更大输入范围内的数据进行拟合。尤其是在输入数据在函数的一端或者两端都不受限的时候&＃xff0c;神经网络将在数据处于 (0,1) 时学习效果更好。

一般不要使用学习率衰减。在随机梯度下降(SGD)中&＃xff0c;降低学习率是很常见的&＃xff0c;但是 ADAM 天然地就考虑到了这个问题。如果你真的希望达到模型性能的极致&＃xff0c;请在训练结束前的一小段时间内降低学习率&＃xff1b;你可能会看到一个突然出现的很小的误差下降&＃xff0c;之后它会再次趋于平缓。

如果你的卷积层有 64 或 128 个滤波器&＃xff0c;这就已经足够了。特别是对于深度网络来说&＃xff0c;比如 128 个滤波器就已经很多了。如果你已经拥有了大量的滤波器&＃xff0c;那么再添加更多的滤波器可能并不会提升性能。

池化是为了变换不变性(transform invariance)。池化本质上是让网络学习到图像「某个部分」的「一般概念」。例如&＃xff0c;最大池化能够帮助卷积网络对图像中特征的平移、旋转和缩放具备一定的鲁棒性。

神经网络测试

如果网络学习效果很差(指网络在训练中的损失/准确率不收敛&＃xff0c;或者你得不到想要的结果)&＃xff0c;你可以试试下面的这些秘诀&＃xff1a;

过拟合&＃xff01;如果你的网络学习效果不佳&＃xff0c;你首先应该做的就是去过拟合一个训练数据点。准确率基本上应该达到 100% 或 99.99%&＃xff0c;或者说误差接近 0。如果你的神经网络不能对一个数据点达到过拟合&＃xff0c;那么模型架构就可能存在很严重的问题&＃xff0c;但这种问题可能是十分细微的。如果你可以过拟合一个数据点&＃xff0c;但是在更大的集合上训练时仍然不能收敛&＃xff0c;请尝试下面的几条建议。

降低学习率。你的网络会学习地更慢&＃xff0c;但是它可能会找到一个之前使用较大的步长时没找到的最小值。(直观地说&＃xff0c;你可以想象一下你正在走过路边的沟渠&＃xff0c;此时你想要走进沟的最深处&＃xff0c;在那里模型的误差是最小的。)

提高学习率。这将加快训练速度&＃xff0c;有助于加强反馈回路(feedback loop)。这意味着你很快就能大概知道你的网络是否有效。尽管这样一来网络应该能更快地收敛&＃xff0c;但是训练结果可能不会太好&＃xff0c;而且这种「收敛」状态可能实际上是反复震荡的。(使用 ADAM 优化器时&＃xff0c;我们认为在许多实验场景下&＃xff0c;~0.001 是比较好的学习率。)

减小(小)批量处理的规模。将批处理大小减小到 1 可以向你提供与权重更新相关的更细粒度的反馈&＃xff0c;你应该将该过程在 TensorBoard(或者其他的调试/可视化工具)中展示出来。

删掉批归一化层。在将批处理大小减小为 1 时&＃xff0c;这样做会暴露是否有梯度消失和梯度爆炸等问题。我们曾经遇到过一个好几个星期都没有收敛的网络&＃xff0c;当我们删除了批归一化层(BN 层)之后&＃xff0c;我们才意识到第二次迭代的输出都是 NaN。在这里使用批量归一化层&＃xff0c;相当于在需要止血带的伤口上贴上了创可贴。批归一化有它能够发挥效果的地方&＃xff0c;但前提是你确定自己的网络没有 bug。

加大(小)批量处理的规模。使用一个更大的批处理规模——还觉得不够的话&＃xff0c;如果可以&＃xff0c;你不妨使用整个训练集——能减小梯度更新的方差&＃xff0c;使每次迭代变得更加准确。换句话说&＃xff0c;权重更新能够朝着正确的方向发展。但是&＃xff01;它的有效性存在上限&＃xff0c;而且还有一些物理内存的限制。我们发现&＃xff0c;这条建议通常不如前两个建议(将批处理规模减小到 1、删除批归一化层)有用。

检查你矩阵的重构「reshape」。大幅度的矩阵重构(比如改变图像的 X、Y 维度)会破坏空间局部性&＃xff0c;使网络更不容易学习&＃xff0c;因为这时网络也必须学习重构。(自然特征变得支离破碎。事实上自然特征呈现出空间局部性也是卷积神经网络能够如此有效的原因&＃xff01;)使用多个图像/通道进行重构时要特别小心&＃xff1b;可以使用 numpy.stack() 进行适当的对齐操作。

仔细检查你的损失函数。如果我们使用的是一个复杂的函数&＃xff0c;可以试着把它简化为 L1 或 L2 这样的形式。我们发现 L1 对异常值不那么敏感&＃xff0c;当我们遇到带有噪声的批或训练点时&＃xff0c;可以进行稍小幅度的调整。

如果可以&＃xff0c;仔细检查你的可视化结果。你的可视化库(matplotlib、OpenCV 等)是否调整数据值的范围或是对它们进行裁剪&＃xff1f;你可以考虑使用一种视觉上均匀的配色方案。

案例研究

为了使上文描述的过程更有关联性&＃xff0c;下面给出了一些用于描述我们构建的卷积神经网络的部分真实回归实验的损失图(通过 TensorBoard 进行可视化)。

最初&＃xff0c;网络完全没有学习&＃xff1a;

我们试着裁剪数据值&＃xff0c;防止它们超越取值范围&＃xff1a;

看看这些没有经过平滑的值有多么「疯狂」&＃xff01;学习率太高了吗&＃xff1f;我们试着降低学习率&＃xff0c;并且在一组输入数据上进行训练&＃xff1a;

你可以看到学习率最初的几个变化发生在哪里(大约训练了 300 步和 3000 步时)。显然&＃xff0c;这里我们进行的学习率下降调整太快了。所以如果给它更长的学习率衰减时间&＃xff0c;它将表现得更好(损失更低)&＃xff1a;

可以看到&＃xff0c;学习率在第 2000 步和第 5000 步时下降。这种情况更好&＃xff0c;但是仍然不够完美&＃xff0c;因为损失并没有降到 0。

然后我们停止学习率衰减&＃xff0c;并且尝试通过 tanh 函数将输入值移动到一个更狭窄的范围内。这很显然将误差值带到了 1 以下&＃xff0c;但是我们始终不能过拟合训练集&＃xff1a;

在这里我们发现了&＃xff0c;通过删除批归一化层&＃xff0c;网络很快地在一两次迭代之后输出 NaN。我们禁用了批归一化&＃xff0c;并将初始化方法改为方差缩放法。这让一切都不一样了&＃xff01;我们可以过拟合仅仅包含一两个输入的测试集。然而&＃xff0c;下面的图对 Y 轴进行了裁剪。初始误差值远远高于 5&＃xff0c;这说明误差减小了近 4 个数量级&＃xff1a;

上方的图是非常平滑的&＃xff0c;但是你可以看到&＃xff0c;它极其迅速地过拟合了测试输入&＃xff0c;并且随着时间推移&＃xff0c;整个训练集的损失降到了 0.01 以下。这个过程没有降低学习率。之后&＃xff0c;我们在学习率降低了一个数量级之后继续训练&＃xff0c;得到了更好的结果&＃xff1a;

这些结果要好得多&＃xff01;但是如果我们以几何级别降低学习率&＃xff0c;而不是将训练分成两部分&＃xff0c;会如何呢&＃xff1f;

在每一步中将学习率乘以 0.9995&＃xff0c;结果不是很好&＃xff1a;

这大概是因为学习率下降地太快了。乘数如果取 0.999995 会更好&＃xff0c;但是结果和完全不衰减相差无几。我们从这个特定的实验序列中得出结论&＃xff1a;批归一化隐藏了糟糕的初始化导致的梯度爆炸&＃xff1b;并且除了在最后故意设计的一个学习率衰减可能有帮助&＃xff0c;减小学习率对 ADAM 优化器并没有特别的帮助。与批归一化一样&＃xff0c;对值进行裁剪掩盖了真正的问题。我们还通过 tanh 函数控制高方差的输入值。

我们希望这些基本的诀窍在你对构建深度神经网络更加熟悉的时候能够提供帮助。通常&＃xff0c;正是简单的事情让一切变得不同。

-End-

*延伸阅读

深度神经网络中的多任务学习汇总
OpenCV4.1.2发布&＃xff0c;深度神经网络模块又有新功能上线
图神经网络(Graph Neural Networks&＃xff0c;GNN)综述

CV细分方向交流群

添加极市小助手微信(ID : cv-mart)&＃xff0c;备注&＃xff1a;研究方向-姓名-学校/公司-城市(如&＃xff1a;目标检测-小极-北大-深圳)&＃xff0c;即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信)&＃xff0c;更有每月大咖直播分享、真实项目需求对接、干货资讯汇总&＃xff0c;行业技术交流&＃xff0c;一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台

觉得有用麻烦给个在看啦~

推荐阅读

php
2018 区块链技术峰会：专家深度解析核心技术与应用前景

2018年3月31日，CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会（BTA）核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]

蜡笔小新 2024-12-24 10:56:15
mq
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
mysql
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
php
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
jvm
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
ci
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
ci
2023年全球运营商网络设备市场预计突破202亿美元

尽管某些细分市场如WAN优化表现不佳，但全球运营商路由器和交换机市场持续增长。根据最新研究，该市场预计在2023年达到202亿美元的规模。 ... [详细]

蜡笔小新 2024-12-27 12:44:44
php
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
php
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
php
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
php
解决微信电脑版无法刷朋友圈问题：使用安卓远程投屏方案

在工作期间想要浏览微信和朋友圈却不太方便？虽然微信电脑版目前不支持直接刷朋友圈，但通过远程投屏技术，可以轻松实现在电脑上操作安卓设备的功能。 ... [详细]

蜡笔小新 2024-12-26 15:23:19
漏洞
鲜为人知却极具实用价值的八款软件推荐

在众多不为人知的软件中，这些工具凭借其卓越的功能和高效的性能脱颖而出。本文将为您详细介绍其中八款精品软件，帮助您提高工作效率。 ... [详细]

蜡笔小新 2024-12-24 20:31:50
漏洞
架构师：产品与人的平衡之道

探讨架构师在项目中应如何平衡对产品的关注和对团队成员的关注，以实现最佳的开发成果。 ... [详细]

蜡笔小新 2024-12-24 19:41:40
漏洞
C语言中的指针：概念、应用与注意事项

本文详细介绍了C语言中的指针，包括其基本概念、应用场景以及使用时的优缺点。同时，通过实例解析了指针在内存管理、数组操作、函数调用等方面的具体应用，并探讨了指针的安全性问题。 ... [详细]

蜡笔小新 2024-12-24 10:51:59
漏洞
解读《美丽新世界》：对未来的警示与思考

本文记录了作者在一次旅途中阅读阿道司·赫胥黎的《美丽新世界》的心得。通过探讨小说中对未来社会的预言，文章揭示了集权政府对人性和社会结构的潜在威胁，并反思了现代社会中的一些现象。 ... [详细]

蜡笔小新 2024-12-23 18:39:12

手机用户2602881441

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

深度网络图像大小不一致_构建深度神经网络，我有20条不成熟的小建议

深度神经网络中的多任务学习汇总

OpenCV4.1.2发布&＃xff0c;深度神经网络模块又有新功能上线

图神经网络(Graph Neural Networks&＃xff0c;GNN)综述