当前位置: 开发笔记 > 编程语言 > 正文

深度学习（9）神经网络训练中Epoch、BatchSize和iteration

作者：牛奶香橙 | 来源：互联网 | 2024-10-12 15:19

深度学习（9）

梯度下降
EPOCHS
BATCH SIZE
iteration
示例

你肯定经历过这样的时刻，看着电脑屏幕抓着头，困惑着：「为什么我会在代码中使用这三个术语，它们有什么区别吗？」因为它们看起来实在太相似了。

梯度下降

为了理解这些术语有什么不同，你需要了解一些关于机器学习的术语，比如梯度下降，以帮助你理解。

这里简单总结梯度下降的含义…

梯度下降：这是一个在机器学习中用于寻找较佳结果（曲线的最小值）的迭代优化算法。

梯度的含义是斜率或者斜坡的倾斜度。

下降的含义是代价函数的下降。

算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的较佳拟合。

深度学习（9）神经网络训练中Epoch、Batch Size和iteration

梯度下降中有一个称为学习率的参量。如上图左所示，刚开始学习率更大，因此下降步长更大。随着点下降，学习率变得越来越小，从而下降步长也变小。同时，代价函数也在减小，或者说代价在减小，有时候也称为损失函数或者损失，两者都是一样的。（损失/代价的减小是一件好事）
深度学习（9）神经网络训练中Epoch、Batch Size和iteration
*注：上表中 Mini-Batch 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。

只有在数据很庞大的时候（在机器学习中，几乎任何时候都是），我们才需要使用 epochs，batch size，迭代这些术语，在这种情况下，一次性将数据输入计算机是不可能的。因此，为了解决这个问题，我们需要把数据分成小块，一块一块的传递给计算机，在每一步的末端更新神经网络的权重，拟合给定的数据。
深度学习（9）神经网络训练中Epoch、Batch Size和iteration
换算关系：

EPOCHS

EPOCHS：当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一个 epoch。

然而，当一个 epoch 对于计算机而言太庞大的时候，就需要把它分成多个小块。

为什么要使用多于一个 epoch？
我知道这刚开始听起来会很奇怪，在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但是请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降，优化学习过程和图示。因此仅仅更新权重一次或者说使用一个 epoch 是不够的。

深度学习（9）神经网络训练中Epoch、Batch Size和iteration

随着 epoch 数量增加，神经网络中的权重的更新次数也增加，曲线从欠拟合变得过拟合。

那么，几个 epoch 才是合适的呢？
不幸的是，这个问题并没有正确的答案。对于不同的数据集，答案是不一样的。但是数据的多样性会影响合适的 epoch 的数量。比如，只有黑色的猫的数据集，以及有各种颜色的猫的数据集。

BATCH SIZE

BATCH SIZE：一个 batch 中的样本总数。记住：batch size 和 number of batches 是不同的。

BATCH 是什么？
在不能将数据一次性通过神经网络的时候，就需要将数据集分成几个 batch。

正如将这篇文章分成几个部分，如介绍、梯度下降、Epoch、Batch size 和迭代，从而使文章更容易阅读和理解。

iteration

iteration：理解迭代，只需要知道乘法表或者一个计算器就可以了。迭代是 batch 需要完成一个 epoch 的次数。记住：在一个 epoch 中，batch 数和迭代数是相等的。

比如对于一个有 2000 个训练样本的数据集。将 2000 个样本分成大小为 500 的 batch，那么完成一个 epoch 需要 4 个 iteration。

示例

CIFAR10 数据集有 50000 张训练图片，10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。

每个 Epoch 要训练的图片数量： 50000
训练集具有的 Batch 个数： 50000 / 256 = 195 + 1 = 196
每个 Epoch 需要完成的 Batch 个数： 196
每个 Epoch 具有的 Iteration 个数： 196
每个 Epoch 中发生模型权重更新的次数： 196
训练 10 代后，模型权重更新的次数： 196 * 10 = 1960

不同代的训练，其实用的是同一个训练集的数据。第 1 代和第 10 代虽然用的都是训练集的五万张图片，但是对模型的权重更新值却是完全不同的。因为不同代的模型处于代价函数空间上的不同位置，模型的训练代越靠后，越接近谷底，其代价越小。

原文链接：https://medium.com/towards-data-science/epoch-vs-iterations-vs-batch-size-4dfb9c7ce9c9

推荐阅读

io
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
io
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
tree
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
io
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
io
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
java
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
web
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
io
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32
install
在Ubuntu 16.04中使用Anaconda安装TensorFlow

本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先，需要下载并安装Anaconda，然后配置环境变量以确保系统能够识别Anaconda命令。接着，创建一个特定的Python环境用于安装TensorFlow，并通过指定的镜像源加速安装过程。最后，通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]

蜡笔小新 2024-12-11 19:07:39
io
图像分类算法的优化策略与实践

本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术，旨在通过具体实例和实验验证，提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]

蜡笔小新 2024-12-09 16:01:40
io
李宏毅机器学习笔记：无监督学习之线性方法

无监督学习主要涵盖两大类别：一是聚类与降维，旨在简化数据结构；二是生成模型，用于从编码生成新的数据样本。本文深入探讨了这些技术的具体应用和理论基础。 ... [详细]

蜡笔小新 2024-12-08 18:11:04
web
强人工智能时代，区块链的角色与前景

随着强人工智能的崛起，区块链技术在新的技术生态中扮演着怎样的角色？本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]

蜡笔小新 2024-12-07 14:46:21
io
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
io
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
io
浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录

近日，国际权威AI基准测试平台MLPerf发布了最新的推理测试结果，浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录，显著提升了数据中心AI推理性能。 ... [详细]

蜡笔小新 2024-12-12 13:57:17

牛奶香橙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章