深入浅出混合精度训练原理总结

作者：UN周_179 | 来源：互联网 | 2023-08-26 12:24

以下文章来源于：ZOMI酱知乎作者：ZOMI酱文仅分享，侵删原文链接：https:zhuanlan.zhihu.comp44

以下文章来源于&＃xff1a;ZOMI酱&＃64;知乎

作者&＃xff1a;ZOMI酱文仅分享&＃xff0c;侵删

原文链接&＃xff1a;https://zhuanlan.zhihu.com/p/441591808

本文主要涉及的混合精度训练是指同时使用单精度&＃xff08;FP32&＃xff09;和半精度&＃xff08;FP16&＃xff09;。作者详细介绍了混合精度训练的原理、训练技术及策略。

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来&＃xff0c;为了加快训练时间、减少网络训练时候所占用的内存&＃xff0c;并且保存训练出来的模型精度持平的条件下&＃xff0c;业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中&＃xff0c;同时使用单精度&＃xff08;FP32&＃xff09;和半精度&＃xff08;FP16&＃xff09;。

1、浮点数据类型

浮点数据类型主要分为双精度&＃xff08;Fp64&＃xff09;、单精度&＃xff08;Fp32&＃xff09;、半精度&＃xff08;FP16&＃xff09;。在神经网络模型的训练过程中&＃xff0c;一般默认采用单精度&＃xff08;FP32&＃xff09;浮点数据类型&＃xff0c;来表示网络模型权重和其他参数。在了解混合精度训练之前&＃xff0c;这里简单了解浮点数据类型。

根据IEEE二进制浮点数算术标准&＃xff08;IEEE 754&＃xff09;的定义&＃xff0c;浮点数据类型分为双精度&＃xff08;Fp64&＃xff09;、单精度&＃xff08;Fp32&＃xff09;、半精度&＃xff08;FP16&＃xff09;三种&＃xff0c;其中每一种都有三个不同的位来表示。FP64表示采用8个字节共64位&＃xff0c;来进行的编码存储的一种数据类型&＃xff1b;同理&＃xff0c;FP32表示采用4个字节共32位来表示&＃xff1b;FP16则是采用2字节共16位来表示。如图所示&＃xff1a;

从图中可以看出&＃xff0c;与FP32相比&＃xff0c;FP16的存储空间是FP32的一半&＃xff0c;FP32则是FP16的一半。主要分为三个部分&＃xff1a;

最高位表示符号位sign bit。
中间表示指数位exponent bit。
低位表示分数位fraction bit。

以FP16为例子&＃xff0c;第一位符号位sign表示正负符号&＃xff0c;接着5位表示指数exponent&＃xff0c;最后10位表示分数fraction。公式为&＃xff1a;

同理&＃xff0c;一个规则化的FP32的真值为&＃xff1a;

一个规格化的FP64的真值为&＃xff1a;

FP16可以表示的最大值为 0 11110 1111111111&＃xff0c;计算方法为&＃xff1a;

FP16可以表示的最小值为 0 00001 0000000000&＃xff0c;计算方法为&＃xff1a;

因此FP16的最大取值范围是[-65504 - 66504]&＃xff0c;能表示的精度范围是 &＃xff0c;超过这个数值的数字会被直接置0。

2、使用FP16训练问题

首先来看看为什么需要混合精度。使用FP16训练神经网络&＃xff0c;相对比使用FP32带来的优点有&＃xff1a;

减少内存占用&＃xff1a;FP16的位宽是FP32的一半&＃xff0c;因此权重等参数所占用的内存也是原来的一半&＃xff0c;节省下来的内存可以放更大的网络模型或者使用更多的数据进行训练。
加快通讯效率&＃xff1a;针对分布式训练&＃xff0c;特别是在大模型训练的过程中&＃xff0c;通讯的开销制约了网络模型训练的整体性能&＃xff0c;通讯的位宽少了意味着可以提升通讯性能&＃xff0c;减少等待时间&＃xff0c;加快数据的流通。
计算效率更高&＃xff1a;在特殊的AI加速芯片如华为Ascend 910和310系列&＃xff0c;或者NVIDIA VOTAL架构的Titan V and Tesla V100的GPU上&＃xff0c;使用FP16的执行运算性能比FP32更加快。

但是使用FP16同样会带来一些问题&＃xff0c;其中最重要的是1&＃xff09;精度溢出和2&＃xff09;舍入误差。

数据溢出&＃xff1a; 数据溢出比较好理解&＃xff0c;FP16的有效数据表示范围为 &＃xff0c;FP32的有效数据表示范围为。可见FP16相比FP32的有效范围要窄很多&＃xff0c;使用FP16替换FP32会出现上溢&＃xff08;Overflow&＃xff09;和下溢&＃xff08;Underflow&＃xff09;的情况。而在深度学习中&＃xff0c;需要计算网络模型中权重的梯度&＃xff08;一阶导数&＃xff09;&＃xff0c;因此梯度会比权重值更加小&＃xff0c;往往容易出现下溢情况。

舍入误差&＃xff1a; Rounding Error指示是当网络模型的反向梯度很小&＃xff0c;一般FP32能够表示&＃xff0c;但是转换到FP16会小于当前区间内的最小间隔&＃xff0c;会导致数据溢出。如0.00006666666在FP32中能正常表示&＃xff0c;转换到FP16后会表示成为0.000067&＃xff0c;不满足FP16最小间隔的数会强制舍入。

3、混合精度相关技术

为了想让深度学习训练可以使用FP16的好处&＃xff0c;又要避免精度溢出和舍入误差。于是可以通过FP16和FP32的混合精度训练&＃xff08;Mixed-Precision&＃xff09;&＃xff0c;混合精度训练过程中可以引入权重备份&＃xff08;Weight Backup&＃xff09;、损失放大&＃xff08;Loss Scaling&＃xff09;、精度累加&＃xff08;Precision Accumulated&＃xff09;三种相关的技术。

3.1、权重备份&＃xff08;Weight Backup&＃xff09;

权重备份主要用于解决舍入误差的问题。其主要思路是把神经网络训练过程中产生的激活activations、梯度 gradients、中间变量等数据&＃xff0c;在训练中都利用FP16来存储&＃xff0c;同时复制一份FP32的权重参数weights&＃xff0c;用于训练时候的更新。具体如下图所示。

从图中可以了解&＃xff0c;在计算过程中所产生的权重weights&＃xff0c;激活activations&＃xff0c;梯度gradients等均使用 FP16 来进行存储和计算&＃xff0c;其中权重使用FP32额外进行备份。由于在更新权重公式为:

深度模型中&＃xff0c;lr x gradent的参数值可能会非常小&＃xff0c;利用FP16来进行相加的话&＃xff0c;则很可能会出现舍入误差问题&＃xff0c;导致更新无效。因此通过将权重weights拷贝成FP32格式&＃xff0c;并且确保整个更新过程是在 fp32 格式下进行的。即&＃xff1a;

权重用FP32格式备份一次&＃xff0c;那岂不是使得内存占用反而更高了呢&＃xff1f;是的&＃xff0c;额外拷贝一份weight的确增加了训练时候内存的占用。但是实际上&＃xff0c;在训练过程中内存中分为动态内存和静态内容&＃xff0c;其中动态内存是静态内存的3-4倍&＃xff0c;主要是中间变量值和激活activations的值。而这里备份的权重增加的主要是静态内存。只要动态内存的值基本都是使用FP16来进行存储&＃xff0c;则最终模型与整网使用FP32进行训练相比起来&＃xff0c; 内存占用也基本能够减半。

3.2、损失缩放&＃xff08;Loss Scaling&＃xff09;

如图所示&＃xff0c;如果仅仅使用FP32训练&＃xff0c;模型收敛得比较好&＃xff0c;但是如果用了混合精度训练&＃xff0c;会存在网络模型无法收敛的情况。原因是梯度的值太小&＃xff0c;使用FP16表示会造成了数据下溢出&＃xff08;Underflow&＃xff09;的问题&＃xff0c;导致模型不收敛&＃xff0c;如图中灰色的部分。于是需要引入损失缩放&＃xff08;Loss Scaling&＃xff09;技术。

下面是在网络模型训练阶段&＃xff0c; 某一层的激活函数梯度分布式中&＃xff0c;其中有68%的网络模型激活参数位0&＃xff0c;另外有4%的精度在2^-32~2^-20这个区间内&＃xff0c;直接使用FP16对这里面的数据进行表示&＃xff0c;会截断下溢的数据&＃xff0c;所有的梯度值都会变为0。

为了解决梯度过小数据下溢的问题&＃xff0c;对前向计算出来的Loss值进行放大操作&＃xff0c;也就是把FP32的参数乘以某一个因子系数后&＃xff0c;把可能溢出的小数位数据往前移&＃xff0c;平移到FP16能表示的数据范围内。根据链式求导法则&＃xff0c;放大Loss后会作用在反向传播的每一层梯度&＃xff0c;这样比在每一层梯度上进行放大更加高效。

损失放大是需要结合混合精度实现的&＃xff0c;其主要的主要思路是&＃xff1a;

Scale up阶段&＃xff0c;网络模型前向计算后在反响传播前&＃xff0c;将得到的损失变化值DLoss增大2^K倍。
Scale down阶段&＃xff0c;反向传播后&＃xff0c;将权重梯度缩2^K倍&＃xff0c;恢复FP32值进行存储。

动态损失缩放&＃xff08;Dynamic Loss Scaling&＃xff09;&＃xff1a; 上面提到的损失缩放都是使用一个默认值对损失值进行缩放&＃xff0c;为了充分利用FP16的动态范围&＃xff0c;可以更好地缓解舍入误差&＃xff0c;尽量使用比较大的放大倍数。总结动态损失缩放算法&＃xff0c;就是每当梯度溢出时候减少损失缩放规模&＃xff0c;并且间歇性地尝试增加损失规模&＃xff0c;从而实现在不引起溢出的情况下使用最高损失缩放因子&＃xff0c;更好地恢复精度。

动态损失缩放的算法如下&＃xff1a;

动态损失缩放的算法会从比较高的缩放因子开始&＃xff08;如2^24&＃xff09;&＃xff0c;然后开始进行训练迭代中检查数是否会溢出&＃xff08;Infs/Nans&＃xff09;&＃xff1b;
如果没有梯度溢出&＃xff0c;则不进行缩放&＃xff0c;继续进行迭代&＃xff1b;如果检测到梯度溢出&＃xff0c;则缩放因子会减半&＃xff0c;重新确认梯度更新情况&＃xff0c;直到数不产生溢出的范围内&＃xff1b;
在训练的后期&＃xff0c;loss已经趋近收敛稳定&＃xff0c;梯度更新的幅度往往小了&＃xff0c;这个时候可以允许更高的损失缩放因子来再次防止数据下溢。
因此&＃xff0c;动态损失缩放算法会尝试在每N&＃xff08;N&＃61;2000&＃xff09;次迭代将损失缩放增加F倍数&＃xff0c;然后执行步骤2检查是否溢出。

3.3、精度累加&＃xff08;Precision Accumulated&＃xff09;

在混合精度的模型训练过程中&＃xff0c;使用FP16进行矩阵乘法运算&＃xff0c;利用FP32来进行矩阵乘法中间的累加&＃xff08;accumulated&＃xff09;&＃xff0c;然后再将FP32的值转化为FP16进行存储。简单而言&＃xff0c;就是利用FP16进行矩阵相乘&＃xff0c;利用FP32来进行加法计算弥补丢失的精度。这样可以有效减少计算过程中的舍入误差&＃xff0c;尽量减缓精度损失的问题。

例如在Nvidia Volta 结构中带有Tensor Core&＃xff0c;可以利用FP16混合精度来进行加速&＃xff0c;还能保持精度。Tensor Core主要用于实现FP16的矩阵相乘&＃xff0c;在利用FP16或者FP32进行累加和存储。在累加阶段能够使用FP32大幅减少混合精度训练的精度损失。

4、混合精度训练策略&＃xff08;Automatic Mixed Precision&＃xff0c;AMP&＃xff09;

混合精度训练有很多有意思的地方&＃xff0c;不仅仅是在深度学习&＃xff0c;另外在HPC的迭代计算场景下&＃xff0c;从迭代的开始、迭代中期和迭代后期&＃xff0c;都可以使用不同的混合精度策略来提升训练性能的同时保证计算的精度。以动态的混合精度达到计算和内存的最高效率比也是一个较为前言的研究方向。

以NVIDIA的APEX混合精度库为例&＃xff0c;里面提供了4种策略&＃xff0c;分别是默认使用FP32进行训练的O0&＃xff0c;只优化前向计算部分O1、除梯度更新部分以外都使用混合精度的O2和使用FP16进行训练的O3。具体如图所示。

这里面比较有意思的是O1和O2策略。

O1策略中&＃xff0c;会根据实际Tensor和Ops之间的关系建立黑白名单来使用FP16。例如GEMM和CNN卷积操作对于FP16操作特别友好的计算&＃xff0c;会把输入的数据和权重转换成FP16进行运算&＃xff0c;而softmax、batchnorm等标量和向量在FP32操作好的计算&＃xff0c;则是继续使用FP32进行运算&＃xff0c;另外还提供了动态损失缩放&＃xff08;dynamic loss scaling&＃xff09;。

而O2策略中&＃xff0c;模型权重参数会转化为FP16&＃xff0c;输入的网络模型参数也转换为FP16&＃xff0c;Batchnorms使用FP32&＃xff0c;另外模型权重文件复制一份FP32用于跟优化器更新梯度保持一致都是FP32&＃xff0c;另外还提供动态损失缩放&＃xff08;dynamic loss scaling&＃xff09;。使用了权重备份来减少舍入误差和使用损失缩放来避免数据溢出。

当然上面提供的策略是跟硬件有关系&＃xff0c;并不是所有的AI加速芯片都使用&＃xff0c;这时候针对自研的AI芯片&＃xff0c;需要找到适合得到混合精度策略。

5、实验结果

从下图的Accuracy结果可以看到&＃xff0c;混合精度基本没有精度损失&＃xff1a;

Loss scale的效果&＃xff1a;

题外话&＃xff0c;前不久去X公司跟X总监聊下一代AI芯片架构的时候&＃xff0c;他认为下一代芯片可以不需要加入INT8数据类型&＃xff0c;因为Transformer结构目前有大一统NLP和CV等领域的趋势&＃xff0c;从设计、流片到量产&＃xff0c;2年后预计Transformer会取代CNN成为最流行的架构。我倒是不同意这个观点&＃xff0c;目前来看神经网络的4个主要的结构MLP、CNN、RNN、Transformer都有其对应的使用场景&＃xff0c;并没有因为某一种结构的出现而推翻以前的结构。只能说根据使用场景的侧重点比例有所不同&＃xff0c;我理解Int8、fp16、fp32的数据类型在AI芯片中仍然会长期存在&＃xff0c;针对不同的应用场景和计算单元会有不同的比例。

猜您喜欢&＃xff1a;

戳我&＃xff0c;查看GAN的系列专辑~&＃xff01;

一顿午饭外卖&＃xff0c;成为CV视觉前沿弄潮儿&＃xff01;

CVPR 2022 | 25&＃43;方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇&＃xff01;CVPR 2021最全GAN论文梳理

超100篇&＃xff01;CVPR 2020最全GAN论文梳理

拆解组新的GAN&＃xff1a;解耦表征MixNMatch

StarGAN第2版&＃xff1a;多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

推荐阅读

case
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
sum
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
sum
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
sum
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
filter
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
chat
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
chat
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
case
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
typescript
TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得

TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]

蜡笔小新 2024-11-04 12:55:23
sum
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
tree
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
tree
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
tree
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
tree
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
tree
CVPR 2018 | 旷视科技Face++推出语义分割创新模型——判别特征网络（DFN）

全球计算机视觉顶会CVPR2018（ConferenceonComputerVisionandPatternRecognition，即IEEE国际计算机 ... [详细]

蜡笔小新 2024-10-23 18:11:27

UN周_179

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章