circleloss代码实现_3行代码提速模型训练：这个算法让你的GPU老树开新花

作者：573079756_3618db | 来源：互联网 | 2023-06-10 19:16

新智元推荐编辑：元子【新智元导读】百度和Nvidia研究院结合N卡底层计算优化，提出了一种有效的神经网络训练加速方法，不仅是预训练

新智元推荐

编辑&＃xff1a;元子

【新智元导读】百度和Nvidia研究院结合N卡底层计算优化&＃xff0c;提出了一种有效的神经网络训练加速方法&＃xff0c;不仅是预训练&＃xff0c;在全民finetune BERT的今天变得异常有用。「福利&＃xff1a;今晚8点&＃xff0c;刘天义博士为您解读云游戏性能及优化&＃xff0c;戳右边链接上新智元小程序参与直播&＃xff01;」

一切还要从2018年ICLR的一篇论文说起。

《MIXED PRECISION TRAINING》是百度&Nvidia研究院一起发表的&＃xff0c;结合N卡底层计算优化&＃xff0c;提出了一种灰常有效的神经网络训练加速方法&＃xff0c;不仅是预训练&＃xff0c;在全民finetune BERT的今天变得异常有用哇。

而且调研发现&＃xff0c;不仅百度的paddle框架支持混合精度训练&＃xff0c;在Tensorflow和Pytorch中也有相应的实现。下面我们先来讲讲理论&＃xff0c;后面再分析混合精度训练在三大深度学习框架中的打开方式。

理论原理

训练过神经网络的小伙伴都知道&＃xff0c;神经网络的参数和中间结果绝大部分都是单精度浮点数(即float32)存储和计算的&＃xff0c;当网络变得超级大时&＃xff0c;降低浮点数精度&＃xff0c;比如使用半精度浮点数&＃xff0c;显然是提高计算速度&＃xff0c;降低存储开销的一个很直接的办法。

然而副作用也很显然&＃xff0c;如果我们直接降低浮点数的精度直观上必然导致模型训练精度的损失。但是呢&＃xff0c;天外有天&＃xff0c;这篇文章用了三种机制有效地防止了模型的精度损失。待小夕一一说来o(*&＃xffe3;▽&＃xffe3;*)ブ

权重备份(master weights)

我们知道半精度浮点数(float16)在计算机中的表示分为1bit的符号位&＃xff0c;5bits的指数位和10bits的尾数位&＃xff0c;所以它能表示的最小的正数即2^-24(也就是精度到此为止了)。当神经网络中的梯度灰常小的时候&＃xff0c;网络训练过程中每一步的迭代(灰常小的梯度 ✖ 也黑小的learning rate)会变得更小&＃xff0c;小到float16精度无法表示的时候&＃xff0c;相应的梯度就无法得到更新。

论文统计了一下在Mandarin数据集上训练DeepSpeech 2模型时产生过的梯度&＃xff0c;发现在未乘以learning rate之前&＃xff0c;就有接近5%的梯度直接悲剧的变成0(精度比2^-24还要高的梯度会直接变成0)&＃xff0c;造成重大的损失呀/(ㄒoㄒ)/~~

还有更难的&＃xff0c;假设迭代量逃过一劫准备奉献自己的时候。。。由于网络中的权重往往远大于我们要更新的量&＃xff0c;当迭代量小于Float16当前区间内能表示的最小间隔的时候&＃xff0c;更新也会失败(哭瞎┭┮﹏┭┮我怎么这么难鸭)

所以怎么办呢&＃xff1f;作者这里提出了一个非常simple but effective的方法&＃xff0c;就是前向传播和梯度计算都用float16&＃xff0c;但是存储网络参数的梯度时要用float32&＃xff01;这样就可以一定程度上的解决上面说的两个问题啦~~~

我们来看一下训练曲线&＃xff0c;蓝色的线是正常的float32精度训练曲线&＃xff0c;橙色的线是使用float32存储网络参数的learning curve&＃xff0c;绿色滴是不使用float32存储参数的曲线&＃xff0c;两者一比就相形见绌啦。

损失放缩(loss scaling)

有了上面的master weights已经可以足够高精度的训练很多网络啦&＃xff0c;但是有点强迫症的小夕来说怎么还是觉得有点不对呀o((⊙﹏⊙))o.

虽然使用float32来存储梯度&＃xff0c;确实不会丢失精度了&＃xff0c;但是计算过程中出现的指数位小于 -24 的梯度不还是会丢失的嘛&＃xff01;相当于用漏水的筛子从河边往村里运水&＃xff0c;为了多存点水&＃xff0c;村民们把储水的碗换成了大缸&＃xff0c;燃鹅筛子依然是漏的哇&＃xff0c;在路上的时候水就已经漏的木有了。。

于是loss scaling方法来了。首先作者统计了一下训练过程中激活函数梯度的分布情况&＃xff0c;由于网络中的梯度往往都非常小&＃xff0c;导致在使用FP16的时候右边有大量的范围是没有使用的。这种情况下&＃xff0c; 我们可以通过放大loss来把整个梯度右移&＃xff0c;减少因为精度随时变为0的梯度。

那么问题来了&＃xff0c;怎么合理的放大loss呢&＃xff1f;一个最简单的方法是常数缩放&＃xff0c;把loss一股脑统一放大S倍。float16能表示的最大正数是2^15*(1&＃43;1-2^-10)&＃61;65504&＃xff0c;我们可以统计网络中的梯度&＃xff0c;计算出一个常数S&＃xff0c;使得最大的梯度不超过float16能表示的最大整数即可。

当然啦&＃xff0c;还有更加智能的动态调整(automatic scaling) o(*&＃xffe3;▽&＃xffe3;*)ブ

我们先初始化一个很大的S&＃xff0c;如果梯度溢出&＃xff0c;我们就把S缩小为原来的二分之一&＃xff1b;如果在很多次迭代中梯度都没有溢出&＃xff0c;我们也可以尝试把S放大两倍。以此类推&＃xff0c;实现动态的loss scaling。

运算精度(precison of ops)

精益求精再进一步&＃xff0c;神经网络中的运算主要可以分为四大类&＃xff0c;混合精度训练把一些有更高精度要求的运算&＃xff0c;在计算过程中使用float32&＃xff0c;存储的时候再转换为float16。

matrix multiplication: linear, matmul, bmm, conv
pointwise: relu, sigmoid, tanh, exp, log
reductions: batch norm, layer norm, sum, softmax
loss functions: cross entropy, l2 loss, weight decay

像矩阵乘法和绝大多数pointwise的计算可以直接使用float16来计算并存储&＃xff0c;而reductions、loss function和一些pointwise(如exp&＃xff0c;log&＃xff0c;pow等函数值远大于变量的函数)需要更加精细的处理&＃xff0c;所以在计算中使用用float32&＃xff0c;再将结果转换为float16来存储。

总结&＃xff1a;三大深度学习框架的打开方式

混合精度训练做到了在前向和后向计算过程中均使用半精度浮点数&＃xff0c;并且没有像之前的一些工作一样还引入额外超参&＃xff0c;而且重要的是&＃xff0c;实现非常简单却能带来非常显著的收益&＃xff0c;在显存half以及速度double的情况下保持模型的精度&＃xff0c;简直不能再厉害啦。

看完了硬核技术细节之后&＃xff0c;我们赶紧来看看代码实现吧&＃xff01;如此强大的混合精度训练的代码实现不要太简单了吧

Pytorch

导入Automatic Mixed Precision (AMP)&＃xff0c;不要998不要288&＃xff0c;只需3行无痛使用&＃xff01;

from apex import ampmodel, optimizer &＃61; amp.initialize(model, optimizer, opt_level&＃61;"O1") # 这里是“欧一”&＃xff0c;不是“零一”with amp.scale_loss(loss, optimizer) as scaled_loss:scaled_loss.backward()

来看个例子&＃xff0c;将上面三行按照正确的位置插入到自己原来的代码中就可以实现酷炫的半精度训练啦&＃xff01;

import torchfrom apex import ampmodel &＃61; ... optimizer &＃61; ...#包装model和optimizermodel, optimizer &＃61; amp.initialize(model, optimizer, opt_level&＃61;"O1")for data, label in data_iter: out &＃61; model(data) loss &＃61; criterion(out, label) optimizer.zero_grad() #loss scaling&＃xff0c;代替loss.backward() with amp.scaled_loss(loss, optimizer) as scaled_loss:scaled_loss.backward() optimizer.step()

Tensorflow

一句话实现混合精度训练之修改环境变量&＃xff0c;在python脚本中设置环境变量

os.environ[ TF_ENABLE_AUTO_MIXED_PRECISION ] &＃61; 1

除此之外&＃xff0c;也可以用类似pytorch的方式来包装optimizer。

Graph-based示例

opt &＃61; tf.train.AdamOptimizer()#add a lineopt &＃61; tf.train.experimental.enable_mixed_precision_graph_rewrite( opt, loss_scale&＃61; dynamic ) train_op &＃61; opt.miminize(loss)

Keras-based示例

opt &＃61; tf.keras.optimizers.Adam()#add a lineopt &＃61; tf.train.experimental.enable_mixed_precision_graph_rewrite( opt, loss_scale&＃61; dynamic ) model.compile(loss&＃61;loss, optimizer&＃61;opt)model.fit(...)

PaddlePaddle

一句话实现混合精度训练之添加config(惊呆毕竟混合精度训练是百度家提出的&＃xff0c;内部早就熟练应用了叭)

--use_fp16&＃61;true

举个栗子&＃xff0c;基于BERT finetune XNLI任务时&＃xff0c;只需在执行时设置use_fp16为true即可。

export FLAGS_sync_nccl_allreduce&＃61;0export FLAGS_eager_delete_tensor_gb&＃61;1export CUDA_VISIBLE_DEVICES&＃61;0,1,2,3,4,5,6,7BERT_BASE_PATH&＃61;"chinese_L-12_H-768_A-12"TASK_NAME&＃61; XNLI DATA_PATH&＃61;/path/to/xnli/data/CKPT_PATH&＃61;/path/to/save/checkpoints/python -u run_classifier.py --task_name ${TASK_NAME} --use_fp16&＃61;true #!!!!!!add a line --use_cuda true --do_train true --do_val true --do_test true --batch_size 32 --in_tokens false --init_pretraining_params ${BERT_BASE_PATH}/params --data_dir ${DATA_PATH} --vocab_path ${BERT_BASE_PATH}/vocab.txt --checkpoints ${CKPT_PATH} --save_steps 1000 --weight_decay 0.01 --warmup_proportion 0.1 --validation_steps 100 --epoch 3 --max_seq_len 128 --bert_config_path ${BERT_BASE_PATH}/bert_config.json --learning_rate 5e-5 --skip_steps 10 --num_iteration_per_drop_scope 10 --verbose true

推荐阅读

process
python人物抠图算法_比PS还好用！Python 20行代码批量抠图

抠图前vsPython自动抠图后在日常的工作和生活中，我们经常会遇到需要抠图的场景，即便是只有一张图片需要抠，也会抠得我们不耐烦ÿ ... [详细]

蜡笔小新 2023-10-12 18:22:39
process
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
process
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
case
深入解析 MXOTDLL.dll 在 C# 中的应用与优化策略

本文深入探讨了 MXOTDLL.dll 在 C# 环境中的应用与优化策略。针对近期公司从某生物技术供应商采购的指纹识别设备，该设备提供的 DLL 文件是用 C 语言编写的。为了更好地集成到现有的 C# 系统中，我们对原生的 C 语言 DLL 进行了封装，并利用 C# 的互操作性功能实现了高效调用。此外，文章还详细分析了在实际应用中可能遇到的性能瓶颈，并提出了一系列优化措施，以确保系统的稳定性和高效运行。 ... [详细]

蜡笔小新 2024-10-31 17:21:11
main
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42
bash
如何在Linux系统中部署TensorFlow的详细指南

本文详细介绍了在Linux系统中部署TensorFlow的过程。作者基于北京大学曹建教授的MOOC课程进行学习，但由于课程内容较旧，环境配置方面遇到了不少挑战。经过多次尝试，最终成功解决了这些问题，并总结了一套详细的安装指南，帮助初学者快速上手TensorFlow。 ... [详细]

蜡笔小新 2024-10-24 13:06:19
chat
pytorch（网络模型训练）

上一篇目录标题网络模型训练小插曲训练模型数据训练GPU训练第一种方式方式二：查看GPU信息完整模型验证网络模型训练小插曲区别importtorchatorch ... [详细]

蜡笔小新 2024-10-13 11:08:13
const
tensorflow基本操作介绍

1、tensorflow的基本运作为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始：其中tf.mul(a,b)函数便是tf的一个基本的算数运算，接下来介绍跟 ... [详细]

蜡笔小新 2024-10-08 15:47:50
const
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
const
世界人工智能大赛OCR赛题方案！

Datawhale干货作者：阿水，北京航空航天大学，Datawhale成员本文以世界人工智能创新大赛（AIWIN）手写体OCR识别竞赛为实践背景，给出了OCR实践的常见思路和流 ... [详细]

蜡笔小新 2023-10-11 18:31:00
function
HTML5大文件传输技术深度解析与实践分享

本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析，详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题，并提供了可供参考的代码示例和解决方案。此外，文章还讨论了常见的技术挑战及优化策略，旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]

蜡笔小新 2024-10-28 18:59:50
function
mapreduce数据去重的实现方法

本文介绍了利用mapreduce实现数据去重的方法，同时还介绍了人工智能AI领域中常用的框架和工具，包括Keras、PyTorch、MXNet、TensorFlow和PaddlePaddle，并提供了深度学习实战的代码下载链接。 ... [详细]

蜡笔小新 2023-12-10 15:56:37
function
老电影和图片变清晰的秘密！分辨率提升400%的AI算法

老电影和图片变清晰的秘密！分辨率提升400%的AI算法-如上图，从100x133pix→400x532pix，除了肉眼可见的清晰，拥有可以将分辨率提升400%的技术到底意味着什么 ... [详细]

蜡笔小新 2023-10-13 13:06:20
function
聊聊中国人工智能科技产业区域竞争力分析及趋势

原文链接：聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数（2021ÿ ... [详细]

蜡笔小新 2023-10-13 11:56:40
uri
百度AI的2020

百度AI的2020-世界的2020，是充满不确定性的变局之年；中国的2020，是团结一心、共克时艰、于变局中开新局的希望之年；百度AI的2020，是坚定信念，拥抱变化，践行“科技为 ... [详细]

蜡笔小新 2023-10-10 21:47:29

573079756_3618db

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章