当前位置: 开发笔记 > 编程语言 > 正文

Tensorflow模型优化训练思路

作者：曾巧红-------- | 来源：互联网 | 2023-08-10 17:57

问题现状随着深度学习模型越来越大，数据集越来越大，模型的训练变得越来越慢。这对于想要快速验证算法的研究人员来说，是个比较麻烦的问题。那

问题现状

随着深度学习模型越来越大&＃xff0c;数据集越来越大&＃xff0c;模型的训练变得越来越慢。这对于想要快速验证算法的研究人员来说&＃xff0c;是个比较麻烦的问题。

那么一般来说&＃xff0c;我们会想要优化模型训练&＃xff0c;以期更快验证模型效果。

无论是使用Tensorflow还是Pytorch来搭建模型&＃xff0c;基本的训练优化思路都是一致的&＃xff0c;只是由于框架的不同&＃xff0c;某些优化细节有些差别。

这里探讨的是模型在GPU上的训练优化。

基本的训练优化思路

Step 1 优化模型在单机单卡上的训练
Step 2 优化模型在单机多卡上的训练
Step 3 优化模型在多级多卡上的训练

Tensorflow模型的训练优化

针对基本思路&＃xff0c;我们发掘一些优化细节。

Step 1 优化模型在单机单卡上的训练

首先&＃xff0c;我们需要先将模型在单卡上的训练进行足够的优化&＃xff0c;再去谈论扩展GPU数量来提升训练速度。

将数据预处理放在CPU上可以显著提高性能&＃xff0c;这样可以让GPU专注训练&＃xff0c;使用nvidia-smi来查看GPU的利用率是否达到80%~100%。

对于tensorflow来说&＃xff0c;做到以下几点基本可以立马加速模型训练&＃xff1a;

使用Pinned memory
打开AMP
打开XLA &＃xff08;input size需要是固定的&＃xff09;
使用LAMB作为optmizer&＃xff08;而不用ADAM&＃xff09;
使用TF32
在没有显存溢出的情况下&＃xff0c;尝试更大的batch size
融合op&＃xff0c;以减少D2D/H2D/D2H的数据传输 &＃xff08;使用nsight system来profile模型&＃xff0c;查看训练瓶颈&＃xff09;
在GPU 上使用 cuDNN 时&＃xff0c;NCHW 数据格式是最优选择。最佳实践是构建同时支持&＃xff1a;NCHW/NHWC。
prefetch预取数据 &＃xff08;tf.data API 通过 tf.data.Dataset.prefetch 转换提供了一种软件流水线机制&＃xff09;
Parallel data extraction&＃xff1a;&＃xff08;tf.Dataset.interleave(cycle_length&＃61;, num_parallel_calls&＃61;), cycle_length&＃61;多个文件的重合的长度&＃xff0c;num_parallel_calls&＃61;并行读取的文件数量&＃xff09;

另外&＃xff0c;如果是BERT等以Transformer为基础结构的模型&＃xff0c;则将模型以Fast transformer来搭建&＃xff0c;可以得到更好的训练性能。

Step 2 优化模型在单机多卡上的训练

Horovod是Multi_GPU/Multi_Node训练的首选。

利用Horovod进行Multi_GPU训练。
多卡训练中&＃xff0c;使用tf.data API来提供流数据&＃xff0c;而不是使用feed_dict.

Step 3 优化模型在多机多卡上的训练

利用Horovod进行Multi_node训练。这部分其实更多的是结合实际问题来进行有针对性的优化。笔者在这方面暂时没有经验&＃xff0c;以后希望能更新这部分内容。

参考资料

https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT#model-overview

https://developer.nvidia.com/blog/fast-multi-gpu-collectives-nccl/

https://tensorflow.juejin.im/performance/performance_guide.html

NVTX&＃xff1a;https://docs.nvidia.com/gameworks/content/gameworkslibrary/nvtx/nvtx_analysis.htm

XLA&＃xff1a;https://tensorflow.juejin.im/performance/xla/index.html

Nsight System&＃xff1a;https://developer.nvidia.com/nsight-systems

https://www.cnblogs.com/huangyc/p/10340766.html

https://zhuanlan.zhihu.com/p/163656225

推荐阅读

python
Day 5 20190120 老男孩python学习第5天内容整理

今天继续看MasteringPycharm的视频，一个半小时看git的教学视频:视频1小时44分钟，看了2个半小时以上https:www.youtube ... [详细]

蜡笔小新 2024-09-28 19:29:55
cmd
nvmw安装，用于控制node版本;

之前一直使用的是nodev2.2.0版本，挺说新版本的node解决了npm安装插件产生文件夹结构过深的问题，所以就想更新试试；上网一看才发现，尼玛的node已经到了6.+版本了，好 ... [详细]

蜡笔小新 2024-09-29 12:25:49
python
PyTorch 2.0来了！100%向后兼容，一行代码将训练提速76%！

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：机器之心PyTorch官方 ... [详细]

蜡笔小新 2024-09-25 12:08:56
python
Yolov3模型框架darknet研究（一）在windows + VS上运行darknet

在windows上运行darknet目标检测框架可以借助VS强大、方便的debug功能来逐行跟踪代码，藉此来熟悉其内部运行原理。很简单，先进入http ... [详细]

蜡笔小新 2024-09-24 20:31:21
python
Async/await学习：写在前面渣渣新人的首篇外文文章翻译

本文是一篇翻译文章，介绍了async/await的用法和特点。async关键字被放置在函数前面，意味着该函数总是返回一个promise。文章还提到了可以显式返回一个promise的方法。该特性使得async/await更易于理解和使用。本文还提到了一些可能的错误，并希望读者能够指正。 ... [详细]

蜡笔小新 2023-12-09 17:22:06
php
前端微服务二

为了解决庞大的一整块后端服务带来的变更与扩展方面的限制，出现了微服务架构（Microservices）：微服务是面向服务架构（SOA）的一种变体，把应用程序设计成一系列松耦合的细粒 ... [详细]

蜡笔小新 2024-09-30 18:35:19
php
开发笔记:(源码开放) React + webpack3 多页面应用及常见问题解答

本文由编程笔记#小编为大家整理，主要介绍了(源码开放)React+webpack3多页面应用及常见问题解答相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-30 18:22:40
python
PHP 扩展编译的通用方法

2019独角兽企业重金招聘Python工程师标准以memcache扩展为例子首先需要到软件的官方（如memcached的地址http:pecl.php.netp ... [详细]

蜡笔小新 2024-09-30 17:09:26
int
GoogleLog(GLog)源码分析

本文分析和介绍了GLo ... [详细]

蜡笔小新 2024-09-30 15:14:04
python
kafkamanager(cmak)安装及使用

1.软件下载kafka-manager工具目前改名为cmak,下载地址为：https:github.comyahooCMAKreleasestag3.0.0.5现在 ... [详细]

蜡笔小新 2024-09-30 14:31:10
python
docker是跨平台的?_跨平台构建 Docker 镜像新姿势，x86、arm 一把梭

点击阅读原文可以获得更好的阅读体验。前言在工作和生活中，我们可能经常需要将某个程序跑在不同的CPU架构上，比如让某些不可描述的软件运行在树莓派或嵌入 ... [详细]

蜡笔小新 2024-09-29 15:52:01
shell
Spark各组件功能简单理解（quick start）

各个组件confspark-env.sh配置spark的环境变量confspark-default.conf配置spark应用默认的配置项和spark-env.sh有重合之处，可在 ... [详细]

蜡笔小新 2024-09-29 10:05:20
request
干货 | 滴滴数据分析原来是这样做的！

干货,滴滴,数据,分析, ... [详细]

蜡笔小新 2024-09-28 15:43:44
int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
git常用命令及其操作详解

本文详细介绍了git常用命令及其操作方法，包括查看、添加、提交、删除、找回等操作，以及如何重置修改文件、抛弃工作区修改、将工作文件提交到本地暂存区、从版本库中删除文件等。同时还介绍了如何从暂存区恢复到工作文件、恢复最近一次提交过的状态，以及如何合并多个操作等。 ... [详细]

蜡笔小新 2023-12-11 20:28:11

曾巧红--------

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章