当前位置: 开发笔记 > 编程语言 > 正文

pytorch并行处理详解（多GPU，环境变量）

作者： | 来源：互联网 | 2023-08-24 13:14

目录数据并行方法一：环境变量deviceto(device)第一步，指定*备选*的GPU直接终端中设定：python代码中设定࿱

数据并行
- 方法一&＃xff1a;环境变量 &＃43; device &＃43; to(device)
- - 第一步&＃xff0c;指定*备选*的GPU
  - - - 直接终端中设定&＃xff1a;
        python代码中设定&＃xff1a;
  - 第二步&＃xff0c;创建设备&＃xff08;device&＃xff09;
  - 第三步&＃xff0c;将data和model放置到device上
  - - 注意事项
- 方法二函数 set_device &＃43; 函数.cuda()
- - 第一步&＃xff0c;函数set_device设置device
  - 第二部&＃xff0c;函数.cuda()使用GPU
单机多卡
分布式 torch.distributed.launch 命令的用法&＃xff08;非常直观地讲解---单机多卡与多级多卡&＃xff09;

数据并行

PyTorch默认使用从0开始的GPU&＃xff0c;且默认只使用0号GPU。如果要使用其他编号的GPU或者使用多块GPU&＃xff0c;则要设置。
pytorch并行后&＃xff0c;假设batchsize设置为64&＃xff0c;表示每张并行使用的GPU都使用batchsize&＃61;64来计算&＃xff08;单张卡使用时&＃xff0c;使用batchsize&＃61;64比较合适时&＃xff0c;多张卡并行时&＃xff0c;batchsize仍为64比较合适&＃xff0c;而不是64*并行卡数&＃xff09;。
DataParallel 会自动拆分数据&＃xff0c;并将作业订单发送到多个GPU上的多个模型。在每个模型完成它们的工作之后&＃xff0c;DataParallel 在将结果返回给你之前收集和合并结果。

有两种方法&＃xff1a;

方法一&＃xff1a;环境变量 &＃43; device &＃43; to(device)

第一步&＃xff0c;指定备选的GPU

有如下两种方法来指定需要备选的GPU。
这些GPU 将在程序中可见&＃xff08;但不一定会使用&＃xff0c;真正投入使用需要通过device()函数来再次选择和指定&＃xff09;

使用环境变量CUDA_VISIBLE_DEVICES的方式&＃xff0c;类似于tensorflow指定GPU的方式&＃xff08;http://www.cnblogs.com/darkknightzh/p/6591923.html&＃xff09;。

直接终端中设定&＃xff1a;

CUDA_VISIBLE_DEVICES&＃61;1

python代码中设定&＃xff1a;

1、使用单卡

import os os.environ["CUDA_VISIBLE_DEVICES"] &＃61; "2"

2、使用多块卡的方法。
例如&＃xff0c;使用0号和1号GPU’

import os os.environ["CUDA_VISIBLE_DEVICES"] &＃61; &＃39;0,1&＃39;

第二步&＃xff0c;创建设备&＃xff08;device&＃xff09;

作用&＃xff1a;将备选GPU进一步选择和指定&＃xff0c;真正投入使用中。

device &＃61; torch.device("cuda" if torch.cuda.is_available() else "cpu") # 注意如果 device &＃61; torch.device("cuda")&＃xff0c;则环境变量CUDA_VISIBLE_DEVICES中指定的全部GPU都会被拿来使用。 # 也可以通过 "cuda:0" 、"cuda:1"等指定环境变量CUDA_VISIBLE_DEVICES中指定的多块GPU中的某一块。

注意对应关系。例如&＃xff1a;

import os os.environ["CUDA_VISIBLE_DEVICES"] &＃61; "2, 3, 4, 5" # 将2, 3, 4, 5号GPU作为备选GPU# 这样cuda:0表示使用 2 号GPU device &＃61; torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

第三步&＃xff0c;将data和model放置到device上

# 如果他们已经在目标设备上则不会执行复制操作 input &＃61; data.to(device) model &＃61; MyModule(...).to(device)

注意&＃xff1a;如果有多个GPU&＃xff0c;则model还需要多做一个操作&＃xff08;模型并行化&＃xff09;
第三步骤的多GPU版本如下&＃xff1a;

input &＃61; data.to(device) model &＃61; MyModule(...) #模型并行化 if torch.cuda.device_count() > 1:print("Let&＃39;s use", torch.cuda.device_count(), "GPUs!")model &＃61; nn.DataParallel(model) model &＃61; model.to(device)

注意事项

GPU环境变量只在第一次设置起作用&＃xff0c;此后再设置不会有任何改变了
运行下面代码&＃xff0c;可以观察其作用机制

import os import torch.backends.cudnn as cudnnprint("The are ", torch.cuda.device_count(), "GPUs in all!") os.environ["CUDA_VISIBLE_DEVICES"] &＃61; "0" if not torch.cuda.is_available():device &＃61; torch.device(&＃39;cpu&＃39;) else:cudnn.benchmark &＃61; Truecudnn.enabled &＃61; Truedevice &＃61; torch.device("cuda:1,0")print("The environ has", torch.cuda.device_count(), "GPUs!") print(device)if torch.cuda.device_count() > 1:print("Let&＃39;s use", torch.cuda.device_count(), "GPUs!")

方法二函数 set_device &＃43; 函数.cuda()

不过官方建议使用CUDA_VISIBLE_DEVICES&＃xff0c;不建议使用 set_device 函数。

第一步&＃xff0c;函数set_device设置device

import torch gpu_id &＃61; [0, 1, 2] torch.cuda.set_device(gpu_id)

第二部&＃xff0c;函数.cuda()使用GPU

data.cuda() model.cuda()
单机多卡

当代研究生应当掌握的并行训练方法&＃xff08;单机多卡&＃xff09;

分布式 torch.distributed.launch 命令的用法&＃xff08;非常直观地讲解—单机多卡与多级多卡&＃xff09;

【pytorch记录】pytorch的分布式 torch.distributed.launch 命令在做什么呢
在这里插入图片描述

在这里插入图片描述

推荐阅读

import
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
import
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23
import
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
import
tensorflow在windows和ubuntu环境下CPU版本的安装与配置

目录一、window下的配置0、准备工作1、python3.5安装2、tensorflow1.9的安装3、测试二、Ubuntu下的配置0、准备工作.1、python ... [详细]

蜡笔小新 2023-10-15 13:25:25
import
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
import
强化学习之ActorCritic

强化学习 ... [详细]

蜡笔小新 2023-10-14 14:19:37
import
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
import
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
web
python发送文件传输助手_python 通过 socket 发送文件的实例代码

{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]

蜡笔小新 2023-10-17 20:20:31
web
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
import
tensorflow常用函数解析

一、tf.transpose函数的用法tf.transpose(input,[dimension_1,dimenaion_2,..,dimension_n]):这个函数主要适用于交换输入张量的不同 ... [详细]

蜡笔小新 2023-10-17 10:14:18
import
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
import
Win10+Python3.7+Tensorflow安装

Win10+Python3.7+Tensorflow安装Step1：安装AnacondaStep2：Tensorflow的安装转载请注明出处：https:blog.csdn.net ... [详细]

蜡笔小新 2023-10-16 16:09:49
import
基于TensorFlow的Keras高级API实现手写体数字识别

前言这个项目的话我也是偶然在B站看到一个阿婆主（SvePana）在讲解这个，跟着他的视频敲的代码并学习起来的。并写在自己这里做个笔记也为 ... [详细]

蜡笔小新 2023-10-15 08:10:04
import
Tensorflow中使用tf.conv2d_transpose()函数进行卷积转置操作

我先解释一下必要信息：tf.conv2d_transpose(value,filter,output_shape,strides,paddingSAME,dat ... [详细]

蜡笔小新 2023-10-14 15:48:58