PyTorch模型训练中实现CPU与GPU的高效切换方法

作者：晓玲建雯东佳 | 来源：互联网 | 2024-10-23 13:37

1.如何进行迁移使用Pytorch写的模型：对模型和相应的数据使用.cuda()处理。通过这种方式，我们就可以将内存中的数据复制到GPU的显存中去。

1.如何进行迁移

使用Pytorch写的模型&＃xff1a;

对模型和相应的数据使用.cuda()处理。通过这种方式&＃xff0c;我们就可以将内存中的数据复制到GPU的显存中去。从而可以通过GPU来进行运算了。
另外一种方式&＃xff0c;使用.to(device)的方式&＃xff0c;将cpu的数据切换到gpu&＃xff0c;如下:

#配置参数&＃xff1a;config.device &＃61; torch.device(&＃39;cuda&＃39; if torch.cuda.is_available() else &＃39;cpu&＃39;) data &＃61; data.to(config.device)

2.对数据的迁移

.cuda() 操作默认使用GPU 0也就是第一张显卡来进行操作。当我们想要存储在其他显卡中时可以使用 .cuda(<显卡号数>) 来将数据存储在指定的显卡中。还有很多种方式&＃xff0c;具体参考官方文档。

对于不同存储位置的变量&＃xff0c;我们是不可以对他们直接进行计算的。存储在不同位置中的数据是不可以直接进行交互计算的。

换句话说也就是上面例子中的 torch.FloatTensor 是不可以直接与 torch.cuda.FloatTensor 进行基本运算的。位于不同GPU显存上的数据也是不能直接进行计算的。

对于Variable&＃xff0c;其实就仅仅是一种能够记录操作信息并且能够自动求导的容器&＃xff0c;实际上的关键信息并不在Variable本身&＃xff0c;而更应该侧重于Variable中存储的data。

这里举一个例子&＃xff0c;训练的时候&＃xff0c;怎么在epoch中&＃xff0c;将数据从cpu转到gpu&＃xff1a;

for epoch in range(config.num_epochs):print(&＃39;Epoch [{}/{}]&＃39;.format(epoch &＃43; 1, config.num_epochs))total_eval_accuracy &＃61; 0total_loss &＃61; 0for step, batch in enumerate(train_dataloader):#重点的两句话&＃xff0c;batch[0]是训练数据&＃xff0c;batch[1]是训练数据的labelbatch[0] &＃61; torch.LongTensor(batch[0]).to(config.device)batch[1] &＃61; torch.LongTensor(batch[1]).to(config.device)

3.模型迁移

一行代码&＃xff1a;

#config是配置文件&＃xff0c;里面包含了设备信息&＃xff0c;模型参数等&＃xff0c;大致理解意思就好&＃xff0c;不要在乎config里面具体是什么。 model &＃61; Classifier.nn(config.para) model &＃61; model.to(config.device)

4.汇总

在代码中使用GPU训练主要有三处需要注意&＃xff1a;模型转为cuda&＃xff0c;数据转为cuda&＃xff0c;和输出数据去cuda&＃xff0c;转为numpy。修改的地方包括将数据的形式变成 GPU 能读的形式, 然后将网络模型也变成 GPU 能读的形式。

模型训练时:如果数据放在了GPU上&＃xff0c;那么模型也要转到GPU上。

模型预测时:计算预测的acc、auc这类型的评估参数时&＃xff0c;实在cpu上进行的&＃xff0c;所以模型evaluate时&＃xff0c;需要将loss之类的转到cpu上&＃xff0c;例子如下:

labels &＃61; labels.data.cpu().numpy()predic &＃61; torch.max(logits, 1)[1].cpu().numpy()labels_all &＃61; np.append(labels_all, labels)predict_all &＃61; np.append(predict_all, predic)acc &＃61; metrics.accuracy_score(labels_all, predict_all)

转换时常见错误

1.RuntimeError: Input, output and indices must be on the current device

如果你的数据和模型没有同时在gpu或者cpu上&＃xff0c;训练模型时&＃xff0c;会报错如下&＃xff0c;意思是输入和输出需要在同一设备上。

RuntimeError: Input, output and indices must be on the current device

解决方法&＃xff1a;

将数据和模型放在同一设备即可。

2.AttributeError: &＃39;list&＃39; object has no attribute &＃39;cuda&＃39;

没搞清楚数据是不是tensor&＃xff0c;就转到gpu时&＃xff0c;会报出这个错误。

解决方法&＃xff1a;先转为tensor&＃xff0c;再转到gpu。

例子&＃xff1a;

查看自己的target类型&＃xff0c;原为[&＃39;1&＃39;,&＃39;0&＃39;,&＃39;1&＃39;,&＃39;1&＃39;]。这种列表试字符串型。而应该修改为torch.tensor类型。才能用于网络计算

简单改为&＃xff1a;先改为numpy再转换为tensor&＃xff0c;搞定&＃xff01;

label &＃61; torch.from_numpy(np.fromstring(label, dtype&＃61;int, sep&＃61;&＃39;,&＃39;))

参考&＃xff1a;
1.https://zhuanlan.zhihu.com/p/31936740

2.https://blog.csdn.net/qq_21578849/article/details/85240797

3.训练demo&＃xff1a;https://blog.csdn.net/WeDon_t/article/details/104300877?utm_medium&＃61;distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source&＃61;distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param

4.训练常见错误&＃xff1a;https://blog.csdn.net/u014264373/article/details/87640753

推荐阅读

int
深入理解Python的multiprocessing模块

本文详细介绍了Python的multiprocessing模块，该模块不仅支持本地并发操作，还支持远程操作。通过使用multiprocessing模块，开发者可以利用多核处理器的优势，提高程序的执行效率。 ... [详细]

蜡笔小新 2024-11-28 15:03:25
sum
图神经网络模型综述

本文综述了图神经网络（Graph Neural Networks, GNN）的发展，从传统的数据存储模型转向图和动态模型，探讨了模型中的显性和隐性结构，并详细介绍了GNN的关键组件及其应用。 ... [详细]

蜡笔小新 2024-11-28 13:27:43
int
Flutter入门指南：实现自动关闭的对话框与提示

本文为Flutter系列教程的一部分，专注于讲解如何在Flutter应用中实现自动关闭的对话框和提示。通过具体的代码示例，帮助开发者掌握SnackBar、BottomSheet和Dialog的使用方法。 ... [详细]

蜡笔小新 2024-12-03 13:40:43
int
KNN算法中的模型复杂度分析

本文探讨了K近邻(KNN)算法中K值的选择对模型复杂度的影响，通过实验分析不同K值下的模型表现，旨在为KNN算法的应用提供指导。 ... [详细]

蜡笔小新 2024-12-02 14:15:03
int
使用LINQ优化WinForms中CheckedListBox的操作

本文介绍如何利用LINQ扩展方法解决WinForms中CheckedListBox控件的常见操作问题，包括获取选中项的文本并用分隔符连接，以及根据字符串初始化选中状态。 ... [详细]

蜡笔小新 2024-11-30 21:51:36
sum
ORM查询相关的操作

必知必会13条importosos.environ.setdefault(DJANGO_SETTINGS_MODULE,orm_practice.settings)impo ... [详细]

蜡笔小新 2024-12-03 12:18:18
int
C# 编程中的 Main 方法详解

本文详细介绍了 C# 编程语言中 Main 方法的作用、不同形式及其使用场景，帮助开发者更好地理解和应用这一重要概念。 ... [详细]

蜡笔小新 2024-12-03 00:07:55
get
如何在UIWebView中加载本地图片

本文详细介绍了如何在UIWebView中加载本地图片的方法，这对于需要在应用内展示静态页面和富文本内容的场景非常有用。 ... [详细]

蜡笔小新 2024-12-01 12:14:01
int
根据值获得值相同的字段名和所在的表（mysql）

2019独角兽企业重金招聘Python工程师标准这个问题来源于一个奇怪的需求。。太长了懒得解释了。。反正就是希望根据值找到这个值相同的字段名和所在表用程序写可以我不用了直接s ... [详细]

蜡笔小新 2024-12-01 08:25:42
int
Java 实现电话号码验证：利用 Google 的 libphonenumber 库

本文介绍如何使用 Google 开发的 libphonenumber 库在 Java 应用中实现电话号码的有效性验证。该库不仅支持多种国际电话号码的格式化与解析，还提供了一系列强大的验证工具。 ... [详细]

蜡笔小新 2024-12-01 02:35:39
int
使用Python模拟登录教务系统抓取成绩并分析存储

本文详细介绍如何使用Python编程语言模拟登录学校教务系统，抓取学生的成绩信息，并进行数据分析和可视化处理，最终将数据存储到MySQL数据库中。 ... [详细]

蜡笔小新 2024-11-29 16:42:34
int
PyQt5中进度条（QProgressBar）的使用指南

本文介绍了如何在PyQt5中使用进度条（QProgressBar）来展示任务的完成情况。包括初始化进度条、设置其最大最小值以及更新进度的方法。 ... [详细]

蜡笔小新 2024-11-29 12:32:40
int
MySQL 表分区详解及应用

本文详细介绍了MySQL表分区的概念、类型及其在实际应用中的实施方法，特别是针对Zabbix数据库的优化策略。 ... [详细]

蜡笔小新 2024-11-28 16:38:55
sum
C#爬虫Fiddler插件开发自动生成代码

哈喽^_^一般我们在编写网页爬虫的时候经常会使用到Fiddler这个工具来分析http包,而且通常并不是分析一个包就够了的,所以为了把更多的时间放在分析http包上,自动化生成 ... [详细]

蜡笔小新 2024-11-28 13:39:49
int
如何在 VS Code 中调试 Vue 项目

本文详细介绍了如何通过配置 Chrome 和 VS Code 来实现对 Vue 项目的高效调试。步骤包括启用 Chrome 的远程调试功能、安装 VS Code 插件以及正确配置 launch.json 文件。 ... [详细]

蜡笔小新 2024-11-27 11:52:35

晓玲建雯东佳

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章