深度学习如何挑选GPU？

作者：blovejin | 来源：互联网 | 2023-08-31 16:37

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要9分钟跟随小博主，每天进步一丢丢编辑：Sophia计算机

点击上方&＃xff0c;选择星标或置顶&＃xff0c;每天给你送干货&＃xff01;

阅读大概需要9分钟
跟随小博主&＃xff0c;每天进步一丢丢

编辑&＃xff1a;Sophia
计算机视觉联盟报道 | 公众号 CVLianMeng

转载于 &＃xff1a;极市平台

深度学习是一个对计算有着大量需求的领域&＃xff0c;从一定程度上来说&＃xff0c;GPU的选择将从根本上决定深度学习的体验。因此&＃xff0c;选择购买合适的GPU是一项非常重要的决策。那么2020年&＃xff0c;如何选择合适的GPU呢&＃xff1f;这篇文章整合了网络上现有的GPU选择标准和评测信息&＃xff0c;希望能作为你的购买决策的参考。

1 是什么使一个GPU比另一个GPU更快&＃xff1f;

有一些可靠的性能指标可以作为人们的经验判断。以下是针对不同深度学习架构的一些优先准则&＃xff1a;

Convolutional networks and Transformers: Tensor Cores > FLOPs > Memory Bandwidth > 16-bit capability

Recurrent networks: Memory Bandwidth > 16-bit capability > Tensor Cores > FLOPs

2 如何选择NVIDIA/AMD/Google

NVIDIA的标准库使在CUDA中建立第一个深度学习库变得非常容易。早期的优势加上NVIDIA强大的社区支持意味着如果使用NVIDIA GPU&＃xff0c;则在出现问题时可以轻松得到支持。但是NVIDIA现在政策使得只有Tesla GPU能在数据中心使用CUDA&＃xff0c;而GTX或RTX则不允许&＃xff0c;而Tesla与GTX和RTX相比并没有真正的优势&＃xff0c;价格却高达10倍。

AMD功能强大&＃xff0c;但缺少足够的支持。AMD GPU具有16位计算能力&＃xff0c;但是跟NVIDIA GPU的Tensor内核相比仍然有差距。

Google TPU具备很高的成本效益。由于TPU具有复杂的并行基础结构&＃xff0c;因此如果使用多个云TPU&＃xff08;相当于4个GPU&＃xff09;&＃xff0c;TPU将比GPU具有更大的速度优势。因此&＃xff0c;就目前来看&＃xff0c;TPU更适合用于训练卷积神经网络。

3 多GPU并行加速

卷积网络和循环网络非常容易并行&＃xff0c;尤其是在仅使用一台计算机或4个GPU的情况下。TensorFlow和PyTorch也都非常适合并行递归。但是&＃xff0c;包括transformer在内的全连接网络通常在数据并行性方面性能较差&＃xff0c;因此需要更高级的算法来加速。如果在多个GPU上运行&＃xff0c;应该先尝试在1个GPU上运行&＃xff0c;比较两者速度。由于单个GPU几乎可以完成所有任务&＃xff0c;因此&＃xff0c;在购买多个GPU时&＃xff0c;更好的并行性&＃xff08;如PCIe通道数&＃xff09;的质量并不是那么重要。

4 性能评测

1&＃xff09;来自Tim Dettmers的成本效益评测^[1]

https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

卷积网络&＃xff08;CNN&＃xff09;&＃xff0c;递归网络&＃xff08;RNN&＃xff09;和transformer的归一化性能/成本数&＃xff08;越高越好&＃xff09;。RTX 2060的成本效率是Tesla V100的5倍以上。对于长度小于100的短序列&＃xff0c;Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10进行基准测试。

从这些数据可以看出&＃xff0c;RTX 2060比RTX 2070&＃xff0c;RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores进行16位计算的能力比仅仅拥有更多Tensor Cores内核要有价值得多。

2&＃xff09;来自Lambda的评测^[2,3]

https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/

https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

GPU平均加速/系统总成本

GPU性能&＃xff0c;以每秒处理的图像为单位

以 Quadro RTX 8000 为基准的针对Quadro RTX 8000的图像模型训练吞吐量

3) 来自知乎&＃64;Aero的「在线」GPU评测^[4]

https://www.zhihu.com/question/299434830/answer/1010987691

大家用的最多的可能是Google Colab&＃xff0c;毕竟免费&＃xff0c;甚至能选TPU

不过现在出会员了&＃xff1a;

免费版主要是K80&＃xff0c;有点弱&＃xff0c;可以跑比较简单的模型&＃xff0c;有概率分到T4&＃xff0c;有欧皇能分到P100。

付费就能确保是T4或者P100&＃xff0c;一个月10美元&＃xff0c;说是仅限美国。

Colab毕竟是Google的&＃xff0c;那么你首先要能连得上google&＃xff0c;并且得网络稳定&＃xff0c;要是掉线很可能要重新训练&＃xff0c;综合来看国内使用体验不太好。

下一个是百度AI Studio&＃xff1a;

免费送V100时长非常良心&＃xff0c;以前很多人自己装tensorflow用&＃xff0c;但是现在已经不允许了&＃xff0c;实测tensorflow pytorch都不给装&＃xff0c;必须得用paddlepaddle。那么习惯paddlepaddle的用户完全可以选这个&＃xff0c;其他人不适合。

不过似乎GPU不太够&＃xff0c;白天一直提醒高峰期&＃xff0c;真到了22点后才有。

国外的还有vast.ai&＃xff1a;

5 建议

1&＃xff09;来自Tim Dettmers的建议

总体最佳GPU&＃xff1a;RTX 2070 GPU
避免使用 &＃xff1a;任何Tesla&＃xff1b;任何Quadro&＃xff1b;任何Founders Edition&＃xff1b;Titan RTX&＃xff0c;Titan V&＃xff0c;Titan XP
高效但价格昂贵&＃xff1a;RTX 2070
高效且廉价&＃xff1a;RTX 2060&＃xff0c;GTX 1060&＃xff08;6GB&＃xff09;
价格实惠&＃xff1a;GTX 1060&＃xff08;6GB&＃xff09;
价格低廉&＃xff1a;GTX 1050 Ti&＃xff08;4GB&＃xff09;。或者&＃xff1a;CPU&＃xff08;原型设计&＃xff09;&＃43; AWS / TPU&＃xff08;培训&＃xff09;&＃xff1b;或Colab。
适合Kaggle比赛&＃xff1a;RTX 2070
适合计算机视觉研究人员&＃xff1a;GTX 2080 Ti&＃xff0c;如果训练非常大的网络&＃xff0c;建议使用RTX Titans

2&＃xff09;来自Lambda的建议

截至2020年2月&＃xff0c;以下GPU可以训练所有SOTA语言和图像模型&＃xff1a;

RTX 8000&＃xff1a;48 GB VRAM
RTX 6000&＃xff1a;24 GB VRAM
Titan RTX&＃xff1a;24 GB VRAM

具体建议&＃xff1a;

RTX 2060&＃xff08;6 GB&＃xff09;&＃xff1a;适合业余时间探索深度学习。
RTX 2070或2080&＃xff08;8 GB&＃xff09;&＃xff1a;适合深度学习专业研究者&＃xff0c;且预算为4-6k
RTX 2080 Ti&＃xff08;11 GB&＃xff09;&＃xff1a;适合深度学习专业研究者&＃xff0c;而您的GPU预算约为8-9k。RTX 2080 Ti比RTX 2080快40&＃xff05;。
Titan RTX和Quadro RTX 6000&＃xff08;24 GB&＃xff09;&＃xff1a;适合广泛使用SOTA型号&＃xff0c;但没有用于RTX 8000足够预算的研究者。
Quadro RTX 8000&＃xff08;48 GB&＃xff09;&＃xff1a;价格相对较高&＃xff0c;但性能卓越&＃xff0c;适合未来投资。

参考文献

[1] https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

[2] https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/

[3] https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

[4] https://www.zhihu.com/question/299434830/answer/1010987691

推荐阅读

pytorch
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
pytorch
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
main
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
js
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
js
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
js
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
js
TypeScript: 泛型的力量与价值

本文探讨了 TypeScript 中泛型的重要性和应用场景，通过多个实例详细解析了泛型如何提升代码的复用性和类型安全性。 ... [详细]

蜡笔小新 2024-11-15 12:12:42
js
吴恩达机器学习+deeplearning课程笔记干货链接分享

分享两个GitHub链接，今天看到的，超赞超赞不能更赞了，答应我一定要去看好吗~~~~不论是笔记还是github中分享的其它资源ÿ ... [详细]

蜡笔小新 2024-11-15 09:24:12
request
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
request
专家观点：技术不应局限于自我娱乐，需融入市场思维

短暂的人生中，IT和技术只是其中的一部分。无论换工作还是换行业，最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限，实现更大的职业发展。 ... [详细]

蜡笔小新 2024-11-14 10:24:10
request
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
request
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
js
如何在Conda环境中高效配置并安装PyTorch与TensorFlow GPU版

在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下：首先，创建一个新的Conda环境以避免与基础环境发生冲突，例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着，激活该环境，确保所有依赖项都正确安装。此外，建议在安装过程中指定CUDA版本，以确保与GPU兼容性。通过这些步骤，可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]

蜡笔小新 2024-11-10 10:49:24
js
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35

blovejin

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章