当前位置: 开发笔记 > 编程语言 > 正文

算法岗平时需要自己写cuda吗？

作者： | 来源：互联网 | 2023-09-01 20:53

链接：https:www.zhihu.comquestion436008648编辑：深度学习与计算机视觉声明：仅做学术分享，

链接&＃xff1a;https://www.zhihu.com/question/436008648
编辑&＃xff1a;深度学习与计算机视觉
声明&＃xff1a;仅做学术分享&＃xff0c;侵删

工业界里面numba用的多吗&＃xff0c;还是说工业界主要还是直接写cuda&＃xff1f;

作者&＃xff1a;Chan Yu
https://www.zhihu.com/question/436008648/answer/1649590705

先放结论&＃xff1a;基本上不需要&＃xff0c;但是是很好的加分项&＃xff01;

纯算法岗的话接触CUDA一般是需要实现一些非常规算子来满足一些试验性质的算法尝试。

而大部分自定义算子无论是tensorflow还是pytorch都可以通过现阶段丰富的基本算子库来workaround。

再不济就是利用动态图的性质由numpy、py_func等实现然后手动定义反向梯度函数。

这里相对更重要的反而是算法工程师定义反传的能力。虽然不是什么特别难的工作&＃xff0c;但不少算法岗的同学可能也没仔细思考过最基础的矩阵乘法怎么定义grad&＃xff0c;或者不清楚tensorflow或者pytorch的autograd机制而导致无从下手。

然后提到CUDA最大的关心点必然是性能。无论是速度还是显存都有可能通过CUDA开发来过得极大的提升&＃xff0c;一般体现在访存效率、数据结构设计、算子融合等技巧上。事实上从个人经验来说&＃xff0c;有时候自己实现的算子库跑模型很容易比native的tensorflow快两到三倍&＃xff0c;如果是一些特殊情况&＃xff0c;十几甚至极限情况上百倍也有可能。并且合理的设计比起生硬的用原生算子能够大大减少显存开销&＃xff0c;这对于训练和推理都是有极大益处的。

但是&＃xff0c;CUDA开发有些不小的成本&＃xff0c;特别是对于算法研究&＃xff0c;灵活性非常重要。可能要短时间里尝试很多种不同的自定义算子&＃xff0c;这时候堆机器能解决的话一般先不急着进行深层次的优化&＃xff0c;而且在整个网络结构确定下来之前&＃xff0c;很难进行最终的优化。除非有特别高频使用的算子&＃xff0c;优化前后的差距非常明显(比如对整体的影响5倍左右&＃xff0c;无论是显存还是速度)才可以考虑进行个别算子的优化。万一一通CUDA操作下来&＃xff0c;模型效果提升不明显&＃xff0c;最终的时间/人力成本不一定划算。我更倾向于尽量先验证算法再进行优化。

此外&＃xff0c;涉及到这么深层次的研究&＃xff0c;并且CUDA优化非常必要的情况&＃xff0c;一般公司都会有专门的HPC组或者团队接手了&＃xff0c;或者可能就该思考为什么通用的算子不能满足需求。

再说下CUDA开发的成本。C/CPP本身的编写和调试难度就不提了&＃xff0c;CUDA C基本就是小半个新语言&＃xff0c;Debug逻辑也是全新的。如果为了极限性能进行魔改然后遇到一些非法的显存访问更是头疼&＃xff0c;不过现在各类nv的可视化调试工具出来了应该体验会好很多。一些初入坑的同学可能会觉得把算子换成cudnn api就好了&＃xff0c;但其实很多时候性能瓶颈是来自于访存效率&＃xff0c;这往往意味着需要写新的kernal来融合算子&＃xff0c;亲自掌控显存/缓存的管理。工作量特别是调试上会比想象的大很多。如果只是简单换下cudnn&＃xff0c;很可能反而增大了潜在的数据拷贝开销导致性能变差。这里面的各方面经验需要长时间的积累&＃xff0c;要不就交给专业的团队做&＃xff0c;要不就自己长时间保持这方面的学习实践。基本上不会作为一个算法工程师的必备素质。

但是如果拥有这样的视野对于算法工程师来说是非常好的&＃xff0c;即使没有用到&＃xff0c;平时也能在设计模型时保持从性能和效率的角度思考问题&＃xff0c;而不是局限于模型效果。工业界对于成本是非常看重的。

作者&＃xff1a;DLing
https://www.zhihu.com/question/436008648/answer/1746022828

默认cv岗哈&＃xff01;

一般工作中用不到手撸cuda&＃xff0c;但这位大神却时时刻刻在我们身边&＃xff0c;每天在各种三方库中都能够见到&＃xff0c;就是不大会直接去调用cuda函数。但是如果遇到性能瓶颈了&＃xff0c;可能就得请cuda大神出场了。

比如&＃xff0c;现在要优化模型推理性能&＃xff0c;剪枝&＃xff0c;蒸馏&＃xff0c;量化一大通操作下来&＃xff0c;模型纯推理时间由30ms降到15ms&＃xff0c;性能翻倍&＃xff0c;感觉不错&＃xff0c;但是一看数据预处理&＃xff0c;耗时10ms&＃xff0c;模型后处理耗时15ms&＃xff0c;算下来处理数据花的时间比我模型推理花的时间还要长。这时候&＃xff0c;cuda大神就可以上场了&＃xff0c;我们把预处理和后处理搬到cuda上&＃xff0c;一测&＃xff0c;预处理&＃xff0c;后处理共5ms就搞定了。这时候&＃xff0c;报告一写&＃xff0c;模型推理时间55ms降低到20ms&＃xff0c;领导看后一顿夸&＃xff0c;心里美滋滋&＃xff0c;升职加薪不是梦。

再比如&＃xff0c;最近模型指标一直上不去&＃xff0c;看着三年前的老模型&＃xff0c;一脸嫌弃&＃xff0c;感觉是时候拥抱新模型了。然后各种顶会&＃xff0c;博客看下来&＃xff0c;找到了个三个月前刚发表的新论文&＃xff0c;华丽的辞藻&＃xff0c;sota的指标让你按捺不住&＃xff0c;想赶快把它用在自己的工程中&＃xff0c;结果github上没找到开源代码。这时候&＃xff0c;cuda大神又可以上场了&＃xff0c;熬几个通宵&＃xff0c;把论文中跳动的字符转换成cuda实现的美丽算子&＃xff0c;然后模型一训&＃xff0c;数据一测&＃xff0c;指标提了3个点&＃xff0c;老板看后又一顿夸&＃xff0c;心里又美滋滋&＃xff0c;升职加薪又不是梦。

cuda的作用很多&＃xff0c;水也很深&＃xff0c;一般做cv方向手撸cuda的机会还真不多&＃xff0c;但是真的用上的时候&＃xff0c;大概率是用来解决重大问题的时候。多了解了解&＃xff0c;用的6确实可以算是自己很大的加分项。

作者&＃xff1a;知乎用户
https://www.zhihu.com/question/436008648/answer/1683251210

95%的算法岗都不需要。

真实的故事&＃xff1a;我同事&＃xff0c;再来英伟达前申请的G社&＃xff0c;二轮电话面试被刷。原因是不能熟练的撸一个b树被刷。该同事的背景是当时德国某校Assistant Professor&＃xff0c;出版两本CUDA和并行编程书&＃xff0c;可以熟练撸PTX。当时人家还跟G社争吵说可以提供性能相当的二叉树CUDA实现&＃xff0c;被拒绝并说不需要。

我只能说&＃xff0c;前世界上95%的算法和码农岗位都不需要你能够GPU编程&＃xff0c;刷好题比这些都重要。

当然了&＃xff0c;前一阵G社回来反挖失败那就是另一回事了。

评论圈有人说既然选了G社&＃xff0c;就应该知道需要刷题&＃xff0c;这属于准备不善。确实&＃xff0c;我同事后来也是这么说的&＃xff0c;当时根本就没有准备刷题&＃xff0c;因为本身也没准备去做码农&＃xff0c;抱着试试看的心理去了。

至于这类数据结构和算法轮子&＃xff0c;大家千万不要认为用不到刷的题属于无用功。其实即便是用pytorch写炼丹算法还是要注意这些的。比如什么情况会造成新分配内存啊&＃xff0c;何时内存会被copy啊&＃xff0c;等等。轮子的基础越深&＃xff0c;最后的车的舒适度&＃xff0c;性能也越好&＃xff0c;这是肯定的。

作者&＃xff1a;知乎用户 https://www.zhihu.com/question/436008648/answer/1651056548

这个是基本功&＃xff0c;逃不掉的。

当研究员的话&＃xff0c;总会碰到现有op无法组合出新提出的算法的情况&＃xff0c;有的时候可以强行组合但效率非常低&＃xff0c;也是需要自己写的。

当工程师的话&＃xff0c;为了提高模型速度&＃xff0c;会写cuda&＃xff0c;甚至会优化cuda都是必备技能。

作者&＃xff1a;haichuan
https://www.zhihu.com/question/436008648/answer/1768209276

非深度学习的cv需要的。深度学习有通用的框架&＃xff0c;各家大厂都有做自己的框架&＃xff0c;例如腾讯的TNN。但是传统的计算机视觉没有这种框架&＃xff0c;也没有所谓的神经网络&＃xff0c;算法种类多种多样&＃xff0c;也不可能有人帮你开发推理框架。

为了提升效率&＃xff0c;需要在gpu上跑数据的&＃xff0c;算法也是自己写的&＃xff0c;通常效率估计比不上专门写框架的人&＃xff0c;但是至少比在CPU上快好多倍。

☆ END ☆

推荐阅读

string
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
int
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
cmd
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
int
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
string
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
int
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
int
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
int
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42
get
利用TensorFlow.js在网页浏览器中实现高效的人脸识别JavaScript接口

作者|VincentMühle编译|姗姗出品|人工智能头条（公众号ID：AI_Thinker）【导读】随着深度学习方法的应用，浏览器调用人脸识别技术已经得到了更广泛的应用与提升。在 ... [详细]

蜡笔小新 2024-10-23 10:50:38
int
PHP-Casbin v3.20.0 发布，性能显著提升

PHP-Casbin v3.20.0 已经发布，这是一个使用 PHP 语言开发的轻量级开源访问控制框架，支持多种访问控制模型，包括 ACL、RBAC 和 ABAC。新版本在性能上有了显著的提升。 ... [详细]

蜡笔小新 2024-11-15 10:54:38
get
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
string
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
int
探究 Lua 在 .NET 生态系统中的应用与挑战：鲜为人知的研究领域

在当前的软件开发领域，Lua 作为一种轻量级脚本语言，在 .NET 生态系统中的应用逐渐受到关注。本文探讨了 Lua 在 .NET 环境下的集成方法及其面临的挑战，包括性能优化、互操作性和生态支持等方面。尽管存在一定的技术障碍，但通过不断的学习和实践，开发者能够克服这些困难，拓展 Lua 在 .NET 中的应用场景。 ... [详细]

蜡笔小新 2024-11-08 14:47:43
string
基址获取与驱动开发：内核中提取ntoskrnl模块的基地址方法解析

基址获取与驱动开发：内核中提取ntoskrnl模块的基地址方法解析 ... [详细]

蜡笔小新 2024-11-04 15:56:02

Tags | 热门标签

RankList | 热门文章