CUDA编程（一）第一个CUDA程序

作者：北斗七星 | 来源：互联网 | 2023-10-12 13:55

CUDA编程（一）第一个CUDA程序Kernel.cuCUDA是什么？CUDA(ComputeUnifiedDeviceArchit

CUDA编程&＃xff08;一&＃xff09;

第一个CUDA程序 Kernel.cu

CUDA是什么&＃xff1f;

CUDA(Compute Unified Device Architecture)&＃xff0c;是显卡厂商NVIDIA推出的运算平台。是一种通用并行计算架构&＃xff0c;该架构使GPU能够解决复杂的计算问题。说白了就是我们可以使用GPU来并行完成像神经网络、图像处理算法这些在CPU上跑起来比较吃力的程序。通过GPU和高并行&＃xff0c;我们可以大大提高这些算法的运行速度。

有的同学可能知道&＃xff0c;在CPU和GPU上跑同一个神经网络&＃xff0c;由于其大量的浮点数权重计算以及可高并行化&＃xff0c;其速度的差距往往在10倍左右&＃xff0c;原本需要睡一觉才能看到的训练结果也许看两集动漫就OK了。

GPU并行在图像处理方面更是应用广泛&＃xff0c;大家知道图像处理实际上是对图像的二维矩阵进行处理&＃xff0c;图像的尺寸都是几百乘几百的&＃xff0c;很容易就是上万个像素的操作&＃xff0c;随便搞个什么平滑算法&＃xff0c;匹配算法等等的图像算法在CPU上跑个几十秒都是很正常的&＃xff0c;对于图像处理&＃xff0c;神经网络这种大矩阵计算&＃xff0c;往往是可以并行化的&＃xff0c;通过GPU并行化处理往往能够成倍的加速。

综上所述&＃xff0c;去学习一下怎么在GPU上开个几千个线程过把优化瘾还是一件很惬意的事情&＃xff0c;更何况CUDA为我们提供了这么优秀的计算平台&＃xff0c;可以直接使用C/C&＃43;&＃43;写出在显示芯片上执行的程序&＃xff0c;还是一件很赞的事情。

不过CUDA编程需要注意的点是很多的&＃xff0c;有很多因素如果忽略了会大大降低速度&＃xff0c;写的不好的CUDA程序可能会比CPU程序还慢。所以优化和并行是一门很大的学问&＃xff0c;需要我们去不断学习与了解。

CUDA安装

CUDA发展到现在说实话已经比较成熟了&＃xff0c;当然在使用的时候偶尔会出现各种各样的问题(充满血与泪)&＃xff0c;但就谈安装来说已经很简单了&＃xff0c;这里以VS2013和CUDA 7.0为例&＃xff08;现在已经到CUDA7.5了&＃xff0c;我需要使用ZED摄像头&＃xff0c;而它只支持7.0&＃xff0c;所以电脑上装的7.0&＃xff09;。

首先我们随便用搜索引擎搜索CUDA就会找到CUDA Toolkit的下载首页&＃xff1a;

https://developer.nvidia.com/cuda-downloads

之后选择系统下载就好&＃xff1a;

这里写图片描述

下载结束之后一路安装就好&＃xff0c;注意:安装选项那里要选择自定义然后把所有都勾选上&＃xff1a;

这里写图片描述

现在的CUDA安装还是很简单的&＃xff0c;等安装结束之后就会发现CUDA for Visual Studio已经安装成功了&＃xff0c;我们也不需要去添加什么环境变量&＃xff0c;这些工作安装程序都帮我们做好了~之后我们打开VS&＃xff0c;也不需要繁琐的各种引库的过程了&＃xff0c;我们只需要新建一个CUDA工程就可以了~

这里写图片描述

创建好工程之后&＃xff0c;会发现已经自带了一个矩阵相乘的示例代码Kernel.cu,二话不说直接ctrl&＃43;f5编译运行&＃xff0c;如果没报什么编译错误运行成功那就恭喜同学你跑了你的第一个我CUDA程序~Kernel.cu

这里写图片描述

注意&＃xff1a;这里我再多说几句&＃xff0c;我关于各种错误的解决经验。CUDA还是会经常出现各式各样的问题的&＃xff0c;我自己就遇到过好几个。

&＃xff08;1&＃xff09;首先最简单的一个&＃xff0c;你的工程路径不能有中文。。。好多个版本了都没解决这个问题。

&＃xff08;2&＃xff09;然后&＃xff0c;还有一个很傻X的问题&＃xff0c;如果你的C:\Users\****\AppData这个路径&＃xff0c;****部分因为你的Microsoft账户是中文的&＃xff0c;有时候你装完系统登录完账号&＃xff0c;这个文件夹会是中文的。。比如王尼玛会有一个尼玛文件夹。出现这种情况会出现一个什么什么Unicode的错误&＃xff0c;然后基本上是没救了&＃xff0c;反正我最终没能改掉那个文件夹的名字。。。。有知道怎么改的同学一定要告诉我一下。。

&＃xff08;3&＃xff09;有时候还会出现下面这个错误&＃xff0c;这个也很奇葩&＃xff0c;我隔了一周没写CUDA程序&＃xff0c;然后再写的时候原来没问题的程序都编译不过了&＃xff0c;周天就给我来了这么个开门黑&＃xff0c;重装了各种版本的CUDA仍然不行&＃xff0c;弄了两天才莫名其妙的弄好&＃xff0c;这个貌似是因为.net的问题&＃xff0c;我在控制面板-卸载程序-启用或关闭Windows功能里把.net4.5关了,打开了.Net3.5 , 重启&＃xff0c;然后&＃xff0c;还是不行&＃xff0c;我已经准备要重装电脑了&＃xff0c;去吃了个晚饭回来&＃xff0c;莫名其妙行了。

&＃xff08;4&＃xff09;我还遇到过核函数进不去的情况&＃xff0c;也是莫名其妙出现的&＃xff0c;就是下面会讲到的__global__函数&＃xff0c;最后被迫重装了遍CUDA&＃xff0c;然后还是不行&＃xff0c;重启&＃xff0c;结果行了。

总之大家看到我遇到的奇葩问题就知道了&＃xff0c;这玩意有时候还是很脆弱的&＃xff0c;什么杀毒软件&＃xff0c;系统更新啥的都可能随时干掉你的CUDA&＃xff0c;所以防患于未然还是把这些玩意都关了吧。

我知道CUDA安装的还是比较慢的&＃xff0c;安装的时候还是来看一下关于GPU和CUDA架构的一些基础知识吧~

CPU&GPU

上图是CPU与GPU的对比图&＃xff0c;对于浮点数操作能力&＃xff0c;CPU与GPU的能力相差在GPU更适用于计算强度高&＃xff0c;多并行的计算中。因此&＃xff0c;GPU拥有更多晶体管&＃xff0c;而不是像CPU一样的数据Cache和流程控制器。这样的设计是因为多并行计算的时候每个数据单元执行相同程序&＃xff0c;不需要那么繁琐的流程控制&＃xff0c;而更需要高计算能力&＃xff0c;这也不需要大cache。但也因此&＃xff0c;每个GPU的计算单元的结构是十分简单的&＃xff0c;因此对程序的可并行性的要求也是十分苛刻的。

这里我们再介绍一下使用GPU计算的优缺点&＃xff08;摘自《深入浅出谈CUDA》&＃xff0c;所以举的例子稍微老了一点&＃xff0c;但不影响意思哈&＃xff09;&＃xff1a;

使用显示芯片来进行运算工作&＃xff0c;和使用 CPU 相比&＃xff0c;主要有几个好处&＃xff1a;

显示芯片通常具有更大的内存带宽。例如&＃xff0c;NVIDIA 的 GeForce 8800GTX 具有超过50GB/s 的内存带宽&＃xff0c;而目前高阶 CPU 的内存带宽则在 10GB/s 左右。
显示芯片具有更大量的执行单元。例如 GeForce 8800GTX 具有 128 个 “stream processors”&＃xff0c;频率为 1.35GHz。CPU 频率通常较高&＃xff0c;但是执行单元的数目则要少得多。
和高阶 CPU 相比&＃xff0c;显卡的价格较为低廉。例如一张 GeForce 8800GT 包括512MB 内存的价格&＃xff0c;和一颗 2.4GHz 四核心 CPU 的价格相若。

当然&＃xff0c;使用显示芯片也有它的一些缺点&＃xff1a;

显示芯片的运算单元数量很多&＃xff0c;因此对于不能高度并行化的工作&＃xff0c;所能带来的帮助就不大。
显示芯片目前通常只支持 32 bits 浮点数&＃xff0c;且多半不能完全支持 IEEE 754 规格&＃xff0c; 有些运算的精确度可能较低。目前许多显示芯片并没有分开的整数运算单元&＃xff0c;因此整数运算的效率较差。
显示芯片通常不具有分支预测等复杂的流程控制单元&＃xff0c;因此对于具有高度分支的程序&＃xff0c;效率会比较差。
目前 GPGPU 的程序模型仍不成熟&＃xff0c;也还没有公认的标准。例如 NVIDIA 和AMD/ATI 就有各自不同的程序模型。

CUDA架构

host 和 kernel&＃xff1a;

在 CUDA 的架构下&＃xff0c;一个程序分为两个部份&＃xff1a;host 端和 device 端。Host 端是指在 CPU 上执行的部份&＃xff0c;而 device 端则是在显示芯片上执行的部份。Device 端的程序又称为 “kernel”。通常 host 端程序会将数据准备好后&＃xff0c;复制到显卡的内存中&＃xff0c;再由显示芯片执行 device 端程序&＃xff0c;完成后再由 host 端程序将结果从显卡的内存中取回。

由于 CPU 存取显卡内存时只能透过 PCI Express 接口&＃xff0c;因此速度较慢&＃xff08;PCI Express x16 的理论带宽是双向各 4GB/s&＃xff09;&＃xff0c;因此不能太常进行这类动作&＃xff0c;以免降低效率。

thread-block-grid 结构&＃xff1a;

在 CUDA 架构下&＃xff0c;显示芯片执行时的最小单位是thread。数个 thread 可以组成一个block。一个 block 中的 thread 能存取同一块共享的内存&＃xff0c;而且可以快速进行同步的动作。

每一个 block 所能包含的 thread 数目是有限的。不过&＃xff0c;执行相同程序的 block&＃xff0c;可以组成grid。不同 block 中的 thread 无法存取同一个共享的内存&＃xff0c;因此无法直接互通或进行同步。因此&＃xff0c;不同 block 中的 thread 能合作的程度是比较低的。不过&＃xff0c;利用这个模式&＃xff0c;可以让程序不用担心显示芯片实际上能同时执行的 thread 数目限制。例如&＃xff0c;一个具有很少量执行单元的显示芯片&＃xff0c;可能会把各个 block 中的 thread 顺序执行&＃xff0c;而非同时执行。不同的 grid 则可以执行不同的程序&＃xff08;即 kernel&＃xff09;。

每个 thread 都有自己的一份 register 和 local memory 的空间。同一个 block 中的每个thread 则有共享的一份 share memory。此外&＃xff0c;所有的 thread&＃xff08;包括不同 block 的 thread&＃xff09;都共享一份 global memory、constant memory、和 texture memory。不同的 grid 则有各自的 global memory、constant memory 和 texture memory。

执行模式&＃xff1a;

由于显示芯片大量并行计算的特性&＃xff0c;它处理一些问题的方式&＃xff0c;和一般 CPU 是不同的。主要的特点包括&＃xff1a;

内存存取 latency 的问题&＃xff1a;CPU 通常使用 cache 来减少存取主内存的次数&＃xff0c;以避免内存 latency 影响到执行效率。显示芯片则多半没有 cache&＃xff08;或很小&＃xff09;&＃xff0c;而利用并行化执行的方式来隐藏内存的 latency&＃xff08;即&＃xff0c;当第一个 thread 需要等待内存读取结果时&＃xff0c;则开始执行第二个 thread&＃xff0c;依此类推&＃xff09;。
分支指令的问题&＃xff1a;CPU 通常利用分支预测等方式来减少分支指令造成的 pipeline bubble。显示芯片则多半使用类似处理内存 latency 的方式。不过&＃xff0c;通常显示芯片处理分支的效率会比较差。

因此&＃xff0c;最适合利用 CUDA 处理的问题&＃xff0c;是可以大量并行化的问题&＃xff0c;才能有效隐藏内存的latency&＃xff0c;并有效利用显示芯片上的大量执行单元。使用 CUDA 时&＃xff0c;同时有上千个 thread 在执行是很正常的。因此&＃xff0c;如果不能大量并行化的问题&＃xff0c;使用 CUDA 就没办法达到最好的效率了。

总结&＃xff1a;

再写下去篇幅就太长了&＃xff0c;本篇博客主要还是介绍了CUDA的安装以及一些基本的CUDA的架构&＃xff0c;大家趁着CUDA安装的空可以仔细看一下CUDA的结构&＃xff0c;这对后面的编程还是很重要的&＃xff0c;下面我会从一个很小的程序写起&＃xff0c;不断地把上面介绍到的东西都加进去&＃xff0c;希望能帮助到大家的学习。

推荐阅读

io
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
int
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
int
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
int
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
int
Valve 发布 Steam Deck 的新版 Windows 驱动程序

Valve 最新发布了针对 Steam Deck 掌机的 Windows 驱动程序，旨在提升其在 Windows 环境下的兼容性、安全性和性能表现。 ... [详细]

蜡笔小新 2024-12-28 10:31:16
int
CMake跨平台开发实践

本文介绍如何使用CMake支持不同平台的代码编译。通过一个简单的示例，我们将展示如何编写CMakeLists.txt以适应Linux和Windows平台，并实现跨平台的函数调用。 ... [详细]

蜡笔小新 2024-12-27 14:43:56
数组
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
int
并发编程：深入理解设计原理与优化

本文探讨了并发编程中的关键设计原则，特别是Java内存模型（JMM）的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案，并总结了不同处理器和内存模型之间的关系，旨在为程序员提供更深入的理解和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 01:14:06
int
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
range
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
range
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
int
TWEN-ASR 语音识别入门：运行首个程序

本文详细介绍了如何使用TWEN-ASR ONE开发板运行第一个语音识别程序，包括开发环境搭建、代码编写、下载和调试等步骤。 ... [详细]

蜡笔小新 2024-12-17 11:03:50
数组
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32
match
【度量学习】Siamese Network

基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章：《LearningtoCompar ... [详细]

蜡笔小新 2024-12-12 19:11:33
int
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15

北斗七星

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章