当前位置: 开发笔记 > 后端 > 正文

BetterPerformanceatLowerOccupancy(一)使用更少线程隐藏计算延迟

作者：手机用户2502870863 | 来源：互联网 | 2023-06-21 12:38

这两天看到VasilyVolkov的ppt，对如何更有效的使用GPU做通用计算提出了增加线程级并行以外的另一种方法---增加指令级并行，受益匪浅。刚好也没找到中文版本，就翻译过来与大家交

这两天看到Vasily Volkov的ppt，对如何更有效的使用GPU做通用计算提出了增加线程级并行以外的另一种方法---增加指令级并行，受益匪浅。刚好也没找到中文版本，就翻译过来与大家交流下，有错误请各位指正，所有的实验结果和图片均出自原ppt。请参考《Better Performance at Lower Occupancy》后面两个案例。

　　以下为译文：

　　为提升GPU的效率，常用的方法是提升设备占用率(occupancy)，包括在每个流处理器上运行更多的线程和为每个线程块设定更多的线程。人们常常认为这是隐藏延迟的唯一方法，但我们的实验结果证明最大化占用率反而可能会降低性能：

　　大矩阵相乘，单精度浮点(SGEMM)

　　1024点复数到复数快速傅里叶变换(FFT)，单精度浮点：

　　两个常见谬误：

　　1. 多线程是GPU上隐藏延迟的唯一方法。

　　2. 共享内存和寄存器一样快。

　　整个报告分成五部分：

　　1. 使用更少线程隐藏计算延迟。

　　2. 使用更少线程隐藏内存访问延迟。

　　3. 使用更少线程来加速。

　　4. 案例研究：矩阵相乘。

　　5. 案例研究：FFT。

　　使用更少线程隐藏计算延迟

　　计算的延迟

　　延迟：执行操作所需时间。一次计算操作需要约20个时钟周期，一次内存访问操作需要400+个时钟周期：

计算的延迟

　　以上代码中计算z时，由于z对x的依赖性，在计算x的延迟期内(约20cycle)，该操作无法执行。但y的计算由于没有依赖性，因而可以与x的计算重叠(即在20cycle内执行)。

　　计算的吞吐量

　　延迟的概念常常与吞吐量的概念混淆，比如“计算比内存操作快100倍----每个warp(G80)只需花费4个时钟周期，而内存操作要花费400个时钟周期”这句话就是错误的，因为前者是比率，而后者是时间。

　　吞吐量：每个时钟周期完成多少条指令。

　　计算：1.3Tflop/s = 480 ops/cycle (指令每周期) (指令为乘加运算)

　　访问显存：177GB/s ≈ 32 ops/cycle (指令为32位装载)

　　隐藏延迟：在延迟等待时做其他的操作。这样可以运行更快，但上限为峰值。那么怎样达到峰值呢?

　　使用里特尔定律(Little’s law)，即所需并行度=延迟*吞吐量

计算的吞吐量

　　那么当前设备的并行度怎样呢?

计算的吞吐量

　　(延迟随指令的不同而变化)

　　由于指令的延迟固定，如果没有足够的并行度，就不可能达到100%的吞吐量，也就是说没有足够多的运行中指令，那么就存在空闲指令周期。

　　怎样得到足够的并行度?

　　线程级并行(TLP)：通常做法是使用足够的线程来提供需要的并行度，比如：在G80上每个SM执行192个线程。

怎样得到足够的并行度?

　　指令级并行(ILP)：但你同样可以在单个线程内利用指令间的并行性来达到足够的并行度。

怎样得到足够的并行度?

　　你可以在GPU上同时使用ILP和TLP。

　　这个规则适用于所有可以运行CUDA的GPU。

　　比如在G80上，如果没有ILP，你可以通过25%的GPU占用率达到100%的峰值;或者，在每个线程中有三条指令可以同时进行的情况下，通过8%的GPU占用率达到峰值。

　　而在GF104上，如果要达到66%以上的峰值性能，你则必须应用IPL，因为：每个SM中有48个核，单条指令每次广播给16个核。而为了使每个核都有指令执行，单个时钟周期内必须分发3条指令，但事实上每个SM中只有2个warp调度器，无法分发3条指令。所以NV在这里提供了ILP，每个warp在同一指令周期内却可以分发两条以上的指令，这就给我们提供了使每个核都有指令执行的方法。

　　我们用实验来证明：

　　1.不用ILP来运行大量计算指令

实验证明

　　将N_ITERATIONS设定为一个很大的数，选择合适的UNROLL，并保证a,b,c都存储在寄存器中。执行一个block(即只使用一个SM)，选择不同的线程块大小，检测所能达到的性能：

实验证明

　　GPU为GTX480，理论峰值为1.3Tflop/s，一个SM就是89.6Gflop/s(1.3T/15, GTX480中有15个SM)

　　可以看到，如果没有ILP，一个SM上需要576个线程才能达到100%的利用率

　　2. 引入指令级并行

　　实验ILP=2时，即每个线程执行2条相互独立的指令，

实验证明

　　那么如果使用更多线程是在GPU上隐藏延迟的唯一方法，则我们应该得到相同的性能曲线，事实上：

实验证明

　　虚线标出的是原本曲线，可以看出：

　　当ILP=2时，只需要320个线程就能达到100%的利用率

　　加入更多的指令级并行：

　　当ILP=3时，每个线程3条独立指令：

实验证明

　　得到的结果是：

实验证明

　　即当ILP=3时，只需要256个线程就可以达到100%利用率。

　　不幸的是，当ILP超过4时，就不会再扩展了(lz：猜想每个warp在一个时钟周期内最多就只能分发4条指令了)

实验证明

　　当ILP=4时，需要192个线程就能达到100%的利用率。

　　总结

　　可以通过两种方法隐藏计算延迟

　　实验证明

　　这条同样适用于其他GPU，比如G80架构

　　实验证明

　　谬误：提升占用率是隐藏延迟的唯一方法?错误，提升ILP是另一种方法。

　　谬误：占用率是衡量GPU利用率的标准?错误，它只是一个影响因素。

　　谬误：“为完全隐藏计算延迟，流处理器必须在计算能力为1.x的设备上运行至少192个线程，或者在计算能力为2.0的设备上运行384个线程”(出自CUDA Best Practices Guide)。错误，在G80-GT200上通过64个线程，在GF100上通过192个线程同样可以达到目的。

推荐阅读

jvm
Web与游戏开发的主要差异

本文探讨了Web开发与游戏开发之间的主要区别，旨在帮助开发者更好地理解两种开发领域的特性和需求。文章基于作者的实际经验和网络资料整理而成。 ... [详细]

蜡笔小新 2024-12-18 08:26:30
jvm
三星Galaxy S8/S8+即将登场，全面解析新旗舰

3月29日晚11点，备受瞩目的三星Galaxy S8/S8+将正式发布。作为三星在Note 7爆炸事件后的重磅产品，S8/S8+不仅承载着恢复消费者信心的重任，其创新的设计和技术也备受期待。 ... [详细]

蜡笔小新 2024-12-18 10:21:02
php
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
ci
Java程序员必备：最新面试问题解析（基础篇）

本文整理了一系列Java面试问题，涵盖Java开发环境的分类、Java语言的核心特性、Linux环境下Java SE的安装步骤、常用的Java开发工具介绍，以及类与对象的基本概念等。 ... [详细]

蜡笔小新 2024-12-15 12:13:22
ci
浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录

近日，国际权威AI基准测试平台MLPerf发布了最新的推理测试结果，浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录，显著提升了数据中心AI推理性能。 ... [详细]

蜡笔小新 2024-12-12 13:57:17
php
精选Unity开源项目：UniRx实现响应式编程

本文介绍了Unity中的响应式编程框架——UniRx，探讨了其在解决异步编程难题中的应用及优势。 ... [详细]

蜡笔小新 2024-12-12 13:40:42
jvm
深入解析JVM：类加载子系统详解

本文旨在深入探讨Java虚拟机（JVM）中的类加载子系统，包括其基本结构、类加载器的工作原理、类的加载过程以及双亲委派机制。通过对这些关键点的详细分析，帮助读者更好地理解和掌握JVM的核心机制。 ... [详细]

蜡笔小新 2024-12-12 12:59:12
c语言
Java集合框架源码解读(1)——ArrayList、LinkedList和Vector

java.util.List接口是JavaCollectionsFramework的一个重要组成部分，List接口的架构图如下：本文将通过剖析List接 ... [详细]

蜡笔小新 2024-12-10 15:35:12
php
Ubuntu 7.10 常用软件安装指南

本文详细介绍了在Ubuntu 7.10操作系统上安装多种常用软件的方法，包括RAR压缩工具、即时通讯软件Pidgin、办公软件永中Office 2007试用版、多线程下载软件MultiGet及d4x、FTP客户端gFTP与FireFTP插件，以及P2P下载工具aMule。每部分都提供了具体的安装步骤和配置方法。 ... [详细]

蜡笔小新 2024-12-09 10:29:31
php
Delphi 类对象成员解析：System、TObject、TClass 和消息处理机制

本文深入探讨了 Delphi 中类对象成员的核心概念，包括 System 单元的基础知识、TObject 类的定义及其方法、TClass 的作用以及对象的消息处理机制。文章不仅解释了这些概念的基本原理，还提供了丰富的补充和专业解答，帮助读者全面理解 Delphi 的面向对象编程。 ... [详细]

蜡笔小新 2024-12-19 18:28:06
正则
Python 测试框架概览：Nose 详解

本文将详细介绍Nose这一非标准库的Python测试框架，它虽然不是Python官方发行版的一部分，但与unittest框架紧密相关，旨在通过简化测试流程来提升开发效率。 ... [详细]

蜡笔小新 2024-12-19 18:10:39
正则
Unity开发环境配置常见问题及解决方案

本文介绍了在使用Unity3D和VS Code编写脚本代码时遇到的配置问题及其解决方案，包括必要的插件安装与依赖关系处理。 ... [详细]

蜡笔小新 2024-12-19 18:06:15
go
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
php
Google排名优化－面向Google(Search Engine Friendly)的URL设计

Google排名优化－面向Google(Search Engine Friendly)的URL设计 ... [详细]

蜡笔小新 2024-12-19 16:16:50
api
C++ 中实现多线程文件写入

本文探讨了在 C++ 中如何利用多线程技术进行文件写入操作，重点介绍了文件 IO 操作、线程创建与管理以及临界区的使用方法。 ... [详细]

蜡笔小新 2024-12-09 14:54:15

手机用户2502870863

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章