Cuda中Globalmemory中coalescing例程解释

作者：Rain雨露Dew | 来源：互联网 | 2023-10-13 16:58

Globalmemory是cuda中最常见的存储类型，又叫做Devicememory，位于Host主机区域上，它的生命周期是在整个Grid

Global memory是cuda中最常见的存储类型&＃xff0c;又叫做Device memory&＃xff0c;位于Host主机区域上&＃xff0c;它的生命周期是在整个Grid里面&＃xff0c;大约具有500个cycle latency。在cuda并行程序中&＃xff0c;尽量用Coalesing accessing的策略来最大化带宽bandwidth。什么是Coalesing accessing呢&＃xff1f;如图所示&＃xff1a;

当半个Warp的16个threads在一次memory transaction中coalesced时&＃xff0c;Global memory中的带宽得到了最大的利用。其中&＃xff0c;需要注意的是&＃xff0c;Device在一次transaction中&＃xff0c;从global memory中可以一次读取32-bit&＃xff0c;64-bit&＃xff0c;128-bit&＃xff0c;例如

64 bytes - each thread reads a word: int, float, …

128 bytes - each thread reads a double-word: int2, float2, …

32 bytes (compute capability 1.2&＃43;) - each thread reads a short int.

下面有两个实例来说明Global memory中的coalescing问题&＃xff1a;

1&＃xff09;float3型Uncoalesced

__global__ void accessFloat3(float3 *d_in,

float3* d_out)

{

int index &＃61; blockIdx.x * blockDim.x &＃43; threadIdx.x;

float3 a &＃61; d_in[index];

a.x &＃43;&＃61; 2;

a.y &＃43;&＃61; 2;

a.z &＃43;&＃61; 2;

d_out[index] &＃61; a;

}

在这段代码中&＃xff0c;float3有12个bytes&＃xff0c;不等于要求的4,8,16 bytes&＃xff0c;半个warp读取3个64bytes中非连续区域&＃xff0c;如图&＃xff1a;

有三种方法可以解决这个问题

1:使用shared memory&＃xff0c;也叫做3-step approach

假如每个block中使用256个threads&＃xff0c;这样一个thread block需要 sizeof(float3)*256 bytes的share memory空间&＃xff0c;每个thread读取3个单独的float型&＃xff0c;这实质上是指讲输入定义为float型&＃xff0c;在核函数里面讲读取在share memory中的float变量转换为float3型并进行操作&＃xff0c;最后再转换成float型输出&＃xff0c;如图;

代码如下&＃xff1a;

如果不好理解的话&＃xff0c;假设我们的blockDim&＃61;4&＃xff0c;取4个float3型变量&＃xff0c;我们会发现&＃xff0c;每一个thread中输入操作&＃xff08;输出操作一样&＃xff09;为&＃xff1a;

Thread 0&＃xff1a;

S_data[0]&＃61;g_in[0]; S_data[4]&＃61;g_in[4]; S_data[8]&＃61;g_in[8];

Thread 1&＃xff1a;

S_data[1]&＃61;g_in[1]; S_data[5]&＃61;g_in[5]; S_data[9]&＃61;g_in[9];

Thread 2&＃xff1a;

S_data[2]&＃61;g_in[2]; S_data[6]&＃61;g_in[6]; S_data[10]&＃61;g_in[10];

Thread 3&＃xff1a;

S_data[3]&＃61;g_in[3]; S_data[7]&＃61;g_in[7]; S_data[11]&＃61;g_in[11];

可以看出&＃xff0c;对于每个thread同一时刻&＃xff08;similar step&＃xff09;的数据读入&＃xff0c;地址均是连续&＃xff0c;这样就达到了coalescing。

2&＃xff09;使用数组的结构体(SOA)来取代结构体的数组(AOS)

3&＃xff09;使用alignment specifiers

__align__(X), where X &＃61; 4, 8, or 16

struct __align__(16) {float x; float y; float z; };

尽管这损失了比较多的空间&＃xff1a;

2&＃xff09;第二个实例&＃xff1a;矩阵转置 Matrix Transpose.

一般做法&＃xff1a;Uncoalesced Transpose&＃xff0c;GMEM为Global memory

我们发现一般的做法&＃xff0c;在写output时&＃xff0c;地址是不连续的&＃xff0c;即uncoalesced&＃xff0c;因此我们利用shared memory存储输入数据&＃xff0c;根据转置的关系&＃xff0c;来实现coalescing&＃xff0c;SMEM为shared memory&＃xff0c;如下图&＃xff1a;

代码如下&＃xff1a;

__global__ void transpose(float *odata, float *idata, int width, int height)

{

__shared__ float block[BLOCK_DIM*BLOCK_DIM];

unsigned int xBlock &＃61; blockDim.x * blockIdx.x;

unsigned int yBlock &＃61; blockDim.y * blockIdx.y;

unsigned int xIndex &＃61; xBlock &＃43; threadIdx.x;

unsigned int yIndex &＃61; yBlock &＃43; threadIdx.y;

unsigned int index_out, index_transpose;

if (xIndex

{

unsigned int index_in &＃61; width * yIndex &＃43; xIndex;

unsigned int index_block &＃61; threadIdx.y * BLOCK_DIM &＃43; threadIdx.x;

block[index_block] &＃61; idata[index_in];

index_transpose &＃61; threadIdx.x * BLOCK_DIM &＃43; threadIdx.y;

index_out &＃61; height * (xBlock &＃43; threadIdx.y) &＃43; yBlock &＃43; threadIdx.x;

}

__syncthreads();

if (xIndex

odata[index_out] &＃61; block[index_transpose];

程序的逻辑关系有时还挺绕的&＃xff0c;我们以一个4*4矩阵为例&＃xff0c;将逻辑关系展示如下&＃xff1a;

设dim3 gridDim(4,1), dim3 blockDim(1,4)&＃xff0c;以橙色block为例&＃xff0c;如输入数据时&＃xff0c;将其放入到sharememory中&＃xff0c;代码体现在&＃xff1a;

unsigned int index_in &＃61; width * yIndex &＃43; xIndex;

unsigned int index_block &＃61; threadIdx.y * BLOCK_DIM &＃43; threadIdx.x;

block[index_block] &＃61; idata[index_in];

接下来的代码实际上是将block的区域给换了,如左下图所示&＃xff0c;block换成了一列四种不同颜色的&＃xff0c;最终转置的矩阵如右下图所示&＃xff0c;从图示可以看出&＃xff0c;最终结果的坐标系Height、Width、blockIdx.x、blockIdx.y均对位变换了&＃xff0c;这时我们只需要找threadIdx.x&＃39;、threadIdx.y&＃39;与threadIdx.x、threadIdx.y之间的关系&＃xff0c;其实可以看出&＃xff0c;一个block里面的坐标系没有发生变换&＃xff0c;则threadIdx.x&＃39;&＃61;threadIdx.x&＃xff0c;threadIdx.y&＃39;&＃61;threadIdx.y&＃xff0c;所以代码如下&＃xff1a;

index_transpose &＃61; threadIdx.x * BLOCK_DIM &＃43; threadIdx.y;

index_out &＃61; height * (xBlock &＃43; threadIdx.y) &＃43; yBlock &＃43; threadIdx.x;

odata[index_out] &＃61; block[index_transpose];

总体来说&＃xff0c;Global memory中coalescing就是保证其在数据读取或者写入时&＃xff0c;使用连续的地址&＃xff0c;且地址所存储的变量尺寸为32、64、128 bit&＃xff0c;我们常常使用share memory来解决coalescing问题。

推荐阅读

string
Codeforces Round #566 (Div. 2) A~F个人题解

Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意：给你一个的表格，你 ... [详细]

蜡笔小新 2024-12-25 18:41:21
string
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
get
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
post
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
config
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
js
MySQL DateTime 类型数据处理及.0 尾数去除方法

本文介绍如何在 MySQL 中处理 DateTime 类型的数据，并解决获取数据时出现的.0尾数问题。同时，探讨了不同场景下的解决方案，确保数据格式的一致性和准确性。 ... [详细]

蜡笔小新 2024-12-24 19:25:10
string
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12
ip
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
io
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
string
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
ip
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
ip
计算机图形学实训：OpenGL入门与直线光栅化算法

本教程涵盖OpenGL基础操作及直线光栅化技术，包括点的绘制、简单图形绘制、直线绘制以及DDA和中点画线算法。通过逐步实践，帮助读者掌握OpenGL的基本使用方法。 ... [详细]

蜡笔小新 2024-12-26 12:24:25
ip
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
ip
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
web
精选适合UI开发的Canvas框架

本文介绍了多个适用于用户界面设计的Canvas框架，帮助开发者选择最适合的工具。 ... [详细]

蜡笔小新 2024-12-23 20:28:53

Rain雨露Dew

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章