存储缓冲区-[y][x]使用的int数组比[x][y]快3倍？

作者：sds家的 | 来源：互联网 | 2022-10-23 13:50

如何解决《存储缓冲区-[y][x]使用的int数组比[x][y]快3倍？》经验，为你挑选了1个好方法。

作为一个测试项目，我使用计算着色器（Vulkan）编写了Consway基本的生活游戏。基本上：

“板”存储在存储缓冲区内部的int数组中。

#define WIDTH 800
#define HEIGHT 600
#define WORKGROUP_SIZE 32

layout (local_size_x = WORKGROUP_SIZE, local_size_y = WORKGROUP_SIZE, local_size_z = 1) in;

layout(binding = 0) readonly buffer buf1 {
   int data[WIDTH][HEIGHT];
} previousBoard;

layout(binding = 1) buffer buf2 {
   int data[WIDTH][HEIGHT];
} nextBoard;

然后，计算着色器每帧更新一次（每个像素调用一次）。

我随机进行了一些更改，并且我注意到，如果使用data[y][x]（from gl_GlobalInvocationID.xy）访问阵列，我的程序比使用（至少在我的计算机（intel UHD 620）上）进行的普通访问要快3倍。data[x][y] [x] [y]为500 fps，而[y] [x]为1700 fps）。

我花了几个小时来隔离这种行为，以确保这不是副作用。我什至反汇编了Spir-v代码，但发现没有什么有趣的东西可以帮助我理解。这里是着色器的差异（带有[x] [y]和[y] [x]）：https : //www.diffchecker.com/vFlkEsQp。

我远远不了解这里会发生什么。是否有任何原因可以解释这种性能差异？

我对使用[y] [x]不太满意（或者应该？），那么我还有另一种方法可以使[x] [y]达到类似的效果吗？

1> Nicol Bolas..：

几乎可以肯定，这是缓存一致性的问题。在GLSL中，an int[WIDTH][HEIGHT]是的HEIGHT1D数组的数组WIDTH int。那是主要的。因此，如果你取previousBoard.data[0][0]，你获取包括第一也许行的接下来的7层的元件，并且高速缓存行（假定32个字节）无第二行的。

您的着色器本身是在2D模型中执行的，在工作组内具有32x32的调用。如果GPU同时执行第一行的调用（0,0到31,0），则仅需要执行4次实际的内存提取。现在，当然，要对所有这些条目执行算法，您将同样需要上一行和下一行，并在右边添加一条用于存储地址的缓存行。

因此，总共需要15次内存提取。听起来可能很多。

但是，让我们检查一下GPU执行第一列调用的情况：0,0到0.31。那么，您需要多少次提取？您需要33（底部下方的行为+1），是数字的两倍。请记住：高速缓存行主要是行，而不是列。

当然，您将需要进行同样多的缓存行写操作。

就是说，列第一调用的顺序应该能够提高性能，因为第二列的调用应该获得与第一列相同的缓存行。但这假设实现将在同一时间执行第二列的调用。如果它决定用更多工作组填充其执行单元（即，它执行列0，列32，列64，列96等），那么您可能还没有缓存。

相比之下，行优先顺序保持合理的缓存一致性，而与执行顺序无关。

您无法更改GPU处理调用的顺序。因此，相反，您应该努力使算法尽可能少地关心该顺序。

首先，由于工作组之间的调用之间没有依赖关系，因此不应将其设为local_size二维。您可以使用确切的数字来找到正确的硬件值，但是16x1或32x1可能会起作用。无法保证调用顺序，但是工作组中适合波前的项目往往会一起执行。因此，这将鼓励它以行为主的方式工作，执行0,0; 1,0; 等在同一时间。

其次，请减少您使用的空间量。生命游戏的一个细胞恰好具有两种状态。但是您正在使用32位来存储这两个状态。即使您希望避免进行严重的位操作的麻烦，也可以至少将uintbe的每个字节都作为一个单独的单元。从a中提取第N个字节uint是一个非常简单的过程。

棘手的部分将是编写此类数据，因为您有不同的调用来编写单独的数据。但是，如果我们假设您在启动之前已将内存清除为零，则可以使用它atomicOr来写入值。

第三，对数据进行细化处理。也就是说，与其将其存储为行和列，不如将其存储在块中。您遇到的主要问题是因为缓存偏向第一个坐标，但是GPU执行时偏向第二个坐标。

不混乱的数据将（0，0）放在字节0，将（1，0）放在字节4，将（0，1）放在字节（4 * WIDTH）。使用swizzling时，您要做的是将四个字节0,0放进去；1,0; 0,1和1,1都在同一高速缓存行上。也就是说，（0，1）位于字节8，而（1，1）位于字节12。这样，如果获取（1，1），则可以确保在同一缓存行中获得所有4个值。。

您可以使用旋转模式的大小来获得最佳性能。

除此之外，您甚至还可以使自己陷入困境gl_InvocationID。不必依赖调度的2D性质来获取调用的源位置，而是可以使调度成为一维的，并xy通过复杂矩阵来计算调用的位置。因此，调用0将是（0，0），调用1将是（1，0），调用2将是（0，1），调用3将是（1，1），依此类推。

如果您进行工作以尽可能地获得最佳的数据存储，并进行细化处理，则每个缓存行可以代表一个8x8的数据块。这意味着任何连续执行的调用组最多只需要4条缓存行值的数据（在4个块的角落）。此外，这还有助于解决编写问题，因为您可以通过原子操作将数据构建为shared变量，并在最后简单地写出值。您可以安排事情，以使来自不同工作组的两次调用都无需写入相同的值。

那将使一切几乎都独立于GPU执行。

推荐阅读

ip
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
io
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
text
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
io
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
ip
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
text
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
io
C++ 编程指南：第16条——在对应的新建和删除操作中使用相同的形式

当使用 `new` 表达式（即通过 `new` 动态创建对象）时，会发生两件事：首先，内存被分配用于存储新对象；其次，该对象的构造函数被调用以初始化对象。为了确保资源管理的一致性和避免内存泄漏，建议在使用 `new` 和 `delete` 时保持形式一致。例如，如果使用 `new[]` 分配数组，则应使用 `delete[]` 来释放内存；同样，如果使用 `new` 分配单个对象，则应使用 `delete` 来释放内存。这种一致性有助于防止常见的编程错误，提高代码的健壮性和可维护性。 ... [详细]

蜡笔小新 2024-11-09 12:21:19
default
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
eval
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
default
掌握MySQL数据库的基础语法与核心操作

本文详细介绍了MySQL数据库的基础语法与核心操作，涵盖从基础概念到具体应用的多个方面。首先，文章从基础知识入手，逐步深入到创建和修改数据表的操作。接着，详细讲解了如何进行数据的插入、更新与删除。在查询部分，不仅介绍了DISTINCT和LIMIT的使用方法，还探讨了排序、过滤和通配符的应用。此外，文章还涵盖了计算字段以及多种函数的使用，包括文本处理、日期和时间处理及数值处理等。通过这些内容，读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]

蜡笔小新 2024-11-11 23:39:51
default
HTML布局问题：设置top:0%和left:0%，但浏览器中仍出现空白填充

在HTML布局中，即使将 `top: 0%` 和 `left: 0%` 设置为元素的定位属性，浏览器中仍然会出现空白填充。这个问题通常与默认的浏览器样式、盒模型或父元素的定位方式有关。为了消除这些空白，可以考虑重置浏览器的默认样式，确保父元素的定位方式正确，并检查是否有其他CSS规则影响了元素的位置。 ... [详细]

蜡笔小新 2024-11-11 11:54:15
ip
深入解析C语言中结构体的内存对齐机制及其优化方法

为了提高CPU访问效率，C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制，并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用，从而提升程序性能。 ... [详细]

蜡笔小新 2024-11-11 11:53:59
text
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
default
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
io
Mac上运行Windows应用程序：Parallels Desktop Mac版全面解析

Parallels Desktop for Mac 是一款功能强大的虚拟化软件，能够在不重启的情况下实现在同一台电脑上无缝切换和使用 Windows 和 macOS 系统中的各种应用程序。该软件不仅提供了高效稳定的性能，还支持多种高级功能，如拖放文件、共享剪贴板等，极大地提升了用户的生产力和使用体验。 ... [详细]

蜡笔小新 2024-11-09 13:40:12

sds家的

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章