当前位置: 开发笔记 > 编程语言 > 正文

OpenCL多次循环执行内核的一个简单样例

作者：我就是个2丶 | 来源：互联网 | 2023-08-17 11:56

最近有不少朋友在多次循环执行OpenCL内核程序的时候碰到一些问题。由于对OpenCL初学者而言可能比较普遍，因此我这里给出一个清晰简单的demo来掩饰如何简单又高效地执行循环执行OpenCL内核。

以下程序的大概意思与流程是：

内核程序含有两个参数，第一个参数既是输入又是输出，第二个参数仅仅用于输入。不过第一个参数只对其初始化一次，而第二个参数在每次循环执行新一次的内核程序前会再传递一次数据。这么做有助于同学更好地去理解、把握存储器对象的基本使用方法。

存储器对象在通过cl_context上下文创建完之后，其所在的GPU端的位置就不变了。因此，我们在循环执行内核程序之前不需要把存储器对象释放掉，然后重新分配。这么做就比较低效了。我们完全可以重用同一个存储器对象。

以下代码在我的MacBook Air上能完全通过编译执行。没有任何warning。

执行环境：基于Haswell微架构的Intel Core i7 4650U，Intel HD Graphics 5000，8GB DDR3L，128GB SSD。

OS X 10.9.2 Mavericks，Xcode 5.1，Apple LLVM 5.1，支持GNU11标准的C编译器。

#include 
#include <string.h>
#include 

#ifdef __APPLE__
#include 
#else
#include 
#endif


int main(void)
{
    cl_int ret;
    
    cl_platform_id platform_id = NULL;
    cl_device_id device_id = NULL;
    cl_context context = NULL;
    cl_command_queue command_queue = NULL;
    cl_mem memObj1 = NULL;
    cl_mem memObj2 = NULL;
    char *kernelSource = NULL;
    cl_program program = NULL;
    cl_kernel kernel = NULL;
    int *pInputBuffer1 = NULL;
    int *pInputBuffer2 = NULL;
    int *pOutputBuffer = NULL;
    
    clGetPlatformIDs(1, &platform_id, NULL);
    if(platform_id == NULL)
    {
        puts("Get OpenCL platform failed!");
        goto FINISH;
    }
    
    clGetDeviceIDs(platform_id, CL_DEVICE_TYPE_GPU, 1, &device_id, NULL);
    if(device_id == NULL)
    {
        puts("No GPU available as a compute device!");
        goto FINISH;
    }
    
    context = clCreateContext(NULL, 1, &device_id, NULL, NULL, &ret);
    if(cOntext== NULL)
    {
        puts("Context not established!");
        goto FINISH;
    }
    
    command_queue = clCreateCommandQueue(context, device_id, 0, &ret);
    if(command_queue == NULL)
    {
        puts("Command queue cannot be created!");
        goto FINISH;
    }
    
    // Specify the path of the kernel source
    const char *pFileName = "/Users/zennychen/Downloads/test.cl";
    
    FILE *fp = fopen(pFileName, "r");
    if (fp == NULL)
    {
        puts("The specified kernel source file cannot be opened!");
    goto FINISH;
    }
    fseek(fp, 0, SEEK_END);
    const long kernelLength = ftell(fp);
    fseek(fp, 0, SEEK_SET);
    
    kernelSource = malloc(kernelLength);
    
    fread(kernelSource, 1, kernelLength, fp);
    fclose(fp);
    
    program = clCreateProgramWithSource(context, 1, (const char**)&kernelSource, (const size_t*)&kernelLength, &ret);
    ret = clBuildProgram(program, 1, &device_id, NULL, NULL, NULL);
    if (ret != CL_SUCCESS)
    {
        size_t len;
        char buffer[8 * 1024];
        
        printf("Error: Failed to build program executable!\n");
        clGetProgramBuildInfo(program, device_id, CL_PROGRAM_BUILD_LOG, sizeof(buffer), buffer, &len);
        printf("%s\n", buffer);
        goto FINISH;
    }
    
    kernel = clCreateKernel(program, "test", &ret);
    if(kernel == NULL)
    {
        puts("Kernel failed to create!");
        goto FINISH;
    }
    
    const size_t cOntentLength= sizeof(*pInputBuffer1) * 1024 * 1024;
    
    // 这里预分配的缓存大小为4MB，第一个参数是读写的
    memObj1 = clCreateBuffer(context, CL_MEM_READ_WRITE, contentLength, NULL, &ret);
    if(memObj1 == NULL)
    {
        puts("Memory object1 failed to create!");
        goto FINISH;
    }
    
    // 这里预分配的缓存大小为4MB，第一个参数是只读的
    memObj2 = clCreateBuffer(context, CL_MEM_READ_ONLY, contentLength, NULL, &ret);
    if(memObj1 == NULL)
    {
        puts("Memory object2 failed to create!");
        goto FINISH;
    }
    
    ret = clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&memObj1);
    ret |= clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&memObj2);
    
    if(ret != CL_SUCCESS)
    {
        puts("Set arguments error!");
        goto FINISH;
    }
    
    // 以下为在主机端分配输入缓存
    pInputBuffer1 = malloc(contentLength);
    pInputBuffer2 = malloc(contentLength);
    
    // 然后对此工作缓存进行初始化
    for(int i = 0; i <1024 * 1024; i++)
        pInputBuffer1[i] = i + 1;
    
    memset(pInputBuffer2, 0, contentLength);
    
    // 然后分配输出缓存
    pOutputBuffer = malloc(contentLength);
    
    // 先将第一个参数的数据传入GPU端，以后就不去改动了
    ret = clEnqueueWriteBuffer(command_queue, memObj1, CL_TRUE, 0, contentLength, pInputBuffer1, 0, NULL, NULL);
    if(ret != CL_SUCCESS)
    {
        puts("Data transfer failed");
        goto FINISH;
    }
    
    int count = 5;  // 执行5次循环
    
    do
    {
        // 先将第二个参数传给GPU
        ret = clEnqueueWriteBuffer(command_queue, memObj2, CL_TRUE, 0, contentLength, pInputBuffer2, 0, NULL, NULL);
        if(ret != CL_SUCCESS)
        {
            puts("Data transfer failed");
            goto FINISH;
        }
        
        // 这里指定将总共有1024 * 1024个work-item
        ret = clEnqueueNDRangeKernel(command_queue, kernel, 1, NULL, (const size_t[]){1024 * 1024}, NULL, 0, NULL, NULL);
        
        // 将结果拷贝给主机端
        ret = clEnqueueReadBuffer(command_queue, memObj1, CL_TRUE, 0, contentLength, pOutputBuffer, 0, NULL, NULL);
        
        // 做次同步，这里偷懒，不用wait event机制了～
        clFinish(command_queue);
        
        // 做校验
        const int newValue = 5 - count + 1;
        const int addition = (5 - count) * newValue / 2;
        for(int i = 0; i <1024 * 1024; i++)
        {
            if(pOutputBuffer[i] != i + 1 + addition)
            {
                puts("Result error!");
                break;
            }
        }
        
        // 最后，给第二个缓存初始化新数据
        for(int i = 0; i <1024 * 1024; i++)
            pInputBuffer2[i] = newValue;
    }
    while(--count > 0);
    
    
FINISH:
    
    /* Finalization */
    if(pInputBuffer1 != NULL)
        free(pInputBuffer1);
    if(pInputBuffer2 != NULL)
        free(pInputBuffer2);
    if(pOutputBuffer != NULL)
        free(pOutputBuffer);
    
    if(kernelSource != NULL)
        free(kernelSource);
    
    if(memObj1 != NULL)
        clReleaseMemObject(memObj1);
    if(memObj2 != NULL)
        clReleaseMemObject(memObj2);
    
    if(kernel != NULL)
        clReleaseKernel(kernel);
    
    if(program != NULL)
        clReleaseProgram(program);
    
    if(command_queue != NULL)
        clReleaseCommandQueue(command_queue);
    
    if(context != NULL)
        clReleaseContext(context);
    
    return 0;
}

上面OpenCL内核源文件的路径被写死了——“/Users/zennychen/Downloads/test.cl”。各位可以根据自己环境重新指定。

另外，上面用了一些C99语法特性。如果是用Win7的小伙伴们，请使用Visual Studio 2013（Express/Professional）的C编译器。

下面是OpenCL内核源文件：

__kernel void test(__global int *pInOut, __global int *pIn)
{
    int index = get_global_id(0);
    
    pInOut[index] += pIn[index];
}

推荐阅读

go
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
string
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
express
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
go
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
match
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
instance
C++实现的键盘输入记录程序源代码分析与应用

本文详细解析了使用C++实现的键盘输入记录程序的源代码，该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用，还为开发者提供了强大的调试和监控工具。通过具体实例，本文深入探讨了C++键盘记录程序的设计与实现，适合需要相关技术的开发者参考。 ... [详细]

蜡笔小新 2024-11-10 15:44:03
byte
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
uri
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
uml
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
byte
使用 QT 实现 YUV420 图像渲染技术

在使用 Qt 进行 YUV420 图像渲染时，由于 Qt 本身不支持直接绘制 YUV 数据，因此需要借助 QOpenGLWidget 和 OpenGL 技术来实现。通过继承 QOpenGLWidget 类并重写其绘图方法，可以利用 GPU 的高效渲染能力，实现高质量的 YUV420 图像显示。此外，这种方法还能显著提高图像处理的性能和流畅性。 ... [详细]

蜡笔小新 2024-11-09 15:02:41
go
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
string
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26
cmd
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
byte
Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？

Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？ ... [详细]

蜡笔小新 2024-11-08 09:14:47
string
开发笔记：实现1353表达式中的括号匹配（栈的应用）

开发笔记：实现1353表达式中的括号匹配（栈的应用） ... [详细]

蜡笔小新 2024-11-10 14:35:41

我就是个2丶

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章