CUDASamples:ImageProcess:BGRtoBGR565

作者：轻淞猪 | 来源：互联网 | 2023-09-17 21:57

图像像素格式BGR565是每一个像素占2个字节，其中Blue占5位，Green占6位，Red占5位。在OpenCV中，BGR

图像像素格式BGR565是每一个像素占2个字节&＃xff0c;其中Blue占5位&＃xff0c;Green占6位&＃xff0c;Red占5位。在OpenCV中&＃xff0c;BGR到BGR565的每一个像素的计算公式是&＃xff1a;

unsigned short dst &＃61; (unsigned short)((B >> 3) | ((G & ~3) <<3) | ((R & ~7) <<8) )

下面分别给出了C&＃43;&＃43;和CUDA实现的测试代码&＃xff0c;如下&＃xff1a;

bgr2bgr565.cpp:

#include "funset.hpp" #include #include "common.hpp"int bgr2bgr565_cpu(const unsigned char* src, int width, int height, unsigned char* dst, float* elapsed_time) {TIME_START_CPUfor (int y &＃61; 0; y > 3) | ((p1[1] & ~3) <<3) | ((p1[2] & ~7) <<8));}}TIME_END_CPUreturn 0; }
bgr2bgr565.cu:

#include "funset.hpp" #include #include #include #include #include "common.hpp"/* __global__: 函数类型限定符;在设备上运行;在主机端调用,计算能力3.2及以上可以在设备端调用;声明的函数的返回值必须是void类型;对此类型函数的调用是异步的,即在设备完全完成它的运行之前就返回了;对此类型函数的调用必须指定执行配置,即用于在设备上执行函数时的grid和block的维度,以及相关的流(即插入<<<>>>运算符); a kernel,表示此函数为内核函数(运行在GPU上的CUDA并行计算函数称为kernel(内核函数),内核函数必须通过__global__函数类型限定符定义);*/ __global__ static void bgr2bgr565(const unsigned char* src, int width, int height, unsigned char* dst) {/* gridDim: 内置变量,用于描述线程网格的维度,对于所有线程块来说,这个变量是一个常数,用来保存线程格每一维的大小,即每个线程格中线程块的数量.一个grid为三维,为dim3类型&＃xff1b;blockDim: 内置变量,用于说明每个block的维度与尺寸.为dim3类型,包含了block在三个维度上的尺寸信息;对于所有线程块来说,这个变量是一个常数,保存的是线程块中每一维的线程数量;blockIdx: 内置变量,变量中包含的值就是当前执行设备代码的线程块的索引;用于说明当前thread所在的block在整个grid中的位置,blockIdx.x取值范围是[0,gridDim.x-1],blockIdx.y取值范围是[0, gridDim.y-1].为uint3类型,包含了一个block在grid中各个维度上的索引信息;threadIdx: 内置变量,变量中包含的值就是当前执行设备代码的线程索引;用于说明当前thread在block中的位置;如果线程是一维的可获取threadIdx.x,如果是二维的还可获取threadIdx.y,如果是三维的还可获取threadIdx.z;为uint3类型,包含了一个thread在block中各个维度的索引信息 */int x &＃61; threadIdx.x &＃43; blockIdx.x * blockDim.x;int y &＃61; threadIdx.y &＃43; blockIdx.y * blockDim.y;//if (x &＃61;&＃61; 0 && y &＃61;&＃61; 0) {// printf("%d, %d\n", width, height);//}if (x > 3) | ((p[1] & ~3) <<3) | ((p[2] & ~7) <<8));} }int bgr2bgr565_gpu(const unsigned char* src, int width, int height, unsigned char* dst, float* elapsed_time) {unsigned char *dev_src{ nullptr }, *dev_dst{ nullptr };// cudaMalloc: 在设备端分配内存cudaMalloc(&dev_src, width * height * 3 * sizeof(unsigned char));cudaMalloc(&dev_dst, width * height * 2 * sizeof(unsigned char));/* cudaMemcpy: 在主机端和设备端拷贝数据,此函数第四个参数仅能是下面之一:(1). cudaMemcpyHostToHost: 拷贝数据从主机端到主机端(2). cudaMemcpyHostToDevice: 拷贝数据从主机端到设备端(3). cudaMemcpyDeviceToHost: 拷贝数据从设备端到主机端(4). cudaMemcpyDeviceToDevice: 拷贝数据从设备端到设备端(5). cudaMemcpyDefault: 从指针值自动推断拷贝数据方向,需要支持统一虚拟寻址(CUDA6.0及以上版本)cudaMemcpy函数对于主机是同步的 */cudaMemcpy(dev_src, src, width * height * 3 * sizeof(unsigned char), cudaMemcpyHostToDevice);/* cudaMemset: 存储器初始化函数,在GPU内存上执行。用指定的值初始化或设置设备内存 */cudaMemset(dev_dst, 0, width * height * 2 * sizeof(unsigned char));TIME_START_GPU/* dim3: 基于uint3定义的内置矢量类型&＃xff0c;相当于由3个unsigned int类型组成的结构体&＃xff0c;可表示一个三维数组&＃xff0c;在定义dim3类型变量时&＃xff0c;凡是没有赋值的元素都会被赋予默认值1 */// Note&＃xff1a;每一个线程块支持的最大线程数量为1024&＃xff0c;即threads.x*threads.y必须小于等于1024dim3 threads(32, 32);dim3 blocks((width &＃43; 31) / 32, (height &＃43; 31) / 32);/* <<<>>>: 为CUDA引入的运算符,指定线程网格和线程块维度等,传递执行参数给CUDA编译器和运行时系统,用于说明内核函数中的线程数量,以及线程是如何组织的;尖括号中这些参数并不是传递给设备代码的参数,而是告诉运行时如何启动设备代码,传递给设备代码本身的参数是放在圆括号中传递的,就像标准的函数调用一样;不同计算能力的设备对线程的总数和组织方式有不同的约束;必须先为kernel中用到的数组或变量分配好足够的空间,再调用kernel函数,否则在GPU计算时会发生错误,例如越界等 ;使用运行时API时,需要在调用的内核函数名与参数列表直接以<<>>的形式设置执行配置,其中&＃xff1a;Dg是一个dim3型变量,用于设置grid的维度和各个维度上的尺寸.设置好Dg后,grid中将有Dg.x*Dg.y*Dg.z个block;Db是一个dim3型变量,用于设置block的维度和各个维度上的尺寸.设置好Db后,每个block中将有Db.x*Db.y*Db.z个thread;Ns是一个size_t型变量,指定各块为此调用动态分配的共享存储器大小,这些动态分配的存储器可供声明为外部数组(extern __shared__)的其他任何变量使用;Ns是一个可选参数,默认值为0;S为cudaStream_t类型,用于设置与内核函数关联的流.S是一个可选参数,默认值0. */// Note: 核函数不支持传入参数为vector的data()指针&＃xff0c;需要cudaMalloc和cudaMemcpy&＃xff0c;因为vector是在主机内存中bgr2bgr565 <<> >(dev_src, width, height, dev_dst);/* cudaDeviceSynchronize: kernel的启动是异步的, 为了定位它是否出错, 一般需要加上cudaDeviceSynchronize函数进行同步; 将会一直处于阻塞状态,直到前面所有请求的任务已经被全部执行完毕,如果前面执行的某个任务失败,将会返回一个错误&＃xff1b;当程序中有多个流,并且流之间在某一点需要通信时,那就必须在这一点处加上同步的语句,即cudaDeviceSynchronize&＃xff1b;异步启动reference: https://stackoverflow.com/questions/11888772/when-to-call-cudadevicesynchronize */cudaDeviceSynchronize();TIME_END_GPUcudaMemcpy(dst, dev_dst, width * height * 2 * sizeof(unsigned char), cudaMemcpyDeviceToHost);// cudaFree: 释放设备上由cudaMalloc函数分配的内存cudaFree(dev_dst);cudaFree(dev_src);return 0; }
main.cpp:

#include "funset.hpp" #include #include #include #include #include #include #include "common.hpp"int test_image_process_bgr2bgr565() {const std::string image_name{ "E:/GitCode/CUDA_Test/test_data/images/lena.png" };cv::Mat mat &＃61; cv::imread(image_name, 1);CHECK(mat.data);const int width{ 1513 }, height{ 1473 };cv::resize(mat, mat, cv::Size(width, height));std::unique_ptr data1(new unsigned char[width * height * 2]), data2(new unsigned char[width * height * 2]);float elapsed_time1{ 0.f }, elapsed_time2{ 0.f }; // millisecondscv::Mat bgr565;cv::cvtColor(mat, bgr565, cv::COLOR_BGR2BGR565);CHECK(bgr2bgr565_cpu(mat.data, width, height, data1.get(), &elapsed_time1) &＃61;&＃61; 0);CHECK(bgr2bgr565_gpu(mat.data, width, height, data2.get(), &elapsed_time2) &＃61;&＃61; 0);fprintf(stdout, "image bgr to bgr565: cpu run time: %f ms, gpu run time: %f ms\n", elapsed_time1, elapsed_time2);CHECK(compare_result(data1.get(), bgr565.data, width*height * 2) &＃61;&＃61; 0);CHECK(compare_result(data1.get(), data2.get(), width*height*2) &＃61;&＃61; 0);return 0; }
执行结果如下&＃xff1a;由结果可得&＃xff0c;C&＃43;&＃43;、CUDA、OpenCV三者的结果是完全一致的。

GitHub&＃xff1a; https://github.com/fengbingchun/CUDA_Test

推荐阅读

char
Android 源代码解析系列（一）：init.c 文件详解

本文详细解析了 Android 系统启动过程中的核心文件 `init.c`，探讨了其在系统初始化阶段的关键作用。通过对 `init.c` 的源代码进行深入分析，揭示了其如何管理进程、解析配置文件以及执行系统启动脚本。此外，文章还介绍了 `init` 进程的生命周期及其与内核的交互方式，为开发者提供了深入了解 Android 启动机制的宝贵资料。 ... [详细]

蜡笔小新 2024-11-10 00:35:48
char
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
string
C++ 从文件中逐行读取结构体数据，并将其存储到向量中，最终输出至控制台和新文件

在C++程序中，文档A的每一行包含一个结构体数据，其中某些字段可能包含不同数量的数字。需要将这些结构体数据逐行读取并存储到向量中，随后不仅在控制台上显示，还要输出到新创建的文档B中。希望得到指导，感谢！ ... [详细]

蜡笔小新 2024-11-09 18:40:33
char
C++ 异步编程中获取线程执行结果的方法与技巧及其在前端开发中的应用探讨

本文探讨了C++异步编程中获取线程执行结果的方法与技巧，并深入分析了这些技术在前端开发中的应用。通过对比不同的异步编程模型，本文详细介绍了如何高效地处理多线程任务，确保程序的稳定性和性能。同时，文章还结合实际案例，展示了这些方法在前端异步编程中的具体实现和优化策略。 ... [详细]

蜡笔小新 2024-11-09 15:14:28
string
洛谷 P1531 我讨厌它 —— 线段树实现

本文介绍如何使用线段树解决洛谷 P1531 我讨厌它问题，重点在于单点更新和区间查询最大值。 ... [详细]

蜡笔小新 2024-11-12 21:27:38
string
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
string
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
string
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
string
2.2 组件间父子通信机制详解

2.2 组件间父子通信机制详解 ... [详细]

蜡笔小新 2024-11-11 14:58:09
fetch
优化分页组件：高效渲染数据数组

在处理大规模数据数组时，优化分页组件对于提高页面加载速度和用户体验至关重要。本文探讨了如何通过高效的分页策略，减少数据渲染的负担，提升应用性能。具体方法包括懒加载、虚拟滚动和数据预取等技术，这些技术能够显著降低内存占用和提升响应速度。通过实际案例分析，展示了这些优化措施的有效性和可行性。 ... [详细]

蜡笔小新 2024-11-11 10:02:01
char
HDU ACM 1073 Online Judge：基础字符串处理题目解析

### 优化后的摘要本文对 HDU ACM 1073 题目进行了详细解析，该题属于基础字符串处理范畴。通过分析题目要求，我们可以发现这是一道较为简单的题目。代码实现中使用了 C++ 语言，并定义了一个常量 `N` 用于字符串长度的限制。主要操作包括字符串的输入、处理和输出，具体步骤涉及字符数组的初始化和字符串的逆序操作。通过对该题目的深入探讨，读者可以更好地理解字符串处理的基本方法和技巧。 ... [详细]

蜡笔小新 2024-11-11 05:31:42
string
AOJ.863 分配书籍问题（深度优先搜索算法）

题目解析给定 n 个人和 n 种书籍，每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量：1. 每个人都必须获得他们喜欢的书籍；2. 每本书只能分配给一个人。通过使用深度优先搜索算法，可以系统地探索所有可能的分配组合，确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题，找到所有可行的解。 ... [详细]

蜡笔小新 2024-11-09 20:10:25
char
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
string
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
string
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23

轻淞猪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章