CUDA学习笔记一：CUDA+OpenCV的图像转置，采用SharedMemory进行CUDA程序优化

作者：SJ曹圭贤V | 来源：互联网 | 2023-09-16 14:36

原创文章，转载请注明出处一、问题背景最近要做一个关于CUDA的学习分享报告，想在报告中举一个利用CUDA进行图像处理的例子，并使用SharedMemory避

原创文章，转载请注明出处...... 一、问题背景

最近要做一个关于CUDA的学习分享报告，想在报告中举一个利用CUDA进行图像处理的例子，并使用Shared Memory避免Global Memory不合并访存情况，提高图像处理性能。但是对于CUDA程序如何读取图像有点困惑，网上找到了一篇“第二个cuda程序——图像拉伸”的博文点击打开链接，所示代码涉及了图像交互部分，但是需要包含“cutil_inline.h”头文件（据说是开发人员编写例程时用的头文件），悲催的是自从CUDA5.0之后“cutil.h”跟“cutil_inline.h”等头文件就被移除了，而我安装的是CUDA6.5，所以用不了博文中读取图像的方法。

后来在CUDA的Sample中看到了图像处理的示例程序，但是说实话，对我这种刚入门的人来说，程序有点复杂，所以放弃了研究它的念头。另外，有人跟我说CUDA有一个NPP库可以支持图像的交互，但是不知道这个库该怎么调用。

于是，我想了个方法，用OpenCV函数来读取、显示图像，图像的处理则交由CUDA核函数完成，因为Windows平台上OpenCV与CUDA编程都是在Visual Studio上完成的，因此，此法是可行的。

二、实验过程

1. 实验平台：Visual Studio 2010，CUDA 6.5，OpenCV 2.4.9

2. OpenCV开发环境配置

要在VC上调用OpenCV函数库函数，需要先进行OpenCV开发环境的配置，OpenCV的安装与环境配置参考博文“【OpenCV入门教程之一】安装OpenCV：OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 ”点击打开链接

3. 代码

本文采用CUDA+OpenCV的环境进行图像转置处理，分别采用CPU与GPU对读入的图像进行转置，其中GPU的实现分为Global Memory与Shared Memory两个版本，实验结果表明采用Shared Memory进行图像转置，可以避免不合并访存的情况，从而提高程序运行速度。

（1）CPU、GPU Global Memory与GPU Shared Memory进行图像转置的函数定义均在头文件”imageTranspose.h“中：

#ifndef _IMAGETRANSPOSE_CU
#define _IMAGETRANSPOSE_CU


#include 
#include 
#include 
#include 
#include 			//用于计时
#include 


#define W 16  //Block的尺寸
#define N 1024  //Grid的尺寸


//图像数据放在GlobalMemory上进行处理
__global__ static void GPUImageTranspose_Global(unsigned char *imageDataSrc, unsigned char *imageDataDst, int Width, int Height)
{
	int tid = threadIdx.x + blockDim.x * blockIdx.x;  //得到线程id
	
	//越界判断，线程可能没有与之对应的像素
	if(tid >= Width * Height)
		return;

	int i, j;  
	i = tid / Width;
	j = tid % Width;
	
	//转置
	imageDataDst[j * Height + i] = imageDataSrc[tid];     
	          
	return;
}


//图像数据放在SharedMemory上进行处理
__global__ static void GPUImageTranspose_Shared(unsigned char *imageDataSrc, unsigned char *imageDataDst, int Width, int Height)
{
	__shared__ unsigned char tile[W][W];  //声明存储图像数据的Shared Memory


	//计算当前线程处理的像素在输入矩阵中的索引
	int x = threadIdx.x + blockIdx.x * W;
	int y = threadIdx.y + blockIdx.y * W;
	int index_in = x + y * Width; 


	//这个越界判断很关键，不然输出结果错误
	if(index_in >= Width * Height)
		return;
	
	//将当前线程处理的像素值从Global Memory复制到Shared Memory
	tile[threadIdx.y][threadIdx.x] = imageDataSrc[index_in];     
	__syncthreads();  //线程同步语句


	//计算当前线程处理的像素在输出矩阵中的索引
	x = threadIdx.x + blockIdx.y * W;
	y = threadIdx.y + blockIdx.x * W;
	int index_out = x + y * Height; 
	
	//将当前线程处理的像素值从Shared Memory复制到Global Memory，通过坐标变换完成转置
	imageDataDst[index_out] = tile[threadIdx.x][threadIdx.y];


	return;
}


//CPU完成图像转置
void CPUImageTranspose(unsigned char *imageDataSrc, unsigned char *imageDataDst, int Width, int Height){      
	
	int i, j;       

	if(imageDataSrc == NULL || imageDataDst == NULL || Width <= 0 || Height <= 0)         
		return;    

	//遍历图像数据完成图像转置
	for(i=0; i		for(j=0; j			imageDataDst[j * Height + i] = imageDataSrc[i * Width + j];         
		}     
	}       
}


#endif

（2）主函数在”imageTranspose.cu“文件中定义，主函数调用图像转置函数进行图像处理，以下展示为使用CPU及GPU Global Memory进行图像转置：

#include   //use OpenCV
#include 
#include 
#include   //clock_t clock()

#include "imageTranspose_cu.h"

int main()
{	
	//通过OpenCV函数读取图像
	IplImage *ImgSrc = cvLoadImage("Lena.jpg", CV_LOAD_IMAGE_GRAYSCALE);
	int Width = ImgSrc->width;
	int Height = ImgSrc->height;
	//输出图像的宽高尺寸互换
	IplImage *ImgDst_GPU_Global = cvCreateImage(cvSize(Height, Width), IPL_DEPTH_8U, 1);
	IplImage *ImgDst_CPU = cvCreateImage(cvSize(Height, Width), IPL_DEPTH_8U, 1);

	//定义指向图像数据的指针，作为函数调用的参数
	unsigned char *pSrcData = (unsigned char*)(ImgSrc->imageData);
	unsigned char *pDstData_Global = (unsigned char*)(ImgDst_GPU_Global->imageData);
	unsigned char *cDstData = (unsigned char*)(ImgDst_CPU->imageData);

	//分配显存用于存储原图像数组和目标图像数组
	unsigned char *device_ImgDataSrc = NULL;
	unsigned char *device_ImgDataDst_Global = NULL;
	cudaMalloc((void**)&device_ImgDataSrc, sizeof(unsigned char) * Width * Height);
	cudaMalloc((void**)&device_ImgDataDst_Global, sizeof(unsigned char) * Height * Width);

	//将原图像数组传递到显存中
	cudaMemcpy(device_ImgDataSrc, pSrcData, sizeof(unsigned char) * Width * Height, cudaMemcpyHostToDevice);
	
	//GlobalMemory版本的参数设置
	int dimGrid_Global = 6000;  //每个Grid允许的最大Block数为65535
	int dimBlock_Global = 512;  //每个Block允许的最大线程数为512

	//创建事件，启动定时
	cudaEvent_t start, stop;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	cudaEventRecord(start, 0);
	//启动CUDA核函数，GPU进行图像转置
	GPUImageTranspose_Global<<>>(device_ImgDataSrc, device_ImgDataDst_Global,  ImgSrc->width, ImgSrc->height);
	cudaEventRecord(stop, 0);
	cudaEventSynchronize(start);  //事件同步语句
	cudaEventSynchronize(stop);  //事件同步语句
	//计算CUDA核函数进行图像转置耗时，并显示时间
	float GPUTime_Global = 0;
	cudaEventElapsedTime(&GPUTime_Global, start, stop);
	printf("GPU_Time_Global = %f\n", GPUTime_Global);
	
	//将结果传递至内存
	cudaMemcpy(pDstData_Global, device_ImgDataDst_Global, sizeof(unsigned char) * Width * Height, cudaMemcpyDeviceToHost);
	
	//计算CPU进行图像转置耗时，并显示时间
	clock_t t1 = clock();
	CPUImageTranspose(pSrcData, cDstData, ImgSrc->width, ImgSrc->height);  //CPU进行图像转置
	clock_t t2 = clock();	
	float time_cpu = 0;
	time_cpu = t2 - t1;
	printf("CPU_Time = %f\n", time_cpu*1000/CLOCKS_PER_SEC);  //时间单位ms

	//释放资源
	cvNamedWindow("Src");
	cvShowImage("Src", ImgSrc);

	cvNamedWindow("Dst_CPU");
	cvShowImage("Dst_CPU", ImgDst_CPU);

	cvNamedWindow("Dst_GPU_Global");
	cvShowImage("Dst_GPU_Global", ImgDst_GPU_Global);

	cvWaitKey();

	cudaFree(device_ImgDataSrc);
	cudaFree(device_ImgDataDst_Global);
	
	cvDestroyAllWindows();
	cvReleaseImage(&ImgSrc);
	cvReleaseImage(&ImgDst_CPU);
	cvReleaseImage(&ImgDst_GPU_Global);
	
	return 0;
}

（3）当对CUDA程序进行优化，使用GPU Shared Memory进行图像转置时，”imageTranspose.cu“文件要进行相应的修改：

int main()
{	
	IplImage *ImgSrc = cvLoadImage("Lena.jpg", CV_LOAD_IMAGE_GRAYSCALE);
	int Width = ImgSrc->width;
	int Height = ImgSrc->height;
	//输出图像的宽高尺寸互换
	IplImage *ImgDst_GPU_Shared = cvCreateImage(cvSize(Height, Width), IPL_DEPTH_8U, 1);
	IplImage *ImgDst_CPU = cvCreateImage(cvSize(Height, Width), IPL_DEPTH_8U, 1);

	unsigned char *pSrcData = (unsigned char*)(ImgSrc->imageData);
	unsigned char *pDstData_Shared = (unsigned char*)(ImgDst_GPU_Shared->imageData);
	unsigned char *cDstData = (unsigned char*)(ImgDst_CPU->imageData);

	//分配显存用于存储原图像数组和目标图像数组
	unsigned char *device_ImgDataSrc = NULL;
	unsigned char *device_ImgDataDst_Shared = NULL;
	cudaMalloc((void**)&device_ImgDataSrc, sizeof(unsigned char) * Width * Height);
	cudaMalloc((void**)&device_ImgDataDst_Shared, sizeof(unsigned char) * Height * Width);

	//将原图像数组传递到显存中
	cudaMemcpy(device_ImgDataSrc, pSrcData, sizeof(unsigned char) * Width * Height, cudaMemcpyHostToDevice);

	//SharedMemory版本的参数设置
	dim3 dimGrid_Shared(N/W, N/W);  //每个Grid允许的最大Block数为65535
	dim3 dimBlock_Shared(W, W);  //每个Block允许的最大线程数为512

	cudaEvent_t start, stop;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	cudaEventRecord(start, 0);
	GPUImageTranspose_Shared<<>>(device_ImgDataSrc, device_ImgDataDst_Shared,  ImgSrc->width, ImgSrc->height);
	cudaEventRecord(stop, 0);
	cudaEventSynchronize(start);
	cudaEventSynchronize(stop);
	float GPUTime_Shared = 0;
	cudaEventElapsedTime(&GPUTime_Shared, start, stop);
	printf("GPU_Time_Shared = %f\n",  GPUTime_Shared);

	//将结果传递至内存
	cudaMemcpy(pDstData_Shared, device_ImgDataDst_Shared, sizeof(unsigned char) * Width * Height, cudaMemcpyDeviceToHost);

	clock_t t1 = clock();
	CPUImageTranspose(pSrcData, cDstData, ImgSrc->width, ImgSrc->height);  //CPU处理的图像
	clock_t t2 = clock();	
	float time_cpu = 0;
	time_cpu = t2 - t1;
	printf("CPU_Time = %f\n", time_cpu*1000/CLOCKS_PER_SEC);  //时间单位ms

	cvNamedWindow("Src");
	cvShowImage("Src", ImgSrc);

	cvNamedWindow("Dst_CPU");
	cvShowImage("Dst_CPU", ImgDst_CPU);

	cvNamedWindow("Dst_GPU_Shared");
	cvShowImage("Dst_GPU_Shared", ImgDst_GPU_Shared);

	cvWaitKey();

	cudaFree(device_ImgDataSrc);
	cudaFree(device_ImgDataDst_Shared);

	cvDestroyAllWindows();
	cvReleaseImage(&ImgSrc);
	cvReleaseImage(&ImgDst_CPU);
	cvReleaseImage(&ImgDst_GPU_Shared);
	
	return 0;
}

4. 实验结果

（1）采用经典测试图像”Lena.jpg“作为输入图像：

（2）CPU、GPU Global Memory运行结果及时间比较

（3）GPU Shared Memory运行结果及时间

5. 实验结果分析

经过测试，由输出图像可以判断，图像转置的结果是正确的，耗时GPU Shared Memory

推荐阅读

string
C语言编写线程池的简单实现方法

2019独角兽企业重金招聘Python工程师标准好文章，一起分享——有时我们会需要大量线程来处理一些相互独立的任务，为了避免频繁的申请释放线程所带 ... [详细]

蜡笔小新 2024-11-14 20:11:23
grid
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
schema
Docker 环境下 MySQL 双主同步配置指南

本文介绍了如何在 Docker 环境中配置 MySQL 的双主同步，包括目录结构的创建、配置文件的编写、容器的创建与设置以及最终的验证步骤。 ... [详细]

蜡笔小新 2024-11-14 17:21:23
case
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
string
c语言拓展数学函数库,c语言数学库

C语言中全部可用的数学函数有哪些？2．longlabs(longn);求长整型数的绝对值。3．doublefabs(doublex);求实数的绝对值。4．doublefloor(d ... [详细]

蜡笔小新 2024-11-13 14:46:34
string
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
text
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
jsp
C++ 中的 malloc 函数详解

malloc 是 C 语言中的一个标准库函数，全称为 memory allocation，即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域，并返回该区域的起始地址。当无法预先确定内存的具体位置时，可以通过 malloc 动态分配内存。 ... [详细]

蜡笔小新 2024-11-14 13:38:03
config
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
split
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
text
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
config
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
config
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
stream
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
string
洛谷 P1531 我讨厌它 —— 线段树实现

本文介绍如何使用线段树解决洛谷 P1531 我讨厌它问题，重点在于单点更新和区间查询最大值。 ... [详细]

蜡笔小新 2024-11-12 21:27:38

SJ曹圭贤V

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章