CUDA代码中‘ld’和‘add’指令参数不匹配问题

作者：妈妈说称号长的人很牛也 | 来源：互联网 | 2024-11-13 19:33

探讨CUDA代码中的内联汇编指令‘ld’和‘add’为何出现参数不匹配的编译错误，并提供解决方案。

在CUDA编程中，有时会遇到内联汇编指令‘ld’和‘add’参数不匹配的问题。具体来说，以下代码段展示了这一问题：

__global__ void access(double *posArray) { uint32_t tid = threadIdx.x; double sink = 0; for(uint32_t i = tid; i double* ptr = posArray + i; asm volatile("{ \n" ".reg .f32 data;\n\t" "ld.global.ca.f64 data, [%1];\n\t" "add.f64 %0, data, %0;\n\t" "}" : "+d"(sink) : "l"(ptr) : "memory"); } // 同步所有线程 asm volatile("bar.sync 0;"); for(uint32_t i = 0; i double* ptr = posArray + i; // 每个warp加载L1缓存中的所有数据 for(uint32_t j = 0; j uint32_t offset = (tid + j) % THREADS_NUM; asm volatile("{ \n" ".reg .f64 data;\n\t" "ld.global.ca.f64 data, [%1];\n\t" "add.f64 %0, %0, data;\n\t" "}" : "+d"(sink) : "l"(ptr + offset) : "memory"); } } }

编译时会出现以下错误：

ptxas /tmp/tmpxft_00003451_00000000-5_l1.ptx, line 63; error: Arguments mismatch for instruction 'ld' ptxas /tmp/tmpxft_00003451_00000000-5_l1.ptx, line 64; error: Arguments mismatch for instruction 'add'

这些错误提示‘ld’和‘add’指令的参数不匹配。具体原因在于以下行：

.reg .f32 data;\n\t

应更改为：

.reg .f64 data;\n\t

因为‘ld.global.ca.f64’和‘add.f64’指令都操作64位浮点数（.f64），而不是32位浮点数（.f32）。正确的代码如下：

__global__ void access(double *posArray) { uint32_t tid = threadIdx.x; double sink = 0; for(uint32_t i = tid; i double* ptr = posArray + i; asm volatile("{ \n" ".reg .f64 data;\n\t" "ld.global.ca.f64 data, [%1];\n\t" "add.f64 %0, data, %0;\n\t" "}" : "+d"(sink) : "l"(ptr) : "memory"); } // 同步所有线程 asm volatile("bar.sync 0;"); for(uint32_t i = 0; i double* ptr = posArray + i; // 每个warp加载L1缓存中的所有数据 for(uint32_t j = 0; j uint32_t offset = (tid + j) % THREADS_NUM; asm volatile("{ \n" ".reg .f64 data;\n\t" "ld.global.ca.f64 data, [%1];\n\t" "add.f64 %0, %0, data;\n\t" "}" : "+d"(sink) : "l"(ptr + offset) : "memory"); } } }

通过将寄存器类型从.f32更改为.f64，可以解决参数不匹配的问题，使代码能够正确编译和运行。

推荐阅读

int
VC++如何监控cpu fan 转速?

主板IO用W83627THG,用VC如何取得CPU温度,系统温度,CPU风扇转速,VBat的电压. ... [详细]

蜡笔小新 2024-12-22 13:48:42
int
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
char
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
copy
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
string
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
char
SaltStack部署实践（4）JOB管理与Returns模块

目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]

蜡笔小新 2024-12-22 18:53:43
char
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
char
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
string
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
int
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
int
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30
int
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
string
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
triggers
提升 Android Studio 和 Gradle 构建性能的技巧

本文介绍了如何通过配置 Android Studio 和 Gradle 来显著提高构建性能，涵盖内存分配优化、并行构建和性能分析等实用技巧。 ... [详细]

蜡笔小新 2024-12-25 17:17:22
int
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57

妈妈说称号长的人很牛也

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章