当前位置: 开发笔记 > 后端 > 正文

在TegraTK1上使用malloc()与cudaHostAlloc()分配的数据的CPU内存访问延迟

作者：大眼睁睁 | 来源：互联网 | 2023-05-26 15:52

如何解决《在TegraTK1上使用malloc()与cudaHostAlloc()分配的数据的CPU内存访问延迟》经验，为你挑选了1个好方法。

我正在执行一个简单的测试,它比较了使用malloc()分配的数据的访问延迟和使用cudaHostAlloc()从主机分配的数据(cpu正在执行访问).我注意到访问使用cudaHostAlloc()分配的数据比访问Jetson Tk1上的malloc()分配的数据要慢得多.

这不是离散GPU的情况,似乎只适用于TK1.经过一些调查,我发现用cudaHostAlloc()分配的数据是内存映射(mmap)到进程地址空间的/ dev/nvmap区域.对于映射在进程堆上的普通malloc数据,情况并非如此.我知道这个映射可能是允许GPU访问数据所必需的,因为必须从主机和设备都可以看到cudaHostAlloc的数据.

我的问题如下:从主机访问cudaHostAlloc数据的开销来自哪里？数据映射到CPU缓存上的/ dev/nvmap是否未缓存？

1> mdashti..：

我相信我已经找到了这种行为的原因.在进一步调查之后(使用Linux跟踪事件并查看nvmap驱动程序代码),我发现开销的来源cudaHostAlloc()是使用该NVMAP_HANDLE_UNCACHEABLE标志将分配的数据标记为"不可缓存" 的事实.呼叫pgprot_noncached()是为了确保相关的PTE标记为不可缓存.

主机访问使用的数据的行为cudaMallocManaged()是不同的.数据将被缓存(使用标志NVMAP_HANDLE_CACHEABLE).因此,从主机访问此数据等同于malloc()'d数据.同样重要的是要注意,CUDA运行时不允许设备(GPU)访问cudaMallocManaged()与主机同时分配的任何数据,并且此类操作将生成段错误.但是,运行时允许并发访问cudaHostAlloc()'d设备和主机上的数据,我相信这是使cudaHostAlloc()'d数据不可缓存的原因之一.

推荐阅读

timeout
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26
cache
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
h2
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
缓存
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
http
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
spring
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
spring
CentOS 7 磁盘与文件系统管理指南

本文详细介绍了磁盘的基本结构、接口类型、分区管理以及文件系统格式化等内容，并提供了实际操作步骤，帮助读者更好地理解和掌握 CentOS 7 中的磁盘与文件系统管理。 ... [详细]

蜡笔小新 2024-12-28 10:58:44
spring
现代信号处理电路设计概论

本文探讨了现代信号处理系统的核心组件，包括数据转换、数据交互和数据处理。详细介绍了AD/DA转换、串/并转换、编解码转换等技术，并讨论了FPGA在信号处理中的应用及其实现方法。 ... [详细]

蜡笔小新 2024-12-25 14:53:09
spring
vivo发布iQOO 11系列：搭载骁龙8 Gen2与多项创新技术

vivo正式推出iQOO 11系列智能手机，该系列搭载最新的高通骁龙8 Gen2处理器，并引入多项创新技术，致力于为用户提供卓越的性能和游戏体验。 ... [详细]

蜡笔小新 2024-12-25 10:55:38
http
优化Windows系统以提升DAW性能

配置Windows操作系统以确保DAW（数字音频工作站）硬件和软件的高效运行可能是一个复杂且令人沮丧的过程。本文提供了一系列专业建议，帮助你优化Windows系统，确保录音和音频处理的流畅性。 ... [详细]

蜡笔小新 2024-12-25 09:41:14
http
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
http
选择适合生产环境的Docker存储驱动

本文旨在探讨如何在生产环境中选择合适的Docker存储驱动，并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵，提供实用的操作指南。 ... [详细]

蜡笔小新 2024-12-24 11:16:45
http
2018 区块链技术峰会：专家深度解析核心技术与应用前景

2018年3月31日，CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会（BTA）核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]

蜡笔小新 2024-12-24 10:56:15
http
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
http
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32

大眼睁睁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章