热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

在C++中使用uint64_t的上半部分的指令/内在?

想象以下代码:在线试试吧!uint64_tx=0x81C6E3292A71F955ULL;uint32_ty=(uint32_t

想象以下代码:

在线试试吧!

uint64_t x = 0x81C6E3292A71F955ULL;
uint32_t y = (uint32_t) (x >> 32);

y接收 64 位整数的较高 32 位部分。我的问题是是否存在任何内在函数或任何 CPU 指令可以在不进行移动和移位的情况下在单个操作中执行此操作?

至少铛(在上面挂尝试,它-在线)创建两个指令mov rax, rdi,并shr rax, 32对于这一点,所以无论是铛不会做这样的优化,或不存在这样的特殊指令。

如果存在像movhi dst_reg, src_reg.

回答

如果有更好的方法来对任意 uint64_t 进行位域提取,编译器就会使用它。(至少在理论上;编译器确实错过了优化,他们的选择有时会支持延迟,即使它花费更多的 uops。)

对于无法用纯 C 语言以编译器已经很容易理解的方式有效表达的内容,您只需要内在函数。 (或者,如果您的编译器很笨,无法发现明显的情况。)

您可以想象输入值来自两个 32 位值相乘的情况,那么在某些 CPU 上编译器使用加宽mul r32已经在两个单独的 32 位寄存器中生成结果可能是值得的,而不是imul r64, r64+ shr reg,32, 如果它可以轻松使用 EAX/EDX。但是除了gcc -mtune=silvermont其他调整选项之外,您不能编译器这样做。


shr reg, 32具有 1 个周期延迟,并且可以在大多数现代 x86 微体系结构 ( https://uops.info/ )上的 1 个以上执行端口上运行。唯一可能希望的是它可以将结果放在不同的寄存器中,而不会覆盖输入。

大多数现代非 x86 ISA 都类似于 RISC,具有 3 个操作数指令,因此移位指令可以复制和移位,这与 x86 移位不同,编译器mov除了shr稍后还需要原始 64 位值之外,还需要一个,或者(在一个小函数的情况下)需要不同寄存器中的返回值。

并且一些 ISA 具有位域提取指令。PowerPC 甚至有一个有趣的旋转和屏蔽指令 ( rlwinm)(屏蔽是由立即数指定的位范围),它与正常移位指令不同。编译器将根据需要使用它 - 不需要内在函数。 https://devblogs.microsoft.com/oldnewthing/20180810-00/?p=99465


带有BMI2 的rorx rax, rdi, 32x86必须复制和旋转,而不是在同一寄存器内卡住移位。uint32_t在不内联的独立版本中,返回的函数可以/应该使用它而不是 mov+shr,因为调用者已经不得不忽略 RAX 中的高垃圾。(x86-64 System V 和 Windows x64 都将返回值定义为仅与 arg 的 C 类型匹配的寄存器宽度;例如,返回uint32_t意味着 RAX 的高 32 位不是返回值的一部分,并且可以容纳任何内容。通常它们为零,因为写入一个 32 位寄存器隐式地零扩展到 64,但是像return bar()bar 返回 uint64_t这样的东西可以让 RAX 保持不变而不必截断它;实际上优化的尾调用是可能的。)

没有内在的 for rorx; 编译器应该知道什么时候使用它。(但是 gcc/clang-O3 -march=haswell错过了这个优化。) https://godbolt.org/z/ozjhcc8Te

如果编译器在循环中执行此操作,则它可以32在寄存器中shrx reg,reg,reg作为复制和移位。或者更傻,它可以使用pext0xffffffffULL <<32作为面膜。但这更糟糕,shrx因为延迟更高。

AMD TBM(仅限推土机系列,而非 Zen)具有bextr(位域提取)的直接形式,并且它以 1 uop 的速度高效运行(https://agner.org/optimize/)。 https://godbolt.org/z/bn3rfxzch显示 gcc11 -O3 -march=bdver4(挖掘机)使用bextr rax, rdi, 0x2020,而 clang 错过了该优化。 gcc -march=znver1使用 mov + shr 是因为 Zen 删除了尾随位操作以及 XOP 扩展。

标准 BMI1bextr需要寄存器中的位置/长度,而在英特尔 CPU 上是 2 uop,因此它是垃圾。它确实有一个内在的,但我建议不要使用它。 mov+shr在 Intel CPU 上速度更快。






推荐阅读
  • 深入解析 ELF 文件格式与静态链接技术
    本文详细探讨了ELF文件格式及其在静态链接过程中的应用。在C/C++代码转化为可执行文件的过程中,需经过预处理、编译、汇编和链接等关键步骤。最终生成的可执行文件不仅包含系统可识别的机器码,还遵循了严格的文件结构规范,以确保其在操作系统中的正确加载和执行。 ... [详细]
  • Android 构建基础流程详解
    Android 构建基础流程详解 ... [详细]
  • MATLAB字典学习工具箱SPAMS:稀疏与字典学习的详细介绍、配置及应用实例
    SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ... [详细]
  • 深入理解Java中的多态性概念及其应用
    多态是面向对象编程中的三大核心特性之一,与封装和继承共同构成了面向对象的基础。多态使得代码更加灵活和可扩展,封装和继承则为其提供了必要的支持。本文将深入探讨多态的概念及其在Java中的具体应用,帮助读者全面理解和掌握这一关键知识点。 ... [详细]
  • 线程能否先以安全方式获取对象,再进行非安全发布? ... [详细]
  • 在当前的软件开发领域,Lua 作为一种轻量级脚本语言,在 .NET 生态系统中的应用逐渐受到关注。本文探讨了 Lua 在 .NET 环境下的集成方法及其面临的挑战,包括性能优化、互操作性和生态支持等方面。尽管存在一定的技术障碍,但通过不断的学习和实践,开发者能够克服这些困难,拓展 Lua 在 .NET 中的应用场景。 ... [详细]
  • 数字图书馆近期展出了一批精选的Linux经典著作,这些书籍虽然部分较为陈旧,但依然具有重要的参考价值。如需转载相关内容,请务必注明来源:小文论坛(http://www.xiaowenbbs.com)。 ... [详细]
  • 资源管理器的基础架构包括三个核心组件:1)资源池,用于将CPU和内存等资源分配给不同的容器;2)负载组,负责承载任务并将其分配到相应的资源池;3)分类函数,用于将不同的会话映射到合适的负载组。该系统提供了两种主要的资源管理策略。 ... [详细]
  • 在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu,并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南,帮助读者正确配置虚拟环境,确保所有第三方库都能被正确识别和使用。此外,还提供了一些实用的技巧,如如何检查环境变量配置是否正确,以及如何在多个虚拟环境之间切换。 ... [详细]
  • 如何利用正则表达式(regexp)实现高效的模式匹配?本文探讨了正则表达式在编程中的应用,并分析了一个示例程序中存在的问题。通过具体的代码示例,指出该程序在定义和使用正则表达式时的不当之处,旨在帮助读者更好地理解和应用正则表达式技术。 ... [详细]
  • 在 Windows 10 环境中,通过配置 Visual Studio Code (VSCode) 实现基于 Windows Subsystem for Linux (WSL) 的 C++ 开发,并启用智能代码提示功能。具体步骤包括安装 VSCode 及其相关插件,如 CCIntelliSense、TabNine 和 BracketPairColorizer,确保在 WSL 中顺利进行开发工作。此外,还详细介绍了如何在 Windows 10 中启用和配置 WSL,以实现无缝的跨平台开发体验。 ... [详细]
  • STAR: 转录组数据分析中的高效比对工具介绍
    欢迎关注“生信修炼手册”!STAR 是一款专为 RNA-seq 数据设计的高效比对工具,以其卓越的速度和高灵敏度著称。该软件在处理大规模转录组数据时表现出色,能够显著提高比对效率和准确性。此外,GATK 推荐使用 STAR 进行预处理步骤,以确保后续分析的可靠性。 ... [详细]
  • JVM参数设置与命令行工具详解
    JVM参数配置与命令行工具的深入解析旨在优化系统性能,通过合理设置JVM参数,确保在高吞吐量的前提下,有效减少垃圾回收(GC)的频率,进而降低系统停顿时间,提升服务的稳定性和响应速度。此外,本文还将详细介绍常用的JVM命令行工具,帮助开发者更好地监控和调优JVM运行状态。 ... [详细]
  • 本文深入探讨了Java多线程环境下的同步机制及其应用,重点介绍了`synchronized`关键字的使用方法和原理。`synchronized`关键字主要用于确保多个线程在访问共享资源时的互斥性和原子性。通过具体示例,如在一个类中使用`synchronized`修饰方法,展示了如何实现线程安全的代码块。此外,文章还讨论了`ReentrantLock`等其他同步工具的优缺点,并提供了实际应用场景中的最佳实践。 ... [详细]
  • 开源实习机会 | Compiler SIG 正式发布实习任务,诚邀您加入申请!
    对编译技术充满兴趣却苦于无从入手?当前疫情形势下,外出实习变得困难重重?现在,Compiler SIG 正式发布了一系列实习任务,为有志之士提供了宝贵的机会。无论你是初学者还是有一定基础的学生,都能在这里找到适合自己的实践项目。我们诚挚邀请您的加入,共同探索编译技术的无限可能! ... [详细]
author-avatar
锦瑟城门
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有