热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

x86_64上的原子双浮点或SSE/AVX向量加载/存储

如何解决《x86_64上的原子双浮点或SSE/AVX向量加载/存储》经验,为你挑选了2个好方法。

在这里(以及一些SO问题)我看到C++不支持像无锁的东西,std::atomic并且还不能支持像原子AVX/SSE向量这样的东西,因为它依赖于CPU(虽然现在我知道CPU,ARM, AArch64和x86_64有矢量).

但是double在x86_64中对s或向量的原子操作是否有汇编级支持?如果是这样,支持哪些操作(如加载,存储,添加,减去,可能相乘)?MSVC++ 2017实现哪些操作无锁atomic



1> Peter Cordes..:

C++不支持无锁等功能 std::atomic

实际上,C++ 11 std::atomic在典型的C++实现上是无锁的,并且确实暴露了几乎所有你可以在asm中用float/无doublex86 进行无锁编程的事情(例如,加载,存储和CAS足以实现任何东西:为什么不是'原子双完全实现).但是,当前的编译器并不总能atomic有效地编译.

C++ 11 std :: atomic没有用于Intel的事务内存扩展(TSX)的API (用于FP或整数).TSX可能会改变游戏规则,尤其是FP/SIMD,因为它可以消除xmm和整数寄存器之间弹跳数据的所有开销.如果事务没有中止,那么你用双重或向量加载/存储做的任何事情都会以原子方式发生.

一些非x86硬件支持float/double的原子添加,而C++ p0020是一个向C++的/ 添加fetch_addoperator+=/ -=template特化的提议. std::atomic

具有LL/SC原子而不是x86样式的内存目的地指令的硬件,例如ARM和大多数其他RISC CPU,可以在有doublefloat没有CAS的情况下进行原子RMW操作,但是你仍然必须从FP到整数寄存器获取数据,因为LL/SC通常仅适用于整数寄存器,如x86 cmpxchg.但是,如果硬件仲裁LL/SC对以避免/减少活锁,那么在非常高争用的情况下,它将比CAS循环更有效.如果您设计的算法因此争用很少,那么fetch_add的LL/add/SC重试循环与load + add + LL/SC CAS重试循环之间可能只有很小的代码大小差异.


x86自然对齐的加载和存储最多可达8个字节,甚至是x87或SSE.(例如movsd xmm0, [some_variable],即使在32位模式下也是原子的).事实上,gcc使用x87 fild/ fistp或SSE 8B加载/存储来实现std::atomic32位代码的加载和存储.

具有讽刺意味的是,编译器(gcc7.1,clang4.0,ICC17,MSVC CL19)在64位代码(或32位SSE2可用)中表现不佳,并通过整数寄存器反弹数据而不是直接进行movsd加载/存储往返于xmm regs(在Godbolt上看到它):

#include 
std::atomic ad;

void store(double x){
    ad.store(x, std::memory_order_release);
}
//  gcc7.1 -O3 -mtune=intel:
//    movq    rax, xmm0               # ALU xmm->integer
//    mov     QWORD PTR ad[rip], rax
//    ret

double load(){
    return ad.load(std::memory_order_acquire);
}
//    mov     rax, QWORD PTR ad[rip]
//    movq    xmm0, rax
//    ret

没有-mtune=intel,gcc喜欢存储/重载整数 - > xmm.请参阅https://gcc.gnu.org/bugzilla/show_bug.cgi?id=80820以及我报告的相关错误.这甚至是一个糟糕的选择-mtune=generic.AMD movq在整数和向量寄存器之间具有高延迟,但它也具有存储/重载的高延迟.使用默认值-mtune=generic,load()编译为:

//    mov     rax, QWORD PTR ad[rip]
//    mov     QWORD PTR [rsp-8], rax   # store/reload integer->xmm
//    movsd   xmm0, QWORD PTR [rsp-8]
//    ret

在xmm和整数寄存器之间移动数据将带我们进入下一个主题:


原子读 - 修改 - 写(类似fetch_add)是另一个故事:直接支持整数与类似的东西lock xadd [mem], eax(有关更多详细信息,请参阅可以使用num ++为'int num'的原子).对于其他东西,比如atomicatomic,x86上的唯一选项是带cmpxchg(或TSX)的重试循环.

原子比较和交换(CAS)可用作任何原子RMW操作的无锁构建块,最大硬件支持的CAS宽度.在x86-64上,这是16字节cmpxchg16b(在某些第一代AMD K8上不可用,所以对于gcc你必须使用-mcx16-march=whatever启用它).

gcc使得最好的asm成为可能exchange():

double exchange(double x) {
    return ad.exchange(x); // seq_cst
}
    movq    rax, xmm0
    xchg    rax, QWORD PTR ad[rip]
    movq    xmm0, rax
    ret
  // in 32-bit code, compiles to a cmpxchg8b retry loop


void atomic_add1() {
    // ad += 1.0;           // not supported
    // ad.fetch_or(-0.0);   // not supported
    // have to implement the CAS loop ourselves:

    double desired, expected = ad.load(std::memory_order_relaxed);
    do {
        desired = expected + 1.0;
    } while( !ad.compare_exchange_weak(expected, desired) );  // seq_cst
}

    mov     rax, QWORD PTR ad[rip]
    movsd   xmm1, QWORD PTR .LC0[rip]
    mov     QWORD PTR [rsp-8], rax    # useless store
    movq    xmm0, rax
    mov     rax, QWORD PTR [rsp-8]    # and reload
.L8:
    addsd   xmm0, xmm1
    movq    rdx, xmm0
    lock cmpxchg    QWORD PTR ad[rip], rdx
    je      .L5
    mov     QWORD PTR [rsp-8], rax
    movsd   xmm0, QWORD PTR [rsp-8]
    jmp     .L8
.L5:
    ret

compare_exchange总是进行逐位比较,所以你不必担心负零(-0.0)+0.0在IEEE语义中比较等于或者NaN是无序的.如果您尝试检查desired == expected并跳过CAS操作,这可能是一个问题.对于足够新的编译器,memcmp(&expected, &desired, sizeof(double)) == 0可能是表达C++中FP值的按位比较的好方法.只要确保你避免误报; 假阴性只会导致不需要的CAS.


硬件仲裁lock or [mem], 1肯定比在lock cmpxchg重试循环中旋转多个线程更好.每次核心访问高速缓存行但失败时,cmpxchg与整数内存目标操作相比,浪费吞吐量,一旦他们获得高速缓存行,它们总是成功.

IEEE浮点数的一些特殊情况可以使用整数运算来实现.例如,a的绝对值atomic可以用lock and [mem], rax(其中RAX具有除符号位设置之外的所有位).或者通过将1加入符号位来强制浮点/双精度为负.或者用XOR切换其标志.你甚至可以原子地将它的大小增加1 ulp lock add [mem], 1.(但是,只有当你确定它不是无限的时候才开始... nextafter()是一个有趣的功能,这要归功于具有偏向指数的IEEE754的非常酷的设计,这使得从尾数到指数的实际运行工作.)

可能没有办法在C++中表达这一点,让编译器在使用IEEE FP的目标上为你做这件事.因此,如果你想要它,你可能必须自己使用类型惩罚atomic或其他东西,并检查FP字节顺序是否匹配整数字节序等等.(或者只是为x86做它.大多数其他目标有LL/SC而不是内存目的地锁定操作.)


还不能支持原子AVX/SSE向量之类的东西,因为它依赖于CPU

正确.通过缓存一致性系统,无法检测128b或256b存储或加载何时是原子的.(https://gcc.gnu.org/bugzilla/show_bug.cgi?id=70490).甚至在L1D和执行单元之间具有原子传输的系统也可能在通过窄协议在高速缓存之间传输高速缓存行时在8B块之间撕裂.真实示例:具有HyperTransport互连的多插槽Opteron K10似乎在单个插槽中具有原子16B加载/存储,但不同插槽上的线程可以观察到撕裂.

但是如果你有一个共享的对齐doubles 数组,你应该可以在它们上面使用向量加载/存储,而不会在任何给定的内部"撕裂" double.

向量加载/存储和收集/分散的每元素原子性?

我认为可以安全地假设对齐的32B加载/存储是通过不重叠的8B或更宽的加载/存储完成的,尽管英特尔不保证这一点.对于未对齐的操作,假设任何东西可能都不安全.

如果你需要一个16B原子的负载下,唯一的选择是lock cmpxchg16b,用desired=expected.如果成功,它会将现有值替换为自身.如果失败,那么你得到旧的内容.(转角情况:只读内存上的这个"加载"错误,所以要小心你传递给执行此操作的函数的指针.)此外,与实际的只读负载相比,性能当然是可怕的缓存线处于共享状态,并且不是完全内存屏障.

16B原子商店和RMW都可以使用lock cmpxchg16b明显的方式.这使得纯存储比常规矢量存储更昂贵,特别是如果cmpxchg16b必须重试多次,但原子RMW已经很昂贵.

将矢量数据移入/移出整数寄存器的额外指令不是免费的,但与之相比并不昂贵lock cmpxchg16b.

# xmm0 -> rdx:rax, using SSE4
movq   rax, xmm0
pextrq rdx, xmm0, 1


# rdx:rax -> xmm0, again using SSE4
movq   xmm0, rax
pinsrq xmm0, rdx, 1

在C++ 11术语中:

atomic<__m128d>即使对于只读或只写操作(使用cmpxchg16b),即使以最佳方式实现,也会很慢. atomic<__m256d>甚至无法锁定.

alignas(64) atomic shared_buffer[1024];在理论上仍然允许自动向量化的代码读取或写入它,只需要到movq rax, xmm0,然后xchgcmpxchg用于原子RMW上double.(在32位模式下,cmpxchg8b可以工作.)但是你几乎肯定不会从编译器中获得好的asm,但是!


您可以自动更新16B对象,但可以原子方式分别读取8B半部分.(我认为这对于x86上的内存排序是安全的:请参阅https://gcc.gnu.org/bugzilla/show_bug.cgi?id=80835上的推理).

但是,编译器没有提供任何干净的方式来表达这一点.我修改了一个适用于gcc/clang的联合类型 - 惩罚:我如何用c ++ 11 CAS实现ABA计数器?.但gcc7及更高版本不会内联cmpxchg16b,因为他们正在重新考虑16B对象是否应该真正表现为"无锁".(https://gcc.gnu.org/ml/gcc-patches/2017-01/msg02344.html).



2> avdgrinten..:

在x86-64上,原子操作通过LOCK前缀实现.在英特尔软件开发者手册(第2卷,指令集)的状态

LOCK前缀只能作为以下指令的前缀,并且只能作为目标操作数是存储器操作数的那些形式的指令:ADD,ADC,AND,BTC,BTR,BTS,CMPXCHG,CMPXCH8B,CMPXCHG16B,DEC,INC, NEG,NOT,OR,SBB,SUB,XOR,XADD和XCHG.

这些指令都不对浮点寄存器(如XMM,YMM或FPU寄存器)进行操作.

这意味着在x86-64上实现原子浮点/双精度操作没有自然的方法.虽然大多数这些操作可以通过将浮点值的位表示加载到通用(即整数)寄存器来实现,但这样做会严重降低性能,因此编译器作者选择不实现它.

正如Peter Cordes在评论中指出的那样,加载和存储不需要LOCK前缀,因为它们在x86-64上始终是原子的.但是,英特尔SDM(第3卷,系统编程指南)仅保证以下加载/存储是原子的:

读取或写入单个字节的指令.

读取或写入地址在2字节边界上对齐的字(2个字节)的指令.

读取或写入双字(4字节)的指令,其地址在4字节边界上对齐.

读取或写入四字(8字节)的指令,其地址在8字节边界上对齐.

特别是,不保证从较大的XMM和YMM向量寄存器加载/存储的原子性.


有一些指令`cmpxchg8b`,`cmpxchg16b`允许CASsing 64/128位,从而允许对双精度/ SSE进行通用原子操作.此外,RMW指令不一定比加载/操作/存储序列更快.
推荐阅读
  • Leetcode学习成长记:天池leetcode基础训练营Task01数组
    前言这是本人第一次参加由Datawhale举办的组队学习活动,这个活动每月一次,之前也一直关注,但未亲身参与过,这次看到活动 ... [详细]
  • POJ 2482 星空中的星星:利用线段树与扫描线算法解决
    在《POJ 2482 星空中的星星》问题中,通过运用线段树和扫描线算法,可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据,还能确保时间复杂度的最优性,适用于各种复杂的星空模拟场景。 ... [详细]
  • 本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用,仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 兆芯X86 CPU架构的演进与现状(国产CPU系列)
    本文详细介绍了兆芯X86 CPU架构的发展历程,从公司成立背景到关键技术授权,再到具体芯片架构的演进,全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 包含phppdoerrorcode的词条 ... [详细]
  • JUC(三):深入解析AQS
    本文详细介绍了Java并发工具包中的核心类AQS(AbstractQueuedSynchronizer),包括其基本概念、数据结构、源码分析及核心方法的实现。 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • 解决Bootstrap DataTable Ajax请求重复问题
    在最近的一个项目中,我们使用了JQuery DataTable进行数据展示,虽然使用起来非常方便,但在测试过程中发现了一个问题:当查询条件改变时,有时查询结果的数据不正确。通过FireBug调试发现,点击搜索按钮时,会发送两次Ajax请求,一次是原条件的请求,一次是新条件的请求。 ... [详细]
  • 在HTML布局中,即使将 `top: 0%` 和 `left: 0%` 设置为元素的定位属性,浏览器中仍然会出现空白填充。这个问题通常与默认的浏览器样式、盒模型或父元素的定位方式有关。为了消除这些空白,可以考虑重置浏览器的默认样式,确保父元素的定位方式正确,并检查是否有其他CSS规则影响了元素的位置。 ... [详细]
  • 在分析和解决 Keepalived VIP 漂移故障的过程中,我们发现主备节点配置如下:主节点 IP 为 172.16.30.31,备份节点 IP 为 172.16.30.32,虚拟 IP 为 172.16.30.10。故障表现为监控系统显示 Keepalived 主节点状态异常,导致 VIP 漂移到备份节点。通过详细检查配置文件和日志,我们发现主节点上的 Keepalived 进程未能正常运行,最终通过优化配置和重启服务解决了该问题。此外,我们还增加了健康检查机制,以提高系统的稳定性和可靠性。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 在Linux系统中,网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制,并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址(需要安装`iproute`包),当网卡未分配IP地址或处于关闭状态时,可以通过`ip link set`命令进行配置和激活。此外,文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理,为系统管理员提供了实用的操作指南。 ... [详细]
  • 在Django中提交表单时遇到值错误问题如何解决?
    在Django项目中,当用户提交包含多个选择目标的表单时,可能会遇到值错误问题。本文将探讨如何通过优化表单处理逻辑和验证机制来有效解决这一问题,确保表单数据的准确性和完整性。 ... [详细]
author-avatar
学银先生_512
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有