如果我不使用围栏,核心可以花多长时间看到另一个核心的写入？

作者：翔未央图_971 | 来源：互联网 | 2022-12-11 07:16

如何解决《如果我不使用围栏,核心可以花多长时间看到另一个核心的写入？》经验，为你挑选了1个好方法。

我一直试图谷歌我的问题,但老实说,我不知道如何简洁地陈述问题.

假设我在多核Intel系统中有两个线程.这些线程在同一个NUMA节点上运行.假设线程1写入X一次,然后只是偶尔读取它向前移动.进一步假设,线程2连续读取X. 如果我不使用内存栅栏,在线程1写入X和线程2看到更新值之间可以有多长时间？

我知道X的写入将转到存储缓冲区并从那里到缓存,此时MESIF将启动,线程2将通过QPI查看更新的值.(或者至少这是我收集到的).我假设存储缓冲区将被写入存储围栏中的缓存或者是否需要重用该存储缓冲区条目,但我不知道存储缓冲区是否已分配给写入.

最终我要为自己回答的问题是,如果线程2有可能在一个相当复杂的应用程序中看到线程1的写入几秒钟而正在做其他工作.

1> Peter Cordes..：

记忆障碍，不要让其他线程看到你的店的任何更快。 （除了阻止以后的加载可以稍微减少提交缓冲存储的争用。）

存储缓冲区始终尝试尽快将已退休（已知的非推测性）存储提交到L1d高速缓存。由于MESI / MESIF / MOESI，这使它们在全球范围内可见。存储缓冲区没有设计为适当的高速缓存或写合并缓冲区（尽管它可以将背对背存储合并到同一高速缓存行），因此需要清空自身以为新存储腾出空间。与高速缓存不同，它希望保持自身为空而不是不满。

栅栏/屏障通过使当前线程等待而不是通过提高商店可见性来工作。

完全屏障（mfence或locked操作）的简单实现是使管线停止运行，直到存储缓冲区耗尽为止，但是高性能实现可以做得更好，并允许与内存顺序限制分开的无序执行。

（不幸的是，Skylake mfence确实完全阻止了乱序执行，以修复晦涩的SKL079勘误，涉及从WC内存中的NT加载。但是lock add，xchg或者仅此而已，则只能阻止以后的加载读取L1d或存储缓冲区，直到屏障到达存储区的末尾。缓冲区。mfence在较早的CPU上大概也没有这个问题。）

通常，在非x86架构（具有显式的asm指令以应对较弱的内存屏障，例如仅关注StoreStore篱笆而不关心负载）的原理是相同的：阻塞需要阻塞的任何操作，直到该核心完成了任何内容的早期操作类型。

有关：

全局不可见的加载指令讨论了加载变得全局可见的含义。

内存屏障是否可以确保高速缓存一致性已完成？

记忆屏障是否既充当标记又充当指示？

最终，我要为自己解答的问题是线程2是否有可能几秒钟看不到线程1的写入

不，最坏情况下的延迟可能类似于存储缓冲区长度（Skylake上的56个条目，从BDW中的42个条目）乘以高速缓存未命中延迟的时间，因为x86的强大内存模型（无StoreStore重新排序）要求存储按顺序提交。但是用于多个高速缓存行的RFO可以一次运行，因此最大延迟可能是其的1/5（保守估计：有10个行填充缓冲区）。在飞行中也可能存在来自负载的竞争，但是我们只需要一个数量级的包络数。

可以说，在3GHz CPU上，RFO延迟（DRAM或其他内核的延迟）为300个时钟周期（基本组成）。因此，商店变得全局可见的最坏情况下的延迟可能类似于300 * 56 / 5= 3360核心时钟周期。因此，在一个数量级内，我们假设3GHz CPU的最坏情况约为1微秒。（CPU频率抵消了，因此以纳秒为单位的RFO延迟估计会更有用）。

那是您的所有商店都需要等待很长时间才能获得RFO的原因，因为它们都位于未缓存或由其他核心拥有的位置。而且它们都没有背对背地位于同一缓存行，因此没有一个可以合并到存储缓冲区中。因此，通常您希望它会更快。

我认为没有任何可行的机制可以花费一百微秒，更不用说一秒钟了。

推荐阅读

go
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
go
英特尔x86_64处理器不仅是流水线架构,还是超标量？

如何解决《英特尔x86_64处理器不仅是流水线架构,还是超标量？》经验，为你挑选了1个好方法。 ... [详细]

蜡笔小新 2023-05-25 18:19:19
io
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
go
volatile语句的负载障碍在哪里？

如何解决《volatile语句的负载障碍在哪里？》经验，为你挑选了1个好方法。 ... [详细]

蜡笔小新 2023-05-28 13:48:07
process
在使用AMD处理器启动AVD时出错 - Error in launching AVD with AMD processor

IhaveWindows8.1prowithanAMDprocessor.IinstalledtheAndroidSDKandEclipse.Itworksbut ... [详细]

蜡笔小新 2023-05-28 08:18:46
process
所有64位intel架构是否都支持SSSE3/SSE4.1/SSE4.2指令？

如何解决《所有64位intel架构是否都支持SSSE3/SSE4.1/SSE4.2指令？》经验，为你挑选了1个好方法。 ... [详细]

蜡笔小新 2023-05-24 17:28:55
join
mybatis相关面试题

mybatis相关面试题 ... [详细]

蜡笔小新 2024-11-29 21:19:37
process
Frida环境搭建与基础使用教程

本文详细介绍了如何在本地环境中安装配置Frida及其服务器组件，以及如何通过Frida进行基本的应用程序动态分析，包括获取应用版本和加载的类信息。 ... [详细]

蜡笔小新 2024-11-25 17:43:00
process
Node.js OS 模块中的 arch 方法解析

本文详细介绍了 Node.js 中 OS 模块的 arch 方法，包括其功能、语法、参数以及返回值，并提供了具体的使用示例。 ... [详细]

蜡笔小新 2024-11-23 10:19:37
io
服务器虚拟化存储设计,完美规划储存与资源，部署高性能虚拟化桌面

规划部署虚拟桌面环境前，必须先估算目前所使用实体桌面环境的工作负载与IOPS性能，并慎选储存设备。唯有谨慎估算贴近实际的IOPS性能，才能 ... [详细]

蜡笔小新 2024-11-22 19:12:09
go
华为鲲鹏平台适配的Redis Docker镜像构建指南

本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像，解决常见错误并提供优化建议。 ... [详细]

蜡笔小新 2024-11-19 15:04:08
go
乐东老乡，现在可以在普通PC上安装Mac OS X了！

乐东老乡们注意了，现在可以在普通的PC机上安装Mac OS X系统了。对于那些对图形图像和多媒体处理有需求的朋友们来说，这是一个好消息。 ... [详细]

蜡笔小新 2024-11-18 12:16:03
go
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
io
大华股份2013届校园招聘软件算法类试题D卷

一、填空题（共17题，每题3分，总共51分）1.设有inta5,*b,**c,执行语句c&b,b&a后，**c的值为________答：5 ... [详细]

蜡笔小新 2024-11-17 11:01:27
bit
intel core i5是否属于i686或x86_64系列

如何解决《intelcorei5是否属于i686或x86_64系列》经验，为你挑选了1个好方法。 ... [详细]

蜡笔小新 2023-05-26 13:23:27

翔未央图_971

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章