JAVACAS原理深度分析（*）

作者：和老师一起喝咖啡_171 | 来源：互联网 | 2023-07-12 19:11

java.util.concurrent包完全建立在CAS之上的，没有CAS就不会有此包。可见CAS的重要性。CASCAS:CompareandSwap,翻译成比较

java.util.concurrent包完全建立在CAS之上的&＃xff0c;没有CAS就不会有此包。可见CAS的重要性。

CAS
CAS:Compare and Swap, 翻译成比较并交换。
java.util.concurrent包中借助CAS实现了区别于synchronous同步锁的一种乐观锁。
本文先从CAS的应用说起&＃xff0c;再深入原理解析。

CAS应用
CAS有3个操作数&＃xff0c;内存值V&＃xff0c;旧的预期值A&＃xff0c;要修改的新值B。当且仅当预期值A和内存值V相同时&＃xff0c;将内存值V修改为B&＃xff0c;否则什么都不做。

非阻塞算法 &＃xff08;nonblocking algorithms&＃xff09;

一个线程的失败或者挂起不应该影响其他线程的失败或挂起的算法。

现代的CPU提供了特殊的指令&＃xff0c;可以自动更新共享数据&＃xff0c;而且能够检测到其他线程的干扰&＃xff0c;而 compareAndSet() 就用这些代替了锁定。

拿出AtomicInteger来研究在没有锁的情况下是如何做到数据正确性的。

private volatile int value;

首先毫无以为&＃xff0c;在没有锁的机制下可能需要借助volatile原语&＃xff0c;保证线程间的数据是可见的&＃xff08;共享的&＃xff09;。这样才获取变量的值的时候才能直接读取。

public final int get() {return value;}

然后来看看&＃43;&＃43;i是怎么做到的。

public final int incrementAndGet() {for (;;) {int current &＃61; get();int next &＃61; current &＃43; 1;if (compareAndSet(current, next))return next;} }

在这里采用了CAS操作&＃xff0c;每次从内存中读取数据然后将此数据和&＃43;1后的结果进行CAS操作&＃xff0c;如果成功就返回结果&＃xff0c;否则重试直到成功为止。
而compareAndSet利用JNI来完成CPU指令的操作。

public final boolean compareAndSet(int expect, int update) { return unsafe.compareAndSwapInt(this, valueOffset, expect, update);}

整体的过程就是这样子的&＃xff0c;利用CPU的CAS指令&＃xff0c;同时借助JNI来完成Java的非阻塞算法。其它原子操作都是利用类似的特性完成的。
其中

unsafe.compareAndSwapInt(this, valueOffset, expect, update);

类似&＃xff1a;

if (this &＃61;&＃61; expect) {this &＃61; updatereturn true;} else {return false;}

那么问题就来了&＃xff0c;成功过程中需要2个步骤&＃xff1a;比较this &＃61;&＃61; expect&＃xff0c;替换this &＃61; update&＃xff0c;compareAndSwapInt如何这两个步骤的原子性呢&＃xff1f; 参考CAS的原理。

CAS原理
CAS通过调用JNI的代码实现的。JNI:Java Native Interface为JAVA本地调用&＃xff0c;允许java调用其他语言。
而compareAndSwapInt就是借助C来调用CPU底层指令实现的。
下面从分析比较常用的CPU&＃xff08;intel x86&＃xff09;来解释CAS的实现原理。
下面是sun.misc.Unsafe类的compareAndSwapInt()方法的源代码&＃xff1a;

public final native boolean compareAndSwapInt(Object o, long offset,int expected,int x);

可以看到这是个本地方法调用。这个本地方法在openjdk中依次调用的c&＃43;&＃43;代码为&＃xff1a;unsafe.cpp&＃xff0c;atomic.cpp和atomicwindowsx86.inline.hpp。这个本地方法的最终实现在openjdk的如下位置&＃xff1a;openjdk-7-fcs-src-b147-27jun2011\openjdk\hotspot\src\oscpu\windowsx86\vm\ atomicwindowsx86.inline.hpp&＃xff08;对应于windows操作系统&＃xff0c;X86处理器&＃xff09;。下面是对应于intel x86处理器的源代码的片段&＃xff1a;

// Adding a lock prefix to an instruction on MP machine // VC&＃43;&＃43; doesn&＃39;t like the lock prefix to be on a single line // so we can&＃39;t insert a label after the lock prefix. // By emitting a lock prefix, we can define a label after it. #define LOCK_IF_MP(mp) __asm cmp mp, 0 \__asm je L0 \__asm _emit 0xF0 \__asm L0:inline jint Atomic::cmpxchg (jint exchange_value, volatile jint* dest, jint compare_value) {// alternative for InterlockedCompareExchangeint mp &＃61; os::is_MP();__asm {mov edx, destmov ecx, exchange_valuemov eax, compare_valueLOCK_IF_MP(mp)cmpxchg dword ptr [edx], ecx} }

如上面源代码所示&＃xff0c;程序会根据当前处理器的类型来决定是否为cmpxchg指令添加lock前缀。如果程序是在多处理器上运行&＃xff0c;就为cmpxchg指令加上lock前缀&＃xff08;lock cmpxchg&＃xff09;。反之&＃xff0c;如果程序是在单处理器上运行&＃xff0c;就省略lock前缀&＃xff08;单处理器自身会维护单处理器内的顺序一致性&＃xff0c;不需要lock前缀提供的内存屏障效果&＃xff09;。
intel的手册对lock前缀的说明如下&＃xff1a;

1.确保对内存的读-改-写操作原子执行。在Pentium及Pentium之前的处理器中&＃xff0c;带有lock前缀的指令在执行期间会锁住总线&＃xff0c;使得其他处理器暂时无法通过总线访问内存。很显然&＃xff0c;这会带来昂贵的开销。从Pentium 4&＃xff0c;Intel Xeon及P6处理器开始&＃xff0c;intel在原有总线锁的基础上做了一个很有意义的优化&＃xff1a;如果要访问的内存区域&＃xff08;area of memory&＃xff09;在lock前缀指令执行期间已经在处理器内部的缓存中被锁定&＃xff08;即包含该内存区域的缓存行当前处于独占或以修改状态&＃xff09;&＃xff0c;并且该内存区域被完全包含在单个缓存行&＃xff08;cache line&＃xff09;中&＃xff0c;那么处理器将直接执行该指令。由于在指令执行期间该缓存行会一直被锁定&＃xff0c;其它处理器无法读/写该指令要访问的内存区域&＃xff0c;因此能保证指令执行的原子性。这个操作过程叫做缓存锁定&＃xff08;cache locking&＃xff09;&＃xff0c;缓存锁定将大大降低lock前缀指令的执行开销&＃xff0c;但是当多处理器之间的竞争程度很高或者指令访问的内存地址未对齐时&＃xff0c;仍然会锁住总线。
2.禁止该指令与之前和之后的读和写指令重排序。
3.把写缓冲区中的所有数据刷新到内存中。

备注知识&＃xff1a;
关于CPU的锁有如下3种&＃xff1a;
3.1 处理器自动保证基本内存操作的原子性
首先处理器会自动保证基本的内存操作的原子性。处理器保证从系统内存当中读取或者写入一个字节是原子的&＃xff0c;意思是当一个处理器读取一个字节时&＃xff0c;其他处理器不能访问这个字节的内存地址。奔腾6和最新的处理器能自动保证单处理器对同一个缓存行里进行16/32/64位的操作是原子的&＃xff0c;但是复杂的内存操作处理器不能自动保证其原子性&＃xff0c;比如跨总线宽度&＃xff0c;跨多个缓存行&＃xff0c;跨页表的访问。但是处理器提供总线锁定和缓存锁定两个机制来保证复杂内存操作的原子性。

3.2 使用总线锁保证原子性
第一个机制是通过总线锁保证原子性。如果多个处理器同时对共享变量进行读改写&＃xff08;i&＃43;&＃43;就是经典的读改写操作&＃xff09;操作&＃xff0c;那么共享变量就会被多个处理器同时进行操作&＃xff0c;这样读改写操作就不是原子的&＃xff0c;操作完之后共享变量的值会和期望的不一致&＃xff0c;举个例子&＃xff1a;如果i&＃61;1,我们进行两次i&＃43;&＃43;操作&＃xff0c;我们期望的结果是3&＃xff0c;但是有可能结果是2。如下图
在这里插入图片描述
原因是有可能多个处理器同时从各自的缓存中读取变量i&＃xff0c;分别进行加一操作&＃xff0c;然后分别写入系统内存当中。那么想要保证读改写共享变量的操作是原子的&＃xff0c;就必须保证CPU1读改写共享变量的时候&＃xff0c;CPU2不能操作缓存了该共享变量内存地址的缓存。

处理器使用总线锁就是来解决这个问题的。所谓总线锁就是使用处理器提供的一个LOCK&＃xff03;信号&＃xff0c;当一个处理器在总线上输出此信号时&＃xff0c;其他处理器的请求将被阻塞住,那么该处理器可以独占使用共享内存。

3.3 使用缓存锁保证原子性
第二个机制是通过缓存锁定保证原子性。在同一时刻我们只需保证对某个内存地址的操作是原子性即可&＃xff0c;但总线锁定把CPU和内存之间通信锁住了&＃xff0c;这使得锁定期间&＃xff0c;其他处理器不能操作其他内存地址的数据&＃xff0c;所以总线锁定的开销比较大&＃xff0c;最近的处理器在某些场合下使用缓存锁定代替总线锁定来进行优化。

频繁使用的内存会缓存在处理器的L1&＃xff0c;L2和L3高速缓存里&＃xff0c;那么原子操作就可以直接在处理器内部缓存中进行&＃xff0c;并不需要声明总线锁&＃xff0c;在奔腾6和最近的处理器中可以使用“缓存锁定”的方式来实现复杂的原子性。所谓“缓存锁定”就是如果缓存在处理器缓存行中内存区域在LOCK操作期间被锁定&＃xff0c;当它执行锁操作回写内存时&＃xff0c;处理器不在总线上声言LOCK&＃xff03;信号&＃xff0c;而是修改内部的内存地址&＃xff0c;并允许它的缓存一致性机制来保证操作的原子性&＃xff0c;因为缓存一致性机制会阻止同时修改被两个以上处理器缓存的内存区域数据&＃xff0c;当其他处理器回写已被锁定的缓存行的数据时会起缓存行无效&＃xff0c;在例1中&＃xff0c;当CPU1修改缓存行中的i时使用缓存锁定&＃xff0c;那么CPU2就不能同时缓存了i的缓存行。

但是有两种情况下处理器不会使用缓存锁定。第一种情况是&＃xff1a;当操作的数据不能被缓存在处理器内部&＃xff0c;或操作的数据跨多个缓存行&＃xff08;cache line&＃xff09;&＃xff0c;则处理器会调用总线锁定。第二种情况是&＃xff1a;有些处理器不支持缓存锁定。对于Inter486和奔腾处理器,就算锁定的内存区域在处理器的缓存行中也会调用总线锁定。

以上两个机制我们可以通过Inter处理器提供了很多LOCK前缀的指令来实现。比如位测试和修改指令BTS&＃xff0c;BTR&＃xff0c;BTC&＃xff0c;交换指令XADD&＃xff0c;CMPXCHG和其他一些操作数和逻辑指令&＃xff0c;比如ADD&＃xff08;加&＃xff09;&＃xff0c;OR&＃xff08;或&＃xff09;等&＃xff0c;被这些指令操作的内存区域就会加锁&＃xff0c;导致其他处理器不能同时访问它。

CAS缺点
CAS虽然很高效的解决原子操作&＃xff0c;但是CAS仍然存在三大问题。ABA问题&＃xff0c;循环时间长开销大和只能保证一个共享变量的原子操作

ABA问题。因为CAS需要在操作值的时候检查下值有没有发生变化&＃xff0c;如果没有发生变化则更新&＃xff0c;但是如果一个值原来是A&＃xff0c;变成了B&＃xff0c;又变成了A&＃xff0c;那么使用CAS进行检查时会发现它的值没有发生变化&＃xff0c;但是实际上却变化了。ABA问题的解决思路就是使用版本号。在变量前面追加上版本号&＃xff0c;每次变量更新的时候把版本号加一&＃xff0c;那么A&＃xff0d;B&＃xff0d;A 就会变成1A-2B&＃xff0d;3A。

从Java1.5开始JDK的atomic包里提供了一个类AtomicStampedReference来解决ABA问题。这个类的compareAndSet方法作用是首先检查当前引用是否等于预期引用&＃xff0c;并且当前标志是否等于预期标志&＃xff0c;如果全部相等&＃xff0c;则以原子方式将该引用和该标志的值设置为给定的更新值。

关于ABA问题参考文档: http://blog.hesey.net/2011/09/resolve-aba-by-atomicstampedreference.html

循环时间长开销大。自旋CAS如果长时间不成功&＃xff0c;会给CPU带来非常大的执行开销。如果JVM能支持处理器提供的pause指令那么效率会有一定的提升&＃xff0c;pause指令有两个作用&＃xff0c;第一它可以延迟流水线执行指令&＃xff08;de-pipeline&＃xff09;,使CPU不会消耗过多的执行资源&＃xff0c;延迟的时间取决于具体实现的版本&＃xff0c;在一些处理器上延迟时间是零。第二它可以避免在退出循环的时候因内存顺序冲突&＃xff08;memory order violation&＃xff09;而引起CPU流水线被清空&＃xff08;CPU pipeline flush&＃xff09;&＃xff0c;从而提高CPU的执行效率。
只能保证一个共享变量的原子操作。当对一个共享变量执行操作时&＃xff0c;我们可以使用循环CAS的方式来保证原子操作&＃xff0c;但是对多个共享变量操作时&＃xff0c;循环CAS就无法保证操作的原子性&＃xff0c;这个时候就可以用锁&＃xff0c;或者有一个取巧的办法&＃xff0c;就是把多个共享变量合并成一个共享变量来操作。比如有两个共享变量i&＃xff1d;2,j&＃61;a&＃xff0c;合并一下ij&＃61;2a&＃xff0c;然后用CAS来操作ij。从Java1.5开始JDK提供了AtomicReference类来保证引用对象之间的原子性&＃xff0c;你可以把多个变量放在一个对象里来进行CAS操作。

concurrent包的实现
由于java的CAS同时具有 volatile 读和volatile写的内存语义&＃xff0c;因此Java线程之间的通信现在有了下面四种方式&＃xff1a;

A线程写volatile变量&＃xff0c;随后B线程读这个volatile变量。
A线程写volatile变量&＃xff0c;随后B线程用CAS更新这个volatile变量。
A线程用CAS更新一个volatile变量&＃xff0c;随后B线程用CAS更新这个volatile变量。
A线程用CAS更新一个volatile变量&＃xff0c;随后B线程读这个volatile变量。

Java的CAS会使用现代处理器上提供的高效机器级别原子指令&＃xff0c;这些原子指令以原子方式对内存执行读-改-写操作&＃xff0c;这是在多处理器中实现同步的关键&＃xff08;从本质上来说&＃xff0c;能够支持原子性读-改-写指令的计算机器&＃xff0c;是顺序计算图灵机的异步等价机器&＃xff0c;因此任何现代的多处理器都会去支持某种能对内存执行原子性读-改-写操作的原子指令&＃xff09;。同时&＃xff0c;volatile变量的读/写和CAS可以实现线程之间的通信。把这些特性整合在一起&＃xff0c;就形成了整个concurrent包得以实现的基石。如果我们仔细分析concurrent包的源代码实现&＃xff0c;会发现一个通用化的实现模式&＃xff1a;

首先&＃xff0c;声明共享变量为volatile&＃xff1b;
然后&＃xff0c;使用CAS的原子条件更新来实现线程之间的同步&＃xff1b;
同时&＃xff0c;配合以volatile的读/写和CAS所具有的volatile读和写的内存语义来实现线程之间的通信。

AQS&＃xff0c;非阻塞数据结构和原子变量类&＃xff08;java.util.concurrent.atomic包中的类&＃xff09;&＃xff0c;这些concurrent包中的基础类都是使用这种模式来实现的&＃xff0c;而concurrent包中的高层类又是依赖于这些基础类来实现的。从整体来看&＃xff0c;concurrent包的实现示意图如下&＃xff1a;
在这里插入图片描述

推荐阅读

shell
2023年7月7日网络安全动态

汇总了2023年7月7日最新的网络安全新闻和技术更新，包括最新的漏洞披露、工具发布及安全事件。 ... [详细]

蜡笔小新 2024-11-23 13:35:48
replace
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
version
Implementing and Testing Ext Ajax Calls with Promises

This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]

蜡笔小新 2024-11-24 15:29:28
client
2023年1月28日网络安全热点

涵盖最新的网络安全动态，包括OpenSSH和WordPress的安全更新、VirtualBox提权漏洞、以及谷歌推出的新证书验证机制等内容。 ... [详细]

蜡笔小新 2024-11-24 10:29:06
version
确定合适的序列化版本ID的方法

本文探讨了如何选择一个合适的序列化版本ID（serialVersionUID），包括使用生成器还是简单的整数，以及在不同情况下应如何处理序列化版本ID。 ... [详细]

蜡笔小新 2024-11-24 03:51:53
format
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38
web
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
client
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
version
Ubuntu 14.04 环境下搭建 Caffe（仅限 CPU）

本文详细介绍了如何在 Ubuntu 14.04 系统上搭建仅使用 CPU 的 Caffe 深度学习框架，包括环境准备、依赖安装及编译过程。 ... [详细]

蜡笔小新 2024-11-22 16:43:30
client
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
default
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
js
深入解析JQuery Mobile特有的事件与方法

本文详细介绍了JQuery Mobile框架中特有的事件和方法，帮助开发者更好地理解和应用这些特性，提升移动Web开发的效率。 ... [详细]

蜡笔小新 2024-11-21 14:24:21
format
PyQt5简易对话框深入解析

本文详细介绍了如何在PyQt5中创建简易对话框，包括对话框的基本结构、布局管理以及源代码实现。通过实例代码，展示了如何设置窗口部件、布局方式及对话框的基本操作。 ... [详细]

蜡笔小新 2024-11-23 17:32:44
client
web: _show -> _info 造轮子编程

问题场景用Java进行web开发过程当中，当遇到很多很多个字段的实体时，最苦恼的莫过于编辑字段的查看和修改界面，发现2个页面存在很多重复信息，能不能写一遍？有没有轮子用都不如自己造。解决方式笔者根据自 ... [详细]

蜡笔小新 2024-11-21 10:21:24
web
深入解析SpringMVC中的HandlerMapping机制

本文将从基础概念入手，详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发，以及其背后的源码实现细节。 ... [详细]

蜡笔小新 2024-11-20 19:24:42

和老师一起喝咖啡_171

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章