Java中对于位运算的优化以及运用与思考

作者：灰色头像6888 | 来源：互联网 | 2023-07-26 20:32

引言随着JDK的发展以及JIT的不断优化，我们很多时候都可以写读起来易读但是看上去性能不高的代码了，编译器会帮我们优化代码。之前大学里面学单片机的时候，由于内存以及处理器

引言

随着JDK的发展以及JIT的不断优化，我们很多时候都可以写读起来易读但是看上去性能不高的代码了，编译器会帮我们优化代码。之前大学里面学单片机的时候，由于内存以及处理器性能都极其有限（可能很多时候考虑内存的限制优先于处理器），所以很多时候，利用位运算来节约空间或者提高性能，那么这些优秀的思想，放到目前的Java中，是否还有必要这么做呢？我们逐一思考与验证下（其实这也是一个关于Premature optimization的界定的思考）

1. 乘法与左移位

左移一位，相当于乘以2，左移n位，相当于乘以2的n次方。

1 = 0; int result = 1; for (int i = 0; i

看上去，移位应该比乘法性能快。那么JIT与JVM虚拟机是否做了一些优化呢？优化分为两部分，一个是编译器优化，另一个是处理器优化。我们先来看看字节码是否一致判断是否有编译优化，例如直接将乘以2优化成左移一位，来编写两个函数：

public void multiply2_1() { int i = 1; i = i

编译好之后，用javap -c来看下编译好的class文件，字节码是：

public void multiply2_1(); Code: 0: iconst_1 1: istore_1 2: iload_1 3: iconst_1 4: ishl 5: istore_1 6: return public void multiply2_2(); Code: 0: iconst_1 1: istore_1 2: iload_1 3: iconst_2 4: imul 5: istore_1 6: return

可以看出左移是ishl，乘法是imul，从字节码上看编译器并没有优化。那么在执行字节码转换成处理器命令是否会优化呢？是会优化的，在底层，乘法其实就是移位，但是并不是简单地左移

我们来使用jmh验证下，添加依赖：

org.openjdk.jmhjmh-core1.22org.openjdk.jmhjmh-generator-annprocess1.22site.ycsbcore0.17.0

实现思路：

被乘数的选择：被乘数固定为1，或者是一个极小值或者极大值或者是稀疏值（转换成2进制很多位是0），测试结果没啥太大的参考意义，所以我们选择2的n次方减某一数字作为被乘数
乘数生成的性能损耗：乘数是2的随机n次方，生成这个的方式要一致，我们这里要测试的仅仅是移位还有乘法运算速度，和实现复杂度没有关系。
实现代码：

@Benchmark @Warmup(iteratiOns= 0) @Measurement(iteratiOns= 300) public void multiply2_n_shift_not_overflow(Generator generator) { int result = 0; int y = 0; for (int j = 0; j

测试结果：

Benchmark Mode Cnt Score Error Units BitUtilTest.multiply2_n_mul_not_overflow thrpt 300 35882831.296 ± 48869071.860 ops/s BitUtilTest.multiply2_n_shift_not_overflow thrpt 300 59792368.115 ± 96267332.036 ops/s

可以看出，左移位相对于乘法还是有一定性能提升的

2. 除法和右移位

这个和乘法以及左移位是一样的.直接上测试代码：

@Benchmark @Warmup(iteratiOns= 0) @Measurement(iteratiOns= 300) public void divide2_1_1(Generator generator) { int result = 0; for (int j = 0; j > j; } }

结果：

Benchmark Mode Cnt Score Error Units BitUtilTest.divide2_n_div thrpt 300 10219904.214 ± 5787618.125 ops/s BitUtilTest.divide2_1_shift thrpt 300 44536470.740 ± 113360206.643 ops/s

可以看出，右移位相对于除法还是有一定性能提升的

3. “取余”与“取与”运算

对于2的n次方取余，相当于对2的n次方减一取与运算，n为正整数。为什么呢？通过下图就能很容易理解：

十进制中，对于10的n次方取余，直观来看就是：

image

其实就是将最后n位取出，就是余数。
对于二进制，是一样的：

image

这个运算相当于，对于n-1取与：

image

这个是一个很经典的位运算运用，广泛用于各种高性能框架。例如在生成缓存队列槽位的时候，一般生成2的n次方个槽位，因为这样在选择槽位的时候，就可以用取与代替取余；java中的ForkJoinPool的队列长度就是定为2的n次方；netty中的缓存池的叶子节点都是2的n次方，当然这也是因为是平衡二叉查找树算法的实现。

我们来看下性能会好多少：

@Benchmark @Warmup(iteratiOns= 0) @Measurement(iteratiOns= 300) public void mod2_n_1(Generator generator) { int result = 0; for (int j = 0; j

结果：

Benchmark Mode Cnt Score Error Units BitUtilTest.mod2_n_1 thrpt 300 10632698.855 ± 5843378.697 ops/s BitUtilTest.mod2_n_2 thrpt 300 80339980.989 ± 21905820.262 ops/s

同时，我们从这里也可以引申出，判断一个数是否是2的n次方的方法，就是看这个数与这个数减一取与运算看是否是0，如果是，则是2的n次方，n为正整数。

image

进一步的，奇偶性判断就是看对2取余是否为0，那么就相当于对（2-1）=1取与。

4. 求与数字最接近的2的n次方

这个广泛运用于各种API优化，上文中提到，2的n次方是一个好东西。我们在写框架的很多时候，想让用户传入一个必须是2的n次方的参数来初始化某个资源池，但这样不是那么灵活，我们可以通过用户传入的数字N，来找出不大于N的最大的2的n次方，或者是大于N的最小的2的N次方。

抽象为比较直观的理解就是，找一个数字最左边的1的左边一个1（大于N的最小的2的N次方），或者是最左边的1（小于N的最大的2的N次方），前提是这个数字本身不是2的n次方。

image

那么，如何找呢？一种思路是，将这个数字最高位1之后的所有位都填上1，最后加一，就是大于N的最小的2的N次方。右移一位，就是小于N的最大的2的N次方。

如何填补呢？可以考虑按位或计算，我们知道除了0或0=0以外，其他的都是1. 我们现在有了最左面的1，右移一位，与原来按位或，就至少有了两位是1，再右移两位并按位或，则至少有四位为1。。。以此类推：

image

用代码表示是：

n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; n += 1; //大于N的最小的2的N次方 n = n >>> 1; //小于N的最大的2的N次方

如果有兴趣，可以看一下Java的ForkJoinPool类的构造器，其中的WorkQueue大小，就是通过这样的转换得来的。

5. 交换两个数字

这个在单片机编程中经常会使用这个位运算性质：一个数字异或自己为零，一个数字异或0为自己本身。那么我们就可以利用这个性质交换两个数字。

假设有数字x，y。
我们有x^y^y = x^(y^y)= x^0 = x
还有x^y^y^x^y = 0^y = y
那么我们可以利用:

x = x ^ y; y = x ^ y; //代入后就是x^y^y x = x ^ y; //代入后就是x^y^y^x^y

这个方法虽然很巧妙，但是是一种时间换空间的方式; 我们常用的利用另一个变量实现交换是一种空间换时间的方式，来对比下性能：

@Benchmark @Warmup(iteratiOns= 0) @Measurement(iteratiOns= 300) public int swap_1() { int x = Integer.MAX_VALUE, y = Integer.MAX_VALUE / 2; int z = x; x = y; y = z; return x + y; } @Benchmark @Warmup(iteratiOns= 0) @Measurement(iteratiOns= 300) public int swap_2() { int x = Integer.MAX_VALUE, y = Integer.MAX_VALUE / 2; x ^= y; y ^= x; x ^= y; return x + y; }

结果：

Benchmark Mode Cnt Score Error Units BitUtilTest.swap_1 thrpt 300 267787894.370 ± 559479133.393 ops/s BitUtilTest.swap_2 thrpt 300 265768807.925 ± 387039155.884 ops/s

测试来看，性能差异并不明显，利用位运算减少了空间占用，减少了GC，但是交换减少了cpu运算，但是GC同样是消耗cpu计算，所以，很难界定。目前还是利用中间变量交换的更常用，也更易读一些。

6. bit状态位

我们为了节省空间，尝尝利用一个数字类型（例如long类型）作为状态数，每一位代表一个状态是true还是false。假设我们使用long类型，则一个状态数可以最多表示64个属性。代码上一般这么写：

public static class Test { //如果你的field是会被并发修改访问，那么最好还是加上缓存行填充防止false sharing @jdk.internal.vm.annotation.Contended private long field; private static final long SWITCH_1_MASK = 1; private static final long SWITCH_2_MASK = 1

这样能节省大量空间，在实际应用中，很多地方做了这种优化。最直接的例子就是，Java对象的对象头：

|-------------------------------------------------------|--------------------| | Mark Word (32 bits) | State | |-------------------------------------------------------|--------------------| | identity_hashcode:25 | age:4 | biased_lock:1 | lock:2 | Normal | |-------------------------------------------------------|--------------------| | thread:23 | epoch:2 | age:4 | biased_lock:1 | lock:2 | Biased | |-------------------------------------------------------|--------------------| | ptr_to_lock_record:30 | lock:2 | Lightweight Locked | |-------------------------------------------------------|--------------------| | ptr_to_heavyweight_monitor:30 | lock:2 | Heavyweight Locked | |-------------------------------------------------------|--------------------| | | lock:2 | Marked for GC | |-------------------------------------------------------|--------------------| 7. 位计数

基于6，有时候我们想某个状态数里面，有多少个状态是true，就是计算这个状态数里面多少位是1.

比较朴素的方法就是：先判断n的奇偶性，为奇数时计数器增加1，然后将n右移一位，重复上面的步骤，直到移位完毕。

高效一点的方法通过：

n & (n - 1)可以移除最后一位1 （假设最后一位本来是0，减一后必为1，0 & 1为 0，最后一位本来是1，减一后必为0，0 & 1为 0）
移除了最后一位1之后，计数加1，如果结果不为零，则用结果继续第一步。

int n = Integer.MAX_VALUE; int count = 0; while(n != 0) { n &= n -1; count++; }

推荐阅读

netty
深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用

深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用 ... [详细]

蜡笔小新 2024-11-02 18:57:12
io
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
java
深入理解 JavaScript 函数式编程技巧与应用（下篇）

本文将继续探讨 JavaScript 函数式编程的高级技巧及其实际应用。通过一个具体的寻路算法示例，我们将深入分析如何利用函数式编程的思想解决复杂问题。示例中，节点之间的连线代表路径，连线上的数字表示两点间的距离。我们将详细讲解如何通过递归和高阶函数等技术实现高效的寻路算法。 ... [详细]

蜡笔小新 2024-11-08 19:44:31
io
【系统架构师精讲】（16）：操作系统核心概念——寄存器、内存与缓存机制详解

在计算机系统架构中，中央处理器（CPU）内部集成了多种高速存储组件，用于临时存储指令、数据和地址。这些组件包括指令寄存器（IR）、程序计数器（PC）和累加器（ACC）。寄存器作为集成电路中的关键存储单元，由触发器构成，具备极高的读写速度，使得数据传输非常迅速。根据功能不同，寄存器可分为基本寄存器和移位寄存器，各自在数据处理中发挥重要作用。此外，寄存器与内存和缓存机制的协同工作，确保了系统的高效运行。 ... [详细]

蜡笔小新 2024-11-08 11:21:27
java
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
io
Vue 页面状态管理与跨页面数据传递的有效策略

在 Vue 应用开发中，页面状态管理和跨页面数据传递是常见需求。本文将详细介绍 Vue Router 提供的两种有效方式，帮助开发者高效地实现页面间的数据交互与状态同步，同时分享一些最佳实践和注意事项。 ... [详细]

蜡笔小新 2024-11-08 12:45:14
java
如何利用Java 5 Executor框架高效构建和管理线程池

Java 5 引入了 Executor 框架，为开发人员提供了一种高效管理和构建线程池的方法。该框架通过将任务提交与任务执行分离，简化了多线程编程的复杂性。利用 Executor 框架，开发人员可以更灵活地控制线程的创建、分配和管理，从而提高服务器端应用的性能和响应能力。此外，该框架还提供了多种线程池实现，如固定线程池、缓存线程池和单线程池，以适应不同的应用场景和需求。 ... [详细]

蜡笔小新 2024-11-07 17:05:32
io
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
io
并发编程入门：初探多任务处理技术

并发编程入门：探索多任务处理技术并发编程是指在单个处理器上高效地管理多个任务的执行过程。其核心在于通过合理分配和协调任务，提高系统的整体性能。主要应用场景包括：1) 将复杂任务分解为多个子任务，并分配给不同的线程，实现并行处理；2) 通过同步机制确保线程间协调一致，避免资源竞争和数据不一致问题。此外，理解并发编程还涉及锁机制、线程池和异步编程等关键技术。 ... [详细]

蜡笔小新 2024-11-06 15:23:50
java
Vue 实战基础教程第9讲：深入理解计算属性与侦听器的高效使用

Vue 实战基础教程第9讲：深入理解计算属性与侦听器的高效使用 ... [详细]

蜡笔小新 2024-11-05 18:45:54
java
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
io
Spring AOP核心概念与术语详解

面向切面编程（AOP）是Spring框架的两大核心概念之一，另一个核心概念是控制反转（IoC）。AOP通过在应用程序中分离横切关注点，如日志记录、事务管理和安全性，从而提高代码的模块化和可维护性。本文将深入探讨AOP的核心概念和术语，帮助读者更好地理解和应用这一重要技术。 ... [详细]

蜡笔小新 2024-11-05 13:16:58
main
Python 多进程编程：深入解析与实战技巧

在Python多进程编程中，`multiprocessing`模块是不可或缺的工具。本文详细探讨了该模块在多进程管理中的核心原理，并通过实际代码示例进行了深入分析。文章不仅总结了常见的多进程编程技巧，还提供了解决常见问题的实用方法，帮助读者更好地理解和应用多进程编程技术。 ... [详细]

蜡笔小新 2024-11-05 12:32:32
java
Spring框架中的面向切面编程（AOP）技术详解

面向切面编程（AOP）是Spring框架中的关键技术之一，它通过将横切关注点从业务逻辑中分离出来，实现了代码的模块化和重用。AOP的核心思想是将程序运行过程中需要多次处理的功能（如日志记录、事务管理等）封装成独立的模块，即切面，并在特定的连接点（如方法调用）动态地应用这些切面。这种方式不仅提高了代码的可维护性和可读性，还简化了业务逻辑的实现。Spring AOP利用代理机制，在不修改原有代码的基础上，实现了对目标对象的增强。 ... [详细]

蜡笔小新 2024-11-04 17:23:10
java
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38

灰色头像6888

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章