作者:悉尼新鲜事儿 | 来源:互联网 | 2023-05-25 10:17
为简单起见,想象一下这种情况,我们有一台2位计算机,它有一对2位寄存器,称为r1和r2,只适用于立即寻址.
让我们说比特序列00意味着添加到我们的CPU.也01的装置将数据移动到R 1和10组的装置将数据移动到R2.
因此,这台计算机和汇编程序有一个汇编语言,其中的示例代码将被编写为
mov r1,1
mov r2,2
add r1,r2
简单地说,当我将此代码汇编为本机语言时,文件将类似于:
0101 1010 0001
上面的12位是本机代码:
Put decimal 1 to R1, Put decimal 2 to R2, Add the data and store in R1.
所以这基本上是编译代码的工作方式,对吧?
让我们说有人为这个架构实现了一个JVM.在Java中,我将编写如下代码:
int x = 1 + 2;
JVM将如何解释此代码?我的意思是最终必须将相同的位模式传递给cpu,不是吗?所有cpu都有许多可以理解和执行的指令,它们毕竟只是一些位.让我们说编译的Java字节码看起来像这样:
1111 1100 1001
或者其他..是否意味着解释在执行时将此代码更改为0101 1010 0001?如果是,它已经在本机代码中了,那为什么说JIT只是经过多次启动?如果它没有完全转换为0101 1010 0001,那么它会做什么?它如何使cpu做添加?
也许我的假设存在一些错误.
我知道解释很慢,编译代码更快但不可移植,虚拟机"解释"代码,但是如何?我正在寻找"如何完全/技术解释".任何指针(如书籍或网页)都是受欢迎的,而不是答案.
1> 小智..:
遗憾的是,您描述的CPU架构过于局限,无法通过所有中间步骤实现这一点.相反,我将编写伪C和伪x86汇编程序,希望以一种清晰的方式,而不是非常熟悉C或x86.
编译的JVM字节码可能如下所示:
ldc 0 # push first first constant (== 1)
ldc 1 # push the second constant (== 2)
iadd # pop two integers and push their sum
istore_0 # pop result and store in local variable
解释器具有(二进制编码)数组中的这些指令,以及引用当前指令的索引.它还有一个常量数组,一个用作堆栈的内存区域和一个用于局部变量的内存区域.那么解释器循环看起来像这样:
while (true) {
switch(instructions[pc]) {
case LDC:
sp += 1; // make space for constant
stack[sp] = constants[instructions[pc+1]];
pc += 2; // two-byte instruction
case IADD:
stack[sp-1] += stack[sp]; // add to first operand
sp -= 1; // pop other operand
pc += 1; // one-byte instruction
case ISTORE_0:
locals[0] = stack[sp];
sp -= 1; // pop
pc += 1; // one-byte instruction
// ... other cases ...
}
}
此 C代码被编译为机器代码并运行.正如您所看到的,它是高度动态的:它在每次执行指令时检查每个字节码指令,并且所有值都通过堆栈(即RAM).
虽然实际添加本身可能发生在寄存器中,但添加的代码与Java-to-machine代码编译器发出的代码有很大不同.以下是C编译器可能将上述内容转换为(伪x86)的摘录:
.ldc:
incl %esi # increment the variable pc, first half of pc += 2;
movb %ecx, program(%esi) # load byte after instruction
movl %eax, constants(,%ebx,4) # load constant from pool
incl %edi # increment sp
movl %eax, stack(,%edi,4) # write constant onto stack
incl %esi # other half of pc += 2
jmp .EndOfSwitch
.addi
movl %eax, stack(,%edi,4) # load first operand
decl %edi # sp -= 1;
addl stack(,%edi,4), %eax # add
incl %esi # pc += 1;
jmp .EndOfSwitch
您可以看到添加的操作数来自内存而不是硬编码,即使出于Java程序的目的,它们也是不变的.那是因为对于翻译来说,他们并不是一成不变的.解释器编译一次,然后必须能够执行各种程序,而不生成专门的代码.
JIT编译器的目的就是:生成专门的代码.JIT可以分析堆栈用于传输数据的方式,程序中各种常量的实际值以及执行的计算顺序,以生成更有效地执行相同操作的代码.在我们的示例程序中,它将局部变量0分配给寄存器,用常量移动常量替换对常量表的访问(movl %eax, $1
),并将堆栈访问重定向到正确的机器寄存器.忽略通常会做的一些更优化(复制传播,常量折叠和死代码消除),最终可能会得到如下代码:
movl %ebx, $1 # ldc 0
movl %ecx, $2 # ldc 1
movl %eax, %ebx # (1/2) addi
addl %eax, %ecx # (2/2) addi
# no istore_0, local variable 0 == %eax, so we're done