当前位置: 开发笔记 > 开发工具 > 正文

x64OS上x32ELF的除法性能

作者：洪泽湖沟鼠_203 | 来源：互联网 | 2022-10-16 16:20

如何解决《x64OS上x32ELF的除法性能》经验，为你挑选了1个好方法。

在以下示例中，在64位体系结构上运行32位ELF的速度更快，但我不明白为什么。我尝试了两个示例，一个示例使用除法，另一个示例使用乘法。表现符合预期，但是该部门的表现令人惊讶。

我们在汇编程序上看到编译器正在调用的程序集，_alldiv它在32位架构上模拟了64位除法，因此它必须比仅使用Assembly指令慢idiv。所以我不明白我得到的结果：

我的设置是：Windows 10 x64，Visual Studio 2019

要计时我使用的代码Measure-Command { .\out.exe }：

乘法

32位ELF：3360毫秒

64位ELF：1469毫秒

师

32位ELF：7383毫秒

64位ELF：8567毫秒

码

#include 
#include 
#include 
#include 
#include 

volatile int64_t m = 32;
volatile int64_t n = 12;
volatile int64_t result;

int main(void)
{
    for (size_t i = 0; i <(1 <<30); i++)
    {
#       ifdef DIVISION
        result = m / n;
#       else 
        result = m * n;
#       endif
        m += 1;
        n += 3;
    }
}

64位反汇编（除法）

    for (size_t i = 0; i <(1 <<30); i++)
00007FF60DA81000  mov         r8d,40000000h  
00007FF60DA81006  nop         word ptr [rax+rax]  
    {
        result = m / n;
00007FF60DA81010  mov         rcx,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81017  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA8101E  cqo  
00007FF60DA81020  idiv        rax,rcx  
00007FF60DA81023  mov         qword ptr [result (07FF60DA83648h)],rax  
        m += 1;
00007FF60DA8102A  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA81031  inc         rax  
00007FF60DA81034  mov         qword ptr [m (07FF60DA83040h)],rax  
        n += 3;
00007FF60DA8103B  mov         rax,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81042  add         rax,3  
00007FF60DA81046  mov         qword ptr [n (07FF60DA83038h)],rax  
00007FF60DA8104D  sub         r8,1  
00007FF60DA81051  jne         main+10h (07FF60DA81010h)  
    }
}

32位反汇编（除法）

    for (size_t i = 0; i <(1 <<30); i++)
00A41002  mov         edi,40000000h  
00A41007  nop         word ptr [eax+eax]  
    {
        result = m / n;
00A41010  mov         edx,dword ptr [n (0A43018h)]  
00A41016  mov         eax,dword ptr ds:[00A4301Ch]  
00A4101B  mov         esi,dword ptr [m (0A43020h)]  
00A41021  mov         ecx,dword ptr ds:[0A43024h]  
00A41027  push        eax  
00A41028  push        edx  
00A41029  push        ecx  
00A4102A  push        esi  
00A4102B  call        _alldiv (0A41CD0h)  
00A41030  mov         dword ptr [result (0A433A0h)],eax  
00A41035  mov         dword ptr ds:[0A433A4h],edx  
        m += 1;
00A4103B  mov         eax,dword ptr [m (0A43020h)]  
00A41040  mov         ecx,dword ptr ds:[0A43024h]  
00A41046  add         eax,1  
00A41049  mov         dword ptr [m (0A43020h)],eax  
00A4104E  adc         ecx,0  
00A41051  mov         dword ptr ds:[0A43024h],ecx  
        n += 3;
00A41057  mov         eax,dword ptr [n (0A43018h)]  
00A4105C  mov         ecx,dword ptr ds:[0A4301Ch]  
00A41062  add         eax,3  
00A41065  mov         dword ptr [n (0A43018h)],eax  
00A4106A  adc         ecx,0  
00A4106D  mov         dword ptr ds:[0A4301Ch],ecx  
00A41073  sub         edi,1  
00A41076  jne         main+10h (0A41010h)  
    }
}

编辑

为了进一步调查Chris Dodd，我对代码进行了如下修改：

volatile int64_t m = 32000000000;
volatile int64_t n = 12000000000;
volatile int64_t result;

这次我有这些结果：

师

32位ELF：22407毫秒

64位ELF：17812毫秒

Chris Dodd.. 5

如果您查看x86处理器的指令时序，结果发现，在最新的Intel处理器上，64位除法的成本是32位除法的3-4倍-如果您查看alldiv的内部信息（上面的注释），对于始终适合32位的值，它将使用单个32位除法...

1> Chris Dodd..：

windows

推荐阅读

windows
22.Container With Most Water（能装最多水的容器）

thecontainercontainsthemos ... [详细]

蜡笔小新 2024-09-30 18:33:10
git
开发笔记:(源码开放) React + webpack3 多页面应用及常见问题解答

本文由编程笔记#小编为大家整理，主要介绍了(源码开放)React+webpack3多页面应用及常见问题解答相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-30 18:22:40
windows
PHP GuzzleHttp 无法获取到返回结果

PHP GuzzleHttp 无法获取到返回结果 ... [详细]

蜡笔小新 2024-09-30 16:03:21
windows
（代码素材）猫猫学IOS（七）UI之UITextField代理事件_类似QQ登陆窗口的简单实现

猫猫分享，必须精品原文地址：http:blog.csdn.netu013357243articledetails44571163素材地址：http:download.csdn.n ... [详细]

蜡笔小新 2024-09-30 15:47:15
git
GoogleLog(GLog)源码分析

本文分析和介绍了GLo ... [详细]

蜡笔小新 2024-09-30 15:14:04
windows
泛圈企业云盘：打造高效灵活的协同平台提高企业办公效率

云计算作为一种新的模式，给企业信息化的发展带来了巨大的变化。其中，企业云盘是一种可以快速被接受的企业云应用，因为在企业云盘存储中，所有云服务带来的风险都会大大降低。将文档管理系统本 ... [详细]

蜡笔小新 2024-09-30 14:58:51
windows
mysql 子查询sum失效

代码：在mysql5.6，运行正常，5.7报错SELECTsum((selecta.numwherea.status1))astotalFROMmes_order_productA ... [详细]

蜡笔小新 2024-09-30 14:13:47
windows
每日一练ACM 2019.04.14

2019.4.14第1001题：SumProblemProblemDescriptionHey,welcometoHDOJ(HangzhouDianziUniversityOnli ... [详细]

蜡笔小新 2024-09-30 14:09:13
git
Git（1）

安装Git完毕（在开始菜单打开的话，打开的不是你想要的路径，切换路径很麻烦）1.D盘新建GitTest文件夹2.打开GitTest,在空白的地方右键，3.单击GitBashHere ... [详细]

蜡笔小新 2024-09-30 14:07:01
windows
python基础（二、pycharm安装、卸载）

3.在Ubuntu中安装PyCharmPyCharm的官方网站地址是：https:www.jetbrains.compycharm注意：安装时不要使用root用户安装，否则后期使用 ... [详细]

蜡笔小新 2024-09-30 13:43:10
windows
jQuery源码学习2——初始化篇

这一篇主要总结一下jQuery这个js在引入的时候做的一些初始化工作第一句window.undefinedwindow.undefined;是为了兼容低版本的IE而写的因为在低版本 ... [详细]

蜡笔小新 2024-09-30 13:40:32
windows
spotify engineering culture part 1

原文，因为原视频说的太快太长，又没有字幕，于是借助youtube，把原文听&打出来了。中文版日后有时间再翻译。oneofthebigsucceessfactorshereatSpo ... [详细]

蜡笔小新 2024-09-30 13:36:17
windows
MyBatis模糊查询和多条件查询

MyBatis模糊查询和多条件查询一、ISmbmsUserDao层根据姓名模糊查询publicListgetUser();多条件查询publicList ... [详细]

蜡笔小新 2024-09-30 13:26:10
windows
装系统的时候系统盘自带图形分区工具检测不到硬盘

建议先查杀一下木马，修复一下系统试试win10自带分区工具。建议你下载恶意软件和木马强杀工具windows清理助手查杀恶意软件和木马 ... [详细]

蜡笔小新 2024-09-30 13:14:23
windows
php动态扩展怎么加载(2023年最新分享)

导读：今天编程笔记来给各位分享关于php动态扩展怎么加载的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： ... [详细]

蜡笔小新 2024-09-30 12:05:57

洪泽湖沟鼠_203

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章