当前位置: 开发笔记 > 后端 > 正文

ARM流水线如何提高代码执行效率

作者：庄大运 | 来源：互联网 | 2023-07-26 18:34

关注星标公众号，不错过精彩内容编排|strongerHuang微信公众号|嵌入式专栏为什么有些CPU的主频更低，但运算效率却更高呢？比如&

关注&＃43;星标公众号&＃xff0c;不错过精彩内容

编排 | strongerHuang

微信公众号 | 嵌入式专栏

为什么有些CPU的主频更低&＃xff0c;但运算效率却更高呢&＃xff1f;

比如&＃xff1a;51单片机30M主频&＃xff0c;STM32单片机20M主频&＃xff0c;执行相同一段代码&＃xff0c;主频更低的STM32所花的时间却更短。

这里就牵涉到CPU流水线的问题&＃xff0c;本文围绕CPU流水线描述相关内容。

早期CPU流水线

1.流水线来源

流水线的概念来源于工业制造领域&＃xff0c;以汽车装配为例来解释流水线的工作方式&＃xff0c;假设装配一辆汽车需要四个步骤&＃xff1a;

1.冲压&＃xff1a;制作车身外壳和底盘等部件&＃xff1b;

2.焊接&＃xff1a;将冲压成形后的各部件焊接成车身&＃xff1b;

3.涂装&＃xff1a;将车身等主要部件清洗、化学处理、打磨、喷漆和烘干&＃xff1b;

4.总装&＃xff1a;将各部件&＃xff08;包括发动机和向外采购的零部件&＃xff09;组装成车&＃xff1b;

汽车装配需要冲压、焊接、涂装和总装四个工人&＃xff0c;最简单的方法是一辆汽车依次经过上述四个步骤装配完成之后&＃xff0c;下一辆汽车才开始进行装配&＃xff0c;最早期的工业制造就是采用的这种原始的方式&＃xff0c;即同一时刻只有一辆汽车在装配。

不久之后人们发现&＃xff0c;某个时段中一辆汽车在进行装配时&＃xff0c;其它三个工人都处于闲置状态&＃xff0c;显然这是对资源的极大浪费&＃xff0c;于是思考出能有效利用资源的新方法&＃xff0c;即在第一辆汽车经过冲压进入焊接工序的时候&＃xff0c;立刻开始进行第二辆汽车的冲压&＃xff0c;而不是等到第一辆汽车经过全部四个工序后才开始&＃xff0c;这样在后续生产中就能够保证四个工人一直处于运行状态&＃xff0c;不会造成人员的闲置。这样的生产方式就好似流水川流不息&＃xff0c;因此被称为流水线。

2.CPU流水线

1989 年推出的 i486 处理器引入了五级流水线。这时&＃xff0c;在 CPU 中不再仅运行一条指令&＃xff0c;每一级流水线在同一时刻都运行着不同的指令。这个设计使得 i486 比同频率的 386 处理器性能提升了不止一倍。

五级流水线中的取指阶段将指令从指令缓存中取出&＃xff08;i486 中的指令缓存为 8KB&＃xff09;&＃xff1b;

第二级为译码阶段&＃xff0c;将取出的指令翻译为具体的功能操作&＃xff1b;

第三级为转址阶段&＃xff0c;用来将内存地址和偏移进行转换&＃xff1b;

第四级为执行阶段&＃xff0c;指令在该阶段真正执行运算&＃xff1b;

第五级为退出阶段&＃xff0c;运算的结果被写回寄存器或者内存。

由于处理器同时运行了多条指令&＃xff0c;大大提升了程序运行的性能。

CPU流水线技术

CPU流水线技术是一种将指令分解为多步&＃xff0c;并让不同指令的各步操作重叠&＃xff0c;从而实现几条指令并行处理&＃xff0c;以加速程序运行过程的技术。

指令的每步有各自独立的电路来处理&＃xff0c;每完成一步&＃xff0c;就进到下一步&＃xff0c;而前一步则处理后续指令。

采用流水线技术后&＃xff0c;并没有加速单条指令的执行&＃xff0c;每条指令的操作步骤一个也不能少&＃xff0c;只是多条指令的不同操作步骤同时执行&＃xff0c;因而从总体上看加快了指令流速度&＃xff0c;缩短了程序执行时间。

流水线技术是通过增加计算机硬件来实现的。它要求各功能段能互相独立地工作&＃xff0c;这就要增加硬件&＃xff0c;相应地也加大了控制的复杂性。如果没有互相独立的操作部件&＃xff0c;很可能会发生各种冲突。例如要能预取指令&＃xff0c;就需增加指令的硬件电路&＃xff0c;并把取来的指令存放到指令队列缓冲器中&＃xff0c;使微处理器能同时进行取指令和分析、执行指令的操作。

---来自百度百科

流水线与代码执行效果

为什么说同主频的51单片机相比STM32执行效率低呢&＃xff1f;

除了大家认为的8位和32位宽度区别之外&＃xff0c;还有一个就是51单片机不支持流水线&＃xff08;也可以理解为单流水线&＃xff09;&＃xff0c;而STM32支持流水线。

Cortex‐M3处理器使用一个 3 级流水线。流水线的 3 级分别是&＃xff1a;取指、解码和执行&＃xff0c; 如图&＃xff1a;

通过下面一张图来对比单流水线和多级流水线&＃xff0c;你就更能明白为什么51单片机执行效率低了。

多级流水线优缺点

并非在所有情况下流水线技术都起作用&＃xff0c;可能有一些缺点。如果一条指令流水线能够在每一个时脉周期接纳一条新的指令&＃xff0c;被称为完整流水线&＃xff08;fully pipelined&＃xff09;。因流水线中的指令需要延迟处理而要等待数个时脉周期&＃xff0c;被称为非完整流水线。

当一名程序员&＃xff08;或者组合者/编译者&＃xff09;编写组合代码&＃xff08;或者汇编码&＃xff09;时&＃xff0c;他们会假定每个指令是循序运行的。而这个假设会使流水线无效。当此现象发生后程序会表现的不正常&＃xff0c;而此现象就是危害。不过当前有提供几种技术来解决这些危害像是转发与延迟等。

1.优点

减少了处理器执行指令所需要的时脉周期&＃xff0c;在通常情况下增加了指令的输入频率&＃xff08;issue-rate&＃xff09;。
一些集成电路&＃xff0c;例如加法器或者乘法器&＃xff0c;通过添加更多的环路使其工作得更快&＃xff0c;如果以流水线替代&＃xff0c;能相对地减少环路。

2.缺点

流水线处理器设计复杂度更高、生产成本更高&＃xff1b;
流水线的处理器必须在数据路径中添加额外触发器。
非流水线处理器有固定指令位宽&＃xff0c;流水线处理器的性能更难以预测&＃xff0c;并且不同的程序之间的变化可能更大。

声明&＃xff1a;本文素材来源网络&＃xff0c;版权归原作者所有。如涉及作品版权问题&＃xff0c;请与我联系删除。

------------ END ------------

●专栏《嵌入式工具》

●专栏《嵌入式开发》

●专栏《Keil教程》

●嵌入式专栏精选教程

关注公众号回复“加群”按规则加入技术交流群&＃xff0c;回复“1024”查看更多内容。

点击“阅读原文”查看更多分享。

推荐阅读

并发
深入解析GCD：任务队列与多线程编程

本文详细介绍了Grand Central Dispatch (GCD) 的核心概念和使用方法，探讨了任务队列、同步与异步执行以及常见的死锁问题。通过具体示例和代码片段，帮助开发者更好地理解和应用GCD进行多线程开发。 ... [详细]

蜡笔小新 2024-12-22 10:11:08
并发
Java项目分层架构设计与实践

本文探讨了Java项目中应用分层的最佳实践，不仅介绍了常见的三层架构（Controller、Service、DAO），还深入分析了各层的职责划分及优化建议。通过合理的分层设计，可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]

蜡笔小新 2024-12-22 12:14:24
并发
vivo Y5s的核心处理器解析

vivo Y5s配备了联发科Helio P65八核处理器，这款处理器采用12纳米工艺制造，具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外，它还集成了先进的图像处理单元和语音唤醒功能，为用户提供卓越的性能体验。 ... [详细]

蜡笔小新 2024-12-21 11:24:54
struct
Linux环境下进程间通信：深入解析信号机制

本文详细探讨了Linux系统中信号的生命周期，从信号生成到处理函数执行完毕的全过程，并介绍了信号编程中的注意事项和常见应用实例。通过分析信号在进程中的注册、注销及处理过程，帮助读者理解如何高效利用信号进行进程间通信。 ... [详细]

蜡笔小新 2024-12-21 10:29:05
ci
访问一个网页的全过程

准备:DHCPUDPIP和以太网启动主机,用一根以太网电缆连接到学校的以太网交换机,交换机又与学校的路由器相连.学校的这台路由器与一个ISP链接,此ISP(Intern ... [详细]

蜡笔小新 2024-12-21 04:41:12
并发
深入理解Java多线程并发处理：基础与实践

本文探讨了Java中的多线程并发处理机制，从基本概念到实际应用，帮助读者全面理解并掌握多线程编程技巧。通过实例解析和理论阐述，确保初学者也能轻松入门。 ... [详细]

蜡笔小新 2024-12-20 19:28:45
并发
备战BAT面试：掌握这些MySQL核心问题

本文深入探讨了MySQL中常见的面试问题，包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析，帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]

蜡笔小新 2024-12-20 18:58:01
并发
深入剖析JVM垃圾回收机制

本文详细探讨了Java虚拟机（JVM）中的垃圾回收机制，包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容，开发人员可以更好地优化内存管理和程序性能。 ... [详细]

蜡笔小新 2024-12-20 17:24:41
并发
优化DB2数据库性能的关键策略

本文详细介绍了优化DB2数据库性能的多种方法，涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段，可以显著提升数据库的运行效率和响应速度。 ... [详细]

蜡笔小新 2024-12-22 16:20:33
并发
CentOS 6.5 中扩展交换空间的方法

在安装Oracle 11g时，CentOS 6.5系统提示交换空间不足。本文详细介绍了如何通过两种方法增加交换空间，并提供了具体步骤和命令，帮助用户解决这一问题。 ... [详细]

蜡笔小新 2024-12-22 16:08:19
http
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
gcc
嵌入式开发环境搭建与文件传输指南

本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境，并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]

蜡笔小新 2024-12-22 13:38:48
storage
解决TensorFlow CPU版本安装中的依赖问题

本文记录了在安装CPU版本的TensorFlow过程中遇到的依赖问题及解决方案，特别是numpy版本不匹配和动态链接库（DLL）错误。通过详细的步骤说明和专业建议，帮助读者顺利安装并使用TensorFlow。 ... [详细]

蜡笔小新 2024-12-22 13:22:19
http
ElasticSearch 集群监控与优化

本文详细介绍了如何有效地监控 ElasticSearch 集群，涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]

蜡笔小新 2024-12-21 13:43:04
ci
Java异步编程实践

本文详细介绍了Java中实现异步调用的多种方式，包括线程创建、Future接口、CompletableFuture类以及Spring框架的@Async注解。通过代码示例和深入解析，帮助读者理解并掌握这些技术。 ... [详细]

蜡笔小新 2024-12-20 18:02:19

庄大运

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章