痞子衡嵌入式：对比MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异...

作者：xiao666tian760 | 来源：互联网 | 2023-10-15 18:21

大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异。近

　　大家好&＃xff0c;我是痞子衡&＃xff0c;是正经搞技术的痞子。今天痞子衡给大家介绍的是MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异。

　　近期有 i.MXRT 客户在集成 OTA SBL 项目去实现产品的 2nd bootloader 时遇到了 MbedTLS 库算法性能问题&＃xff0c;客户想知道 MbedTLS 纯软件实现和使用 i.MXRT 芯片里的硬件加速器实现&＃xff0c;在性能上差距有多大。借着客户这个问题&＃xff0c;我们今天就在 i.MXRT 上实测看一下两个方式的性能差异。

　　客户使用的是 i.MXRT1170&＃xff0c;这个型号上的硬件加速器是 CAAM&＃xff0c;相比前一代架构 i.MXRT10xx 系列上的 DCP 有升级&＃xff0c;我们今天把 DCP 和 CAAM 同时测一下。

一、mbedtls算法库简介

　　MbedTLS(前身 PolarSSL)是一个开源的 SSL/TLS 算法库&＃xff0c;最早由 ARM 公司开源和维护&＃xff0c;现在已经移交 TrustedFirmware 社区维护。MbedTLS 开源仓库地址为&＃xff1a;

项目地址&＃xff1a;https://github.com/ARMmbed/mbedtls

　　MbedTLS 代码由 C 语言写成&＃xff0c;其以最小的编码占用空间实现了 SSL/TLS 功能及各种加密算法&＃xff0c;易于理解、使用、集成和扩展&＃xff0c;方便开发人员轻松地在嵌入式产品中使用 SSL/TLS 功能。

　　MbedTLS 软件包主要提供了如下支持:

1. 完整的 SSL v3、TLS v1.0、TLS v1.1 和 TLS v1.2 协议实现 2. X.509 证书处理 3. 基于 TCP 的 TLS 传输加密 4. 基于 UDP 的 DTLS(Datagram TLS)传输加密 5. 其它加解密库实现

二、i.MXRT上的硬件加速器简介

2.1 i.MXRT10xx系列上的DCP

　　DCP 是 Data Co-Processor 的简称&＃xff0c;从名字上看是个通用数据协处理器。在 i.MXRT1060 Security Reference Manual 中有一张系统整体安全架构简图&＃xff0c;这个简图中标出了 DCP 模块的主要功能&＃xff1a;CRC-32算法、AES算法、Hash算法、类DMA数据搬移。关于进一步用法&＃xff0c;见痞子衡两篇旧文《i.MXRT10xx DCP使用时密钥注意事项》、《i.MXRT10xx DCP使用时Cache注意事项》。

2.2 i.MXRT11xx系列上的CAAM

　　CAAM 是 Cryptographic Acceleration and Assurance Module 的简称&＃xff0c;是个超全功能的安全算法加速器。在 i.MXRT1170 Security Reference Manual 中有一张系统整体安全架构简图&＃xff0c;这个简图中标出了 CAAM 模块的主要功能&＃xff0c;其在 DCP 已有功能上做了进一步扩展&＃xff0c;丰富了算法支持。

三、对比常见算法的软硬件实现性能差异

3.1 官方SDK例程简介

　　想要在 MCU 上跑 MbedTLS 算法&＃xff0c;正常是需要先移植 MbedTLS 源码的。但是恩智浦 i.MXRT 官方 SDK 包里已经做好了移植&＃xff0c;源码就放在 \SDK_2.11.0_MIMXRT1xxx-EVK\middleware\mbedtls 下面&＃xff0c;所以我们省去了移植步骤。注&＃xff1a;在 SDK 2.11 版本里移植的是 MbedTLS 2.27.0。

　　此外官方 SDK 里还提供给了如下两个关于 MbedTLS 的基础例程&＃xff0c;其中 mbedtls_selftest 是遍历全部算法&＃xff0c;检测算法执行正确性&＃xff1b;mbedtls_benchmark 则是提供全部算法的实际运行性能数据(编解码速率 KB/s)。

\SDK_2.11.0_MIMXRT1xxx-EVK\boards\evkmimxrt1xxx\mbedtls_examples\mbedtls_selftest \SDK_2.11.0_MIMXRT1xxx-EVK\boards\evkmimxrt1xxx\mbedtls_examples\mbedtls_benchmark

3.2 在i.MXRT1060上实测

　　我们现在在 MIMXRT1060-EVK 板子上实测算法性能&＃xff0c;就用 mbedtls_benchmark 例程&＃xff0c;选择 debug build&＃xff0c;即让代码跑在 TCM 里&＃xff0c;这样可以达到最好性能&＃xff0c;不让存储器性能成瓶颈从而影响算法性能数据。此外 i.MXRT1060 内核频率也是配到了最高 600MHz。

　　mbedtls_benchmark 例程默认是启用硬件加速器 DCP 来实现算法的&＃xff0c;因为我们要对比 MbedTLS 纯软件实现和 DCP 硬件实现性能差异&＃xff0c;所以在测试纯软件方式时需要在工程源文件 MIMXRT1062_features.h 里将下面这个宏临时设为 0&＃xff0c;这时候工程可能会编译不通过(代码链在 128KB ITCM 里)&＃xff0c;因为纯软件方式代码相比硬件驱动方式代码要大得多&＃xff0c;此时可以在 benchmark.c 或者 ksdk_mbedtls_config.h 注释掉一些算法执行来减少最终代码体(保留你感兴趣的算法)。

/* &＃64;brief DCP availability on the SoC. */ #define FSL_FEATURE_SOC_DCP_COUNT (0)

　　算法性能数据跟 IDE 以及编译优化选项也有关系&＃xff0c;我们这里选择了 IAR&＃xff0c;优化选项分别测试了 None 以及 High Speed&＃xff0c;No Size constraints 两种&＃xff0c;因为算法特别多&＃xff0c;我们就摘比较常用的 SHA 和 AES&＃xff0c;其对比结果如下&＃xff1a;

测试算法项	测试结果(IAR v9.10)
测试算法项	Opt-None SW-mbedtls	Opt-HighSpeed SW-mbedtls	Opt-None HW-DCP	Opt-HighSpeed HW-DCP
SHA-1	15967.90 KB/s 36.02 cycles/byte	19260.52 KB/s 30.13 cycles/byte	55207.68 KB/s 10.09 cycles/byte	66164.77 KB/s 8.54 cycles/byte
SHA-256	6141.10 KB/s 94.83 cycles/byte	15473.87 KB/s 37.57 cycles/byte	60976.40 KB/s 9.09 cycles/byte	74910.71 KB/s 7.51 cycles/byte
SHA-512	4723.55 KB/s 123.51 cycles/byte	7428.60 KB/s 78.55 cycles/byte	4720.28 KB/s 123.61 cycles/byte	7430.49 KB/s 78.56 cycles/byte
AES-CBC-128	6731.48 KB/s 86.55 cycles/byte	10957.42 KB/s 53.18 cycles/byte	58411.12 KB/s 9.52 cycles/byte	61560.47 KB/s 9.17 cycles/byte

3.3 在i.MXRT1170上实测

　　与上一节同样的方法&＃xff0c;在 MIMXRT1170-EVK 板子上也测一下&＃xff0c;同样 mbedtls_benchmark 例程 debug build&＃xff0c;注意 i.MXRT1170 是双核芯片&＃xff0c;我们在 Cortex-M7 下做测试&＃xff0c;将内核频率配到最高 996MHz。

　　测试 i.MXRT1170 上纯软件方式时仅需要在工程选项预编译宏里将 CRYPTO_USE_DRIVER_CAAM 去掉即可&＃xff0c;当然也可以在 MIMXRT1176_cm7_features.h 里将下面这个宏临时设为 0&＃xff0c;这时候没有代码空间顾虑&＃xff0c;i.MXRT1170 上默认 ITCM 是 256KB。最终测试结果如下&＃xff1a;

/* &＃64;brief CAAM availability on the SoC. */ #define FSL_FEATURE_SOC_CAAM_COUNT (0)

测试算法项	测试结果(IAR v9.10)
测试算法项	Opt-None SW-mbedtls	Opt-HighSpeed SW-mbedtls	Opt-None HW-CAAM	Opt-HighSpeed HW-CAAM
SHA-1	13156.48 KB/s 72.45 cycles/byte	14298.92 KB/s 66.73 cycles/byte	20981.07 KB/s 44.78 cycles/byte	27023.34 KB/s 34.61 cycles/byte
SHA-256	7206.51 KB/s 133.46 cycles/byte	12208.04 KB/s 78.36 cycles/byte	20970.20 KB/s 44.84 cycles/byte	27007.46 KB/s 34.62 cycles/byte
SHA-512	5897.39 KB/s 163.43 cycles/byte	8238.67 KB/s 116.73 cycles/byte	5894.95 KB/s 163.57 cycles/byte	8227.76 KB/s 116.91 cycles/byte
AES-CBC-128	5419.23 KB/s 178.02 cycles/byte	6352.19 KB/s 151.85 cycles/byte	39786.80 KB/s 22.96 cycles/byte	41433.36 KB/s 22.04 cycles/byte
AES-CBC-192	5059.84 KB/s 190.79 cycles/byte	6064.90 KB/s 159.10 cycles/byte	36596.29 KB/s 25.08 cycles/byte	38127.75 KB/s 24.15 cycles/byte
AES-CBC-256	4745.47 KB/s 203.54 cycles/byte	5803.56 KB/s 166.32 cycles/byte	34012.50 KB/s 27.11 cycles/byte	35229.83 KB/s 26.17 cycles/byte

3.4 性能测试总结

结论1&＃xff1a;使用硬件加速器CAAM模块/DCP模块&＃xff0c;相比 MbedTLS 纯软件实现&＃xff0c;对于大部分算法性能都会有提升&＃xff0c;但具体提升比例因算法本身复杂度而异。
结论2&＃xff1a;硬件加速器方式提升比例较大的是 3DES/DES(近10倍)、AES/ECDSA/ECDHE(近7倍)、RSA(3-5倍)、SHA-1/256(近2倍)。
结论3&＃xff1a;硬件加速器方式对于部分算法&＃xff0c;测试数据长度越大(默认1KB buffer&＃xff0c;比如调到10KB)&＃xff0c;性能提升更明显。
结论4&＃xff1a;编译器优化等级设置对 MbedTLS 纯软件和硬件加速器方式都有一定影响。
结论5&＃xff1a;CAAM模块比DCP模块在算法支持度上要高很多&＃xff0c;但编解码速度性能上并没有显著提升。

　　至此&＃xff0c;MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异痞子衡便介绍完毕了&＃xff0c;掌声在哪里~~~

欢迎订阅

文章会同时发布到我的博客园主页、CSDN主页、知乎主页、微信公众号平台上。

微信搜索"痞子衡嵌入式"或者扫描下面二维码&＃xff0c;就可以在手机上第一时间看了哦。

推荐阅读

install
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
usb
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
spring
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
spring
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
post
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38
go
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
ip
ImmutableX Poised to Pioneer Web3 Gaming Revolution

ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]

蜡笔小新 2024-12-27 08:55:17
object
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
instance
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
email
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
go
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
go
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
install
CentOS系统安装与配置常见问题及解决方案

本文详细介绍了在CentOS系统安装过程中遇到的常见问题及其解决方案，包括Vi编辑器的操作、图形界面的安装、网络连接故障排除等。通过本文，读者可以更好地理解和解决这些常见问题。 ... [详细]

蜡笔小新 2024-12-23 20:57:23
post
配置多VLAN环境下的透明SQUID代理

本文介绍如何在包含多个VLAN的网络环境中配置SQUID作为透明网关。网络拓扑包括Cisco 3750交换机、PANABIT防火墙和SQUID服务器，所有设备均部署在ESXi虚拟化平台上。 ... [详细]

蜡笔小新 2024-12-23 14:57:39
ip
【48】在flask中使用ＳＱＬＡＬｃｈｅｍｙ连接ｓｑｌｉｔｅ数据库

方法：１　配置数据库basediros.path.abspath(os.path.dirname(__file__))　　＃获取当前文件的绝对路径appFlask(__name__ ... [详细]

蜡笔小新 2024-12-23 12:51:39

xiao666tian760

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章