python:numba加速python的forloop

作者：天边的云YEAH_988 | 来源：互联网 | 2023-08-23 15:51

一、背景写了个算法需要多次计算两个字符串的编辑距离。这部分耗时比较多，想要进行优化。编辑距离代码见最后的附录。编辑距离本质上是双层forloop，而且

一、背景

写了个算法需要多次计算两个字符串的编辑距离。这部分耗时比较多&＃xff0c;想要进行优化。编辑距离代码见最后的附录。编辑距离本质上是双层for loop&＃xff0c;而且是有依赖关系的for loop&＃xff0c;因此无法并行。然后发现 numba &＃xff0c;介绍如下&＃xff1a;
Numba is a just-in-time compiler for Python that works best on code that uses NumPy arrays and functions, and loops. The most common way to use Numba is through its collection of decorators that can be applied to your functions to instruct Numba to compile them. When a call is made to a Numba decorated function it is compiled to machine code “just-in-time” for execution and all or part of your code can subsequently run at native machine code speed!

本文主要介绍 nopython模式和 parallel模式

二、用法及其说明

2.1 &＃64;numba.njit()

用法非常简单&＃xff0c;在函数上面使用装饰器

import numba&＃64;numba.jit(nopython&＃61;True) # 等价于 &＃64;numba.njit() def editing_distance(word1: str, word2: str):&＃39;&＃39;&＃39;&＃39;&＃39;&＃39;pass

nopython&＃61;True 意味着numba对装饰器装饰的函数进行编译成机器码&＃xff0c;完全不使用python 解释器。注意

使用nopython&＃61;True 意味着着最佳的性能
如果nopython&＃61;True 失败&＃xff0c;可以切换另外一个模式object 。这个模式会把可以把可编译为机器码的for loop 编译&＃xff0c;无法成功编译的则使用python 解释器运行。这个加速效果就会比较差&＃xff0c;建议如果发现nopython&＃61;True 的跑不通&＃xff0c;就尽量去改变代码&＃xff0c;让代码变得更贴近pure python&＃xff0c;进而让代码跑通。
使用numba加速的函数&＃xff0c;第一次被调用的时候会进行初次编译&＃xff0c;这个时间会比较久。计算耗时的时候不应该被记入。第一次之后的执行都会感受到numba的加速
numba 不会对所有的for loop都有明显的加速效果。具体的对于什么for loop有比较好的加速效果需要看代码。一般来说对于 pure python的数据结构和numpy 都会有比较好的加速效果

2.2 &＃64;numba.njit(parallel&＃61;True)

对并行的代码进行加速。
level 1 : 原始

def ident_parallel(x):return np.cos(x) ** 2 &＃43; np.sin(x) ** 2

level 2 : &＃64;numba.njit() 把python编译成机器码&＃xff0c;加速 for loop

&＃64;numba.njit() def ident_parallel(x):return np.cos(x) ** 2 &＃43; np.sin(x) ** 2

level 3 : &＃64;numba.njit(parallel&＃61;True) 把python编译成机器码加速for loop &＃xff0c;且同时利用并行进行优化

&＃64;numba.njit(parallel&＃61;True) def ident_parallel(x):return np.cos(x) ** 2 &＃43; np.sin(x) ** 2

测试函数如下

if __name__&＃61;&＃61;&＃39;__main__&＃39;:a &＃61; np.zeros((20000, 20000))a_time &＃61; time.time()ident_parallel(a)b_time &＃61; time.time()print(f&＃39; consuming time is {b_time-a_time}&＃39;)

耗时统计如下

level 1 约 4.3 s level 2 约 0.9 s level 3 约 0.29 s

可以依次看到 njit 的速度提升以及 njit&＃43;parallel 的速度提升

三、numba为什么快

https://numba.readthedocs.io/en/stable/user/5minguide.html#how-does-numba-work

Numba reads the Python bytecode for a decorated function and combines this with information about the types of the input arguments to the function. It analyzes and optimizes your code, and finally uses the LLVM compiler library to generate a machine code version of your function, tailored to your CPU capabilities. This compiled version is then used every time your function is called.

提前获取Python的输入参数类型&＃xff0c;把Python的字节码转化成机器码&＃xff0c;转化的过程有针对性的优化。每次使用这个函数的时候直接使用的是机器码&＃xff0c;而无需重新编译

附录

编辑距离

def editing_distance(word1: str, word2: str):&＃39;&＃39;&＃39;两个字符串的编辑距离. &＃39;&＃39;&＃39;if len(word1)&＃61;&＃61;0:return len(word2)if len(word2)&＃61;&＃61;0:return len(word1)size1 &＃61; len(word1)size2 &＃61; len(word2)last &＃61; 0tmp &＃61; list(range(size2 &＃43; 1))value &＃61; Nonefor i in range(size1):tmp[0] &＃61; i &＃43; 1last &＃61; ifor j in range(size2):if word1[i] &＃61;&＃61; word2[j]:value &＃61; lastelse:value &＃61; 1 &＃43; min(last, tmp[j], tmp[j &＃43; 1])last &＃61; tmp[j&＃43;1]tmp[j&＃43;1] &＃61; valuereturn value

推荐阅读

get
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
get
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
get
Go语言基础：Hello World 实践

本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]

蜡笔小新 2024-12-27 21:29:35
java
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
get
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
random
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
get
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
js
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
get
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
get
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
get
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
random
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
js
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
dll
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47

天边的云YEAH_988

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章