python中的多线程求值串行和并行_Python多线程辣鸡？那要怎样并行运算呢？

作者： | 来源：互联网 | 2023-08-31 14:23

前言Python在并行运算方面因为GIL(GlobalInterpreterLock，全局解释器锁)而饱受诟病，认为Python的多线程其实是伪的&#x

前言

Python在并行运算方面因为GIL(Global Interpreter Lock&＃xff0c;全局解释器锁)而饱受诟病&＃xff0c;认为Python的多线程其实是伪的&＃xff0c;很鸡肋&＃xff0c;这里就大致讲解下吧&＃xff0c;

在Python的原始解释器CPython中存在着GIL&＃xff0c;因此在解释执行Python代码时&＃xff0c;会产生互斥锁来限制线程对共享资源的访问&＃xff0c;直到解释器遇到I/O操作或者操作次数达到一定数目时才会释放GIL

所以有GIL效果就是&＃xff1a;** 一个进程内同一时间只能允许一个线程进行运算 ** (这尼玛不就是单线程吗&＃xff1f;)

至于为什么要有GIL&＃xff1f;只能说这是个历史遗留问题了&＃xff0c;人家发明Python的时候压根就没想到现在居然有多核CPU&＃xff0c;甚至多CPU的电脑啊~

再至于为什么GIL没有被优化掉&＃xff0c;总是有人家的考虑的&＃xff0c;反正Python3也继续了GIL的优良传统&＃xff0c;爱用不用&＃xff0c;有兴趣的自行搜索GIL吧

我这里尽量用事实说话&＃xff0c;直接黑盒测试下常见的几种并行运算方式

正文

测试环境&＃xff1a;

电脑&＃xff1a;

我的电脑

Python&＃xff1a; 2.7.10

我都是使用 multiprocessing 模块进行对比&＃xff0c;对比三种常见的使用情况&＃xff0c;我分别取名(非官方)&＃xff1a;ThreadPool,DummyPool,ProcessPool

引入方式如下&＃xff1a;

from multiprocessing.pool import ThreadPool

from multiprocessing.dummy import Pool as DummyPool

from multiprocessing import Pool as ProcessPool

说明&＃xff1a; ThreadPool,DummyPool 都是线程池&＃xff0c;ProcessPool 是进程池

测试代码如下&＃xff1a;

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# by vellhe 2017/7/1

from multiprocessing.pool import ThreadPool

from multiprocessing.dummy import Pool as DummyPool

from multiprocessing import Pool as ProcessPool

import time

max_range &＃61; 10000000

def run(i):

i &＃61; i * i

# return i # return和不return对进程池运行速度会有比较大影响&＃xff0c;不return效率更高

def thread_pool(num):

p &＃61; ThreadPool(num)

start_time &＃61; time.time()

ret &＃61; p.map(run, range(max_range))

p.close()

p.join()

print("thread_pool %d, costTime: %fs ret.size: %d" % (num, (time.time() - start_time), len(ret)))

def dummy_pool(num):

p &＃61; DummyPool(num)

start_time &＃61; time.time()

ret &＃61; p.map(run, range(max_range))

p.close()

p.join()

print("dummy_pool %d, costTime: %fs ret.size: %d" % (num, (time.time() - start_time), len(ret)))

def process_pool(num):

p &＃61; ProcessPool(num)

start_time &＃61; time.time()

ret &＃61; p.map(run, range(max_range))

p.close()

p.join()

print("process_pool %d, costTime: %fs ret.size: %d" % (num, (time.time() - start_time), len(ret)))

if __name__ &＃61;&＃61; "__main__":

for i in range(1, 9):

thread_pool(i)

dummy_pool(i)

process_pool(i)

print("&＃61;&＃61;&＃61;&＃61;&＃61;")

测试说明&＃xff1a;

通过并行计算max_range次对于i的二次方&＃xff0c;没有任何IO操作&＃xff0c;纯运算

这里特别说明&＃xff0c;由于偶然发现run方法return和不return对ProcessPool会有很大影响&＃xff0c;所以前后分别跑了两次

测试结果&＃xff1a;

没有return:

没有return

从上图很容易得出以下结论&＃xff1a;

thread_pool和dummy_pool运行速度几乎没有什么区别&＃xff0c;因为都是线程池&＃xff0c;而且从实现代码分析&＃xff0c;其实dummy_pool就是thread_pool&＃xff0c;只是套了一层壳而已

DummyPool实现

单线程运行速度比多线程要快&＃xff0c;这就是因为python的GIL机制了&＃xff0c;一个进程内同一时间只能允许一个线程进行运算&＃xff0c;多线程只会让时间白白在线程间切换上了。

这时有人会说&＃xff0c;那python的多线程不就废了&＃xff0c;要它何用&＃xff1f;

其实不然&＃xff0c;这里只是做了纯运算的实验&＃xff0c;没有任何IO&＃xff0c;如果是高IO的话情况就不一样了&＃xff0c;因为在等待IO完成时会去处理另外的线程&＃xff0c;而IO往往耗时较高&＃xff0c;所以在一些高IO情况下(如批量处理文件、网络请求、爬虫等)还是可以合理使用python的多线程的

单进程运行比单线程慢&＃xff0c;这个也能理解&＃xff0c;毕竟开一个线程比开一个进程要简单得多&＃xff0c;没有资源分配等乱七八糟的东西

多进程比单进程运行快&＃xff0c;这要是不快就奇怪了&＃xff0c;毕竟多进程是分散在不同cpu核上跑的&＃xff0c;这里和多线程比优势就很明显了&＃xff0c;所以一些科学运算想要提升速度就会用多进程策略了

当多进程数够多情况下会超越多线程的速度&＃xff0c;原因很简单&＃xff0c;多线程并不会因为线程数增多而变快&＃xff0c;而多进程却可以&＃xff0c;所以超越是必然的

有return:

有return

拿这张图对比上面没有return的那张就会发现一些有意思的事情&＃xff1a;

有return后单线程和多线程速度几乎一致了&＃xff0c;但多进程还是比单进程要快很多&＃xff0c;由于我电脑是4核的&＃xff0c;所以还能大致看出&＃xff0c;4个进程以后速度并没有提升了

有return后总体运算速度都慢了&＃xff0c;特别是进程的速度&＃xff0c;慢了一倍&＃xff0c;这里原因是进程间通信耗时较大&＃xff0c;需要把结果return到主进程中&＃xff0c;所以做大量运算时尽量避免进程间通信

测试存在IO操作的情况

上面都是纯运算&＃xff0c;没有IO&＃xff0c;接下来就看看存在IO操作会是什么样吧&＃xff0c;代码如下&＃xff0c;在循环计算前增加request请求

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# by vellhe 2017/7/1

import time

from multiprocessing.pool import ThreadPool

from multiprocessing import Pool as ProcessPool

import requests

max_range &＃61; 50

def run(i):

requests.get("http://www.qq.com")

for x in range(10000):

i &＃43;&＃61; i * x

return i

def thread_pool(num):

p &＃61; ThreadPool(num)

start_time &＃61; time.time()

ret &＃61; p.map(run, range(max_range))

p.close()

p.join()

print("thread_pool %d, costTime: %fs ret.size: %d" % (num, (time.time() - start_time), len(ret)))

def process_pool(num):

p &＃61; ProcessPool(num)

start_time &＃61; time.time()

ret &＃61; p.map(run, range(max_range))

p.close()

p.join()

print("process_pool %d, costTime: %fs ret.size: %d" % (num, (time.time() - start_time), len(ret)))

if __name__ &＃61;&＃61; "__main__":

for i in range(1, 9):

thread_pool(i)

process_pool(i)

print("&＃61;&＃61;&＃61;&＃61;&＃61;")

测试结果&＃xff1a;

IO操作结果

由上图可知:

存在IO操作的话&＃xff0c;python的多线程才会有用武之地&＃xff0c;有效提升了速度

存在IO情况下&＃xff0c;多进程效率还是会比多线程高很多

进程和线程数都是在4个后速度没有再提升了&＃xff0c;因为我电脑是4核的

继续追加实验&＃xff0c;看看多进程和多线程下CPU使用情况

分别做了好几次实验&＃xff0c;惊奇的发现个很神奇的事情&＃xff0c;不管开多少个进程或者线程&＃xff0c;每次cpu核占用情况都是大致如下&＃xff1a;

cpu使用情况

结果并没有出现我想像中的&＃xff0c;单进程是一个核占用暴涨&＃xff0c;其它核都是休息状&＃xff0c;我也解释不了为什么了&＃xff0c;难道是multiprocessing有优化&＃xff1f;还是系统层做了优化&＃xff1f;所以再做了一个实验&＃xff0c;没有用任何进程池&＃xff0c;直接for循环计算&＃xff1a;

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# by vellhe 2017/7/1

import time

max_range &＃61; 100000000

def run(i):

i &＃61; i * i

return i

if __name__ &＃61;&＃61; "__main__":

start_time &＃61; time.time()

for i in range(max_range):

run(i)

print("costTime: %fs" % (time.time() - start_time))

结果居然还是各个核的占用情况几乎是均匀的&＃xff0c;所以几乎可以断定&＃xff0c;这是系统层的优化了&＃xff0c;所以先告一段落吧&＃xff0c;以后再继续深究

后语

来个大致总结吧&＃xff0c;针对python而言&＃xff1a;

纯运算情况下单线程比多线程更快

多线程在IO操作较多情况下才能很好的发挥作用&＃xff0c;但效率还是低于多进程

单进程运行比单线程慢&＃xff0c;但当多进程数够多情况下会超越单线程的速度

多进程比单进程运行快

对于多进程而言&＃xff0c;有return会比没有return慢很多很多&＃xff0c;对于多线程却只会慢一点点

【疑惑】不管开多少个进程或者线程&＃xff0c;各个核占用情况几乎是均匀的&＃xff0c;猜测是系统底层有优化

ps&＃xff1a;关于我的疑惑&＃xff0c;知道明确结论的大侠们请给我留言&＃xff0c;多谢

推荐阅读

web
python并发打开网页_python并发_线程

关于进程的复习：#管道#数据的共享Managerdictlist#进程池#cpu个数1#retmap(func,iterable)#异步自带close和join#所有 ... [详细]

蜡笔小新 2024-11-17 13:24:48
web
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
web
web: _show -> _info 造轮子编程

问题场景用Java进行web开发过程当中，当遇到很多很多个字段的实体时，最苦恼的莫过于编辑字段的查看和修改界面，发现2个页面存在很多重复信息，能不能写一遍？有没有轮子用都不如自己造。解决方式笔者根据自 ... [详细]

蜡笔小新 2024-11-21 10:21:24
web
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
python
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
python
所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值）

所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值） ... [详细]

蜡笔小新 2024-11-18 15:40:40
split
5分钟快速筛选特定候选人的简历

介绍一个新的系列，专注于提供能在5分钟内完成的简单实用案例。本文将以办公中常见的需求为例，展示如何快速从大量简历中筛选出特定候选人的简历。 ... [详细]

蜡笔小新 2024-11-18 12:12:26
web
Django与Python及其他Web框架的对比

本文详细介绍了Django与其他Python Web框架（如Flask和Tornado）的区别，并探讨了Django的基本使用方法及与其他语言（如PHP）的比较。 ... [详细]

蜡笔小新 2024-11-18 09:13:53
web
Spring AOP学习笔记Advice执行顺序

一、Advice执行顺序二、Advice在同一个Aspect中三、Advice在不同的Aspect中一、Advice执行顺序如果多个Advice和同一个JointPoint连接& ... [详细]

蜡笔小新 2024-11-21 15:28:36
web
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
web
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
email
JavaMail抄送功能问题及解决方案

本文探讨了在使用JavaMail发送电子邮件时，抄送功能未能正常工作的问题，并提供了详细的代码示例和解决方法。 ... [详细]

蜡笔小新 2024-11-19 12:12:24
email
JUC并发编程——线程的基本方法使用

目录一、线程名称设置和获取二、线程的sleep()三、线程的interrupt四、join()五、yield()六、wait(),notify(),notifyAll( ... [详细]

蜡笔小新 2024-11-18 20:33:30
python
深入解析Python进程间通信：Queue与Pipe的应用

本文详细探讨了Python中进程间通信的两种常用方法——Queue和Pipe，并通过具体示例介绍了它们的基本概念、使用方法及注意事项。 ... [详细]

蜡笔小新 2024-11-18 12:41:55
list
解决Android引导页图片拉伸问题的方法

本文介绍了一种通过设置主题（Theme）来实现快速启动的Android引导页，并详细说明了如何避免因不同屏幕分辨率导致的图片拉伸问题。 ... [详细]

蜡笔小新 2024-11-17 14:34:25

Tags | 热门标签

RankList | 热门文章