热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多进程程序异常退出问题分析与解决

我在尝试使用python的多进程时遇到了进程无法正常退出的问题。具体代码如下,环境为python2.7, debian。1234567891011121314151617181920212223242

我在尝试使用python的多进程时遇到了进程无法正常退出的问题。具体代码如下,环境为python2.7, debian。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# -*-coding:UTF-8 -*-



import multiprocessing as mp

from multiprocessing import Queue

import BeautifulSoup as bs4

from Queue import Empty

import urllib

import json



'''

   getPageData 类似于生产者,获取工作列表。 getDetail 类似消费者,去获取工作的详细信息。queue 中存放工作详情页面的ID

'''



interface = 'http://www.lagou.com/jobs/positionAjax.json?px=default&yx=10k-15k&needAddtiOnalResult=false'

detailUrl = 'http://www.lagou.com/jobs/{0}.html'





def getPageData(task, queue, keyword='python'):

    while True:

        try:

            page = task.get(timeout=1)

        except Empty:

            break

        post_data = {'kd': keyword, 'pn': page, 'first': 'false'}

        opener = urllib.urlopen(interface, urllib.urlencode(post_data))

        jsOnData= json.loads(opener.read())

        results = jsonData['content']['positionResult']['result']

        for result in results:

            queue.put(result['positionId'])





def getDetail(queue, result):

    while True:

        try:

            positiOnId= queue.get(timeout=1)

        except Empty:

            print mp.current_process().name + 'exit'

            break

        url = detailUrl.format(positionId)

        print url, mp.current_process().name

        opener = urllib.urlopen(url)

        html = opener.read()

        soup = bs4.BeautifulSoup(html)

        cOntent= soup.findAll(attrs={"class": "job_bt"})[0]

        result.put('{0}\n{1}'.format(detailUrl.format(positionId), content))





def start(keyword='python'):

    task = Queue()

    queue = Queue()

    result = Queue()



    post_data = {'kd': keyword, 'pn': 1, 'first': 'true'}

    opener = urllib.urlopen(interface, urllib.urlencode(post_data))

    jsOnData= json.loads(opener.read())



    # 页数

    totalCount = jsonData['content']['positionResult']['totalCount']

    resultSize = jsonData['content']['positionResult']['resultSize']

    pageNums = totalCount / resultSize

    if totalCount % resultSize:

        pageNums += 1

    results = jsonData['content']['positionResult']['result']

    for r in results:

        queue.put(r['positionId'])



    # 调试前三页

    pageNums = 3

    for i in range(2, pageNums + 1):

        task.put(i)



    num_cOnsumers= mp.cpu_count()

    processes = [mp.Process(target=getDetail, args=(queue, result))

                 for _ in range(num_consumers)]

    processes.append(mp.Process(target=getPageData, args=(task, queue)))

    for p in processes:

        p.start()

    for p in processes:

        p.join()

    print 'processes over'



    with open('jobs', 'w+') as f:

        while not result.empty():

            a = result.get()

            f.write(a)



if __name__ == '__main__':

    start()

运行结果如下:

1
2
3
4
5
6
7
8
# 省略n行...

http://www.lagou.com/jobs/2233028.html Process-3

http://www.lagou.com/jobs/512126.html Process-1

http://www.lagou.com/jobs/2221983.html Process-2

Process-4exit

Process-3exit

Process-1exit

Process-2exit

脚本在此处卡住,无法退出
同样的这个模型我在多线程下运行正常,可以正常退出。
应该不存在死锁....不太清楚多进程下为什么无法正常退出。

尝试使用了线程池的Queue 发现居然好了

1
2
3
# 将result = Queue() 替换

manager = mp.Manager()

result = manager.Queue()

更不明白了


推荐阅读
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • 本文详细介绍 Go+ 编程语言中的上下文处理机制,涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 在哈佛大学商学院举行的Cyberposium大会上,专家们深入探讨了开源软件的崛起及其对企业市场的影响。会议指出,开源软件不仅为企业提供了新的增长机会,还促进了软件质量的提升和创新。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 本文基于刘洪波老师的《英文词根词缀精讲》,深入探讨了多个重要词根词缀的起源及其相关词汇,帮助读者更好地理解和记忆英语单词。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
author-avatar
-HUANGXIAOPENG
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有