热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多进程程序异常退出问题分析与解决

我在尝试使用python的多进程时遇到了进程无法正常退出的问题。具体代码如下,环境为python2.7, debian。1234567891011121314151617181920212223242

我在尝试使用python的多进程时遇到了进程无法正常退出的问题。具体代码如下,环境为python2.7, debian。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# -*-coding:UTF-8 -*-



import multiprocessing as mp

from multiprocessing import Queue

import BeautifulSoup as bs4

from Queue import Empty

import urllib

import json



'''

   getPageData 类似于生产者,获取工作列表。 getDetail 类似消费者,去获取工作的详细信息。queue 中存放工作详情页面的ID

'''



interface = 'http://www.lagou.com/jobs/positionAjax.json?px=default&yx=10k-15k&needAddtiOnalResult=false'

detailUrl = 'http://www.lagou.com/jobs/{0}.html'





def getPageData(task, queue, keyword='python'):

    while True:

        try:

            page = task.get(timeout=1)

        except Empty:

            break

        post_data = {'kd': keyword, 'pn': page, 'first': 'false'}

        opener = urllib.urlopen(interface, urllib.urlencode(post_data))

        jsOnData= json.loads(opener.read())

        results = jsonData['content']['positionResult']['result']

        for result in results:

            queue.put(result['positionId'])





def getDetail(queue, result):

    while True:

        try:

            positiOnId= queue.get(timeout=1)

        except Empty:

            print mp.current_process().name + 'exit'

            break

        url = detailUrl.format(positionId)

        print url, mp.current_process().name

        opener = urllib.urlopen(url)

        html = opener.read()

        soup = bs4.BeautifulSoup(html)

        cOntent= soup.findAll(attrs={"class": "job_bt"})[0]

        result.put('{0}\n{1}'.format(detailUrl.format(positionId), content))





def start(keyword='python'):

    task = Queue()

    queue = Queue()

    result = Queue()



    post_data = {'kd': keyword, 'pn': 1, 'first': 'true'}

    opener = urllib.urlopen(interface, urllib.urlencode(post_data))

    jsOnData= json.loads(opener.read())



    # 页数

    totalCount = jsonData['content']['positionResult']['totalCount']

    resultSize = jsonData['content']['positionResult']['resultSize']

    pageNums = totalCount / resultSize

    if totalCount % resultSize:

        pageNums += 1

    results = jsonData['content']['positionResult']['result']

    for r in results:

        queue.put(r['positionId'])



    # 调试前三页

    pageNums = 3

    for i in range(2, pageNums + 1):

        task.put(i)



    num_cOnsumers= mp.cpu_count()

    processes = [mp.Process(target=getDetail, args=(queue, result))

                 for _ in range(num_consumers)]

    processes.append(mp.Process(target=getPageData, args=(task, queue)))

    for p in processes:

        p.start()

    for p in processes:

        p.join()

    print 'processes over'



    with open('jobs', 'w+') as f:

        while not result.empty():

            a = result.get()

            f.write(a)



if __name__ == '__main__':

    start()

运行结果如下:

1
2
3
4
5
6
7
8
# 省略n行...

http://www.lagou.com/jobs/2233028.html Process-3

http://www.lagou.com/jobs/512126.html Process-1

http://www.lagou.com/jobs/2221983.html Process-2

Process-4exit

Process-3exit

Process-1exit

Process-2exit

脚本在此处卡住,无法退出
同样的这个模型我在多线程下运行正常,可以正常退出。
应该不存在死锁....不太清楚多进程下为什么无法正常退出。

尝试使用了线程池的Queue 发现居然好了

1
2
3
# 将result = Queue() 替换

manager = mp.Manager()

result = manager.Queue()

更不明白了


推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 本文深入探讨了 Java 中的 Serializable 接口,解释了其实现机制、用途及注意事项,帮助开发者更好地理解和使用序列化功能。 ... [详细]
  • 本文详细介绍了如何构建一个高效的UI管理系统,集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑,实现功能逻辑分散化和代码复用,支持多人协作开发。 ... [详细]
  • andr ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • 本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤,包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]
  • 本文介绍如何使用Objective-C结合dispatch库进行并发编程,以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码,展示dispatch库的强大功能。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
  • 本文介绍如何通过更改软件源来提前体验Ubuntu 8.10,包括详细的配置步骤和相关注意事项。 ... [详细]
author-avatar
-HUANGXIAOPENG
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有