Python_爬虫项目

作者：大眼刘 | 来源：互联网 | 2023-09-07 10:16

1、爬虫——智联招聘信息搜集原文链接1#-*-coding:utf-8-*-2importre3importcsv4importrequests5fromtqdmimporttqd

1、爬虫——智联招聘信息搜集原文链接

1 #-*- coding: utf-8 -*-
2 import re
3 import csv
4 import requests
5 from tqdm import tqdm
6 from urllib.parse import urlencode
7 from requests.exceptions import RequestException
8
9 def get_one_page(city, keyword, region, page):
10 &＃39;&＃39;&＃39;
11 获取网页html内容并返回
12 &＃39;&＃39;&＃39;
13 paras &＃61; {
14 &＃39;jl&＃39;: city, # 搜索城市
15 &＃39;kw&＃39;: keyword, # 搜索关键词
16 &＃39;isadv&＃39;: 0, # 是否打开更详细搜索选项
17 &＃39;isfilter&＃39;: 1, # 是否对结果过滤
18 &＃39;p&＃39;: page, # 页数
19 &＃39;re&＃39;: region # region的缩写&＃xff0c;地区&＃xff0c;2005代表海淀
20 }
21
22 headers &＃61; {
23 &＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;,
24 &＃39;Host&＃39;: &＃39;sou.zhaopin.com&＃39;,
25 &＃39;Referer&＃39;: &＃39;https://www.zhaopin.com/&＃39;,
26 &＃39;Accept&＃39;: &＃39;text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8&＃39;,
27 &＃39;Accept-Encoding&＃39;: &＃39;gzip, deflate, br&＃39;,
28 &＃39;Accept-Language&＃39;: &＃39;zh-CN,zh;q&＃61;0.9&＃39;
29 }
30
31 url &＃61; &＃39;https://sou.zhaopin.com/jobs/searchresult.ashx?&＃39; &＃43; urlencode(paras)
32 try:
33 # 获取网页内容&＃xff0c;返回html数据
34 response &＃61; requests.get(url, headers&＃61;headers)
35 # 通过状态码判断是否获取成功
36 if response.status_code &＃61;&＃61; 200:
37 return response.text
38 return None
39 except RequestException as e:
40 return None
41
42 def parse_one_page(html):
43 &＃39;&＃39;&＃39;
44 解析HTML代码&＃xff0c;提取有用信息并返回
45 &＃39;&＃39;&＃39;
46 # 正则表达式进行解析
47 pattern &＃61; re.compile(&＃39;(.*?).*?&＃39; # 匹配职位信息
48 &＃39;(.*?).*?&＃39; # 匹配公司网址和公司名称
49 &＃39;(.*?)&＃39;, re.S) # 匹配月薪
50
51 # 匹配所有符合条件的内容
52 items &＃61; re.findall(pattern, html)
53
54 for item in items:
55 job_name &＃61; item[0]
56 job_name &＃61; job_name.replace(&＃39;&＃39;, &＃39;&＃39;)
57 job_name &＃61; job_name.replace(&＃39;&＃39;, &＃39;&＃39;)
58 yield {
59 &＃39;job&＃39;: job_name,
60 &＃39;website&＃39;: item[1],
61 &＃39;company&＃39;: item[2],
62 &＃39;salary&＃39;: item[3]
63 }
64
65 def write_csv_file(path, headers, rows):
66 &＃39;&＃39;&＃39;
67 将表头和行写入csv文件
68 &＃39;&＃39;&＃39;
69 # 加入encoding防止中文写入报错
70 # newline参数防止每写入一行都多一个空行
71 with open(path, &＃39;a&＃39;, encoding&＃61;&＃39;gb18030&＃39;, newline&＃61;&＃39;&＃39;) as f:
72 f_csv &＃61; csv.DictWriter(f, headers)
73 f_csv.writeheader()
74 f_csv.writerows(rows)
75
76 def write_csv_headers(path, headers):
77 &＃39;&＃39;&＃39;
78 写入表头
79 &＃39;&＃39;&＃39;
80 with open(path, &＃39;a&＃39;, encoding&＃61;&＃39;gb18030&＃39;, newline&＃61;&＃39;&＃39;) as f:
81 f_csv &＃61; csv.DictWriter(f, headers)
82 f_csv.writeheader()
83
84 def write_csv_rows(path, headers, rows):
85 &＃39;&＃39;&＃39;
86 写入行
87 &＃39;&＃39;&＃39;
88 with open(path, &＃39;a&＃39;, encoding&＃61;&＃39;gb18030&＃39;, newline&＃61;&＃39;&＃39;) as f:
89 f_csv &＃61; csv.DictWriter(f, headers)
90 f_csv.writerows(rows)
91
92 def main(city, keyword, region, pages):
93 &＃39;&＃39;&＃39;
94 主函数
95 &＃39;&＃39;&＃39;
96 filename &＃61; &＃39;zl_&＃39; &＃43; city &＃43; &＃39;_&＃39; &＃43; keyword &＃43; &＃39;.csv&＃39;
97 headers &＃61; [&＃39;job&＃39;, &＃39;website&＃39;, &＃39;company&＃39;, &＃39;salary&＃39;]
98 write_csv_headers(filename, headers)
99 for i in tqdm(range(pages)):
100 &＃39;&＃39;&＃39;
101 获取该页中所有职位信息&＃xff0c;写入csv文件
102 &＃39;&＃39;&＃39;
103 jobs &＃61; []
104 html &＃61; get_one_page(city, keyword, region, i)
105 items &＃61; parse_one_page(html)
106 for item in items:
107 jobs.append(item)
108 write_csv_rows(filename, headers, jobs)
109
110 if __name__ &＃61;&＃61; &＃39;__main__&＃39;:
111 main(&＃39;北京&＃39;, &＃39;python&＃39;,2005 , 10)

智联招聘Python岗位信息搜集

转:https://www.cnblogs.com/hellangels333/p/8325886.html

推荐阅读

string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
list
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
string
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
list
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
list
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
import
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
list
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
list
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
import
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
match
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
list
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
list
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09

大眼刘

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章