当前位置: 开发笔记 > 编程语言 > 正文

python爬虫案例之如何获取招聘要求

作者：mobiledu2502887427 | 来源：互联网 | 2023-05-19 16:29

小编给大家分享一下python爬虫案例之如何获取招聘要求，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后

小编给大家分享一下python爬虫案例之如何获取招聘要求，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

大致流程如下：

1.从代码中取出pid

2.根据pid拼接网址 => 得到 detail_url，使用requests.get，防止爬虫挂掉，一旦发现爬取的detail重复，就重新启动爬虫

3.根据detail_url获取网页html信息 => requests - > html，使用BeautifulSoup

若爬取太快，就等着解封

if html.status_code!=200
print(&＃39;status_code if {}&＃39;.format(html.status_code))

4.根据html得到soup => soup

5.从soup中获取特定元素内容 => 岗位信息

6.保存数据到MongoDB中

代码：

# @author： limingxuan 
# @contect： limx2011@hotmail.com
# @blog： https://www.jianshu.com/p/a5907362ba72
# @time： 2018-07-21
 
import requests
from bs4 import BeautifulSoup
import time
from pymongo import MongoClient
 
headers = {    
    &＃39;accept&＃39;: "application/json, text/Javascript, */*; q=0.01",
    &＃39;accept-encoding&＃39;: "gzip, deflate, br",
    &＃39;accept-language&＃39;: "zh-CN,zh;q=0.9,en;q=0.8",
    &＃39;content-type&＃39;: "application/x-www-form-urlencoded; charset=UTF-8",
    &＃39;COOKIE&＃39;: "JSESSIOnID=""; __c=1530137184; sid=sem_pz_bdpc_dasou_title; __g=sem_pz_bdpc_dasou_title; __l=r=https%3A%2F%2Fwww.zhipin.com%2Fgongsi%2F5189f3fadb73e42f1HN40t8~.html&l=%2Fwww.zhipin.com%2Fgongsir%2F5189f3fadb73e42f1HN40t8~.html%3Fka%3Dcompany-jobs&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1531150234,1531231870,1531573701,1531741316; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1531743361; __a=26651524.1530136298.1530136298.1530137184.286.2.285.199",
    &＃39;origin&＃39;: "https://www.zhipin.com",
    &＃39;referer&＃39;: "https://www.zhipin.com/job_detail/?query=python&scity=101010100",
    &＃39;user-agent&＃39;: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
    }
 
conn = MongoClient(&＃39;127.0.0.1&＃39;,27017)
db = conn.zhipin_jobs
 
def init():
    items = db.Python_jobs.find().sort(&＃39;pid&＃39;)
    for item in items:
        if &＃39;detial&＃39; in item.keys(): #当爬虫挂掉时，跳过已爬取的页
            continue
        detail_url = &＃39;https://www.zhipin.com/job_detail/{}.html&＃39;.format(item[&＃39;pid&＃39;]) #单引号和双引号相同，str.format()新格式化方式
        #第一阶段顺利打印出岗位页面的url
        print(detail_url)
        #返回的html是 Response 类的结果
        html = requests.get(detail_url,headers = headers)
        if html.status_code != 200:
            print(&＃39;status_code is {}&＃39;.format(html.status_code))
            break
        #返回值soup表示一个文档的全部内容（html.praser是html解析器）
        soup = BeautifulSoup(html.text,&＃39;html.parser&＃39;)
        job = soup.select(&＃39;.job-sec .text&＃39;)
        print(job)
        #???
        if len(job)<1:
            continue
        item[&＃39;detail&＃39;] = job[0].text.strip() #职位描述
        location = soup.select(".job-sec .job-location .location-address") 
        item[&＃39;location&＃39;] = location[0].text.strip() #工作地点
        item[&＃39;updated_at&＃39;] = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) #实时爬取时间
        #print(item[&＃39;detail&＃39;])
        #print(item[&＃39;location&＃39;])
        #print(item[&＃39;updated_at&＃39;])
        res = save(item) #调用保存数据结构
        print(res)
        time.sleep(40)#爬太快IP被封了24小时==
 
#保存数据到MongoDB中
def save(item):
    return db.Python_jobs.update_one({&＃39;_id&＃39;:item[&＃39;_id&＃39;]},{&＃39;$set&＃39;:item}) #why item ???
    
# 保存数据到MongoDB
        
if __name__ == &＃39;__main__&＃39;:
    init()

最终结果就是在MongoBooster中看到新增了detail和location的数据内容

python爬虫案例之如何获取招聘要求

以上是python爬虫案例之如何获取招聘要求的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程笔记行业资讯频道！

推荐阅读

config
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
request
Python网络编程：深入探讨TCP粘包问题及解决方案

本文详细探讨了TCP协议下的粘包现象及其产生的原因，并提供了通过自定义报头解决粘包问题的具体实现方案。同时，对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]

蜡笔小新 2024-11-23 15:55:15
metadata
Kubernetes Services详解

本文深入探讨了Kubernetes中的服务（Services）概念，解释了如何通过Services实现Pods之间的稳定通信，以及如何管理没有选择器的服务。 ... [详细]

蜡笔小新 2024-11-24 18:37:01
eval
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
io
使用 Babylon.js 实现地球模型与切片地图交互（第三部分）

本文继续探讨在上一章节中构建的地球模型基础上，如何通过自定义的 `CameraEarthWheelControl` 类来实现更精细的地图缩放控制。我们将深入解析该类的实现细节，并展示其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-24 14:39:58
hash
使用Java调用阿里云服务发送短信验证码

本文介绍如何通过Java代码调用阿里云短信服务API来实现短信验证码的发送功能，包括必要的依赖添加和关键代码示例。 ... [详细]

蜡笔小新 2024-11-24 13:19:44
uri
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
hash
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
request
编程技巧：判断对象的具体类

探讨多种方法来确定Java对象的实际类型，包括使用instanceof关键字、getClass()方法等。 ... [详细]

蜡笔小新 2024-11-24 11:08:33
request
精妙的门面设计：Request对象的安全封装

本文探讨为何Request对象的外观设计被认为是精妙的，重点在于其如何利用门面模式确保数据安全，同时保持系统的高效交互。 ... [详细]

蜡笔小新 2024-11-23 16:23:12
window
基于SSM框架的在线考试系统：随机组卷功能详解

本文深入探讨了基于SSM（Spring, Spring MVC, MyBatis）框架构建的在线考试系统中，随机组卷功能的设计与实现方法。 ... [详细]

蜡笔小新 2024-11-22 19:00:26
io
Android 开发框架整合：MVP + Retrofit + Dagger2 + RxAndroid 配置指南

本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库，构建高效、模块化的Android应用。 ... [详细]

蜡笔小新 2024-11-24 20:16:02
request
利用mysqladmin ext监控MySQL运行状态

本文介绍如何通过mysqladmin ext命令监控MySQL数据库的运行状态，包括性能指标的实时查看和分析。 ... [详细]

蜡笔小新 2024-11-24 13:13:45
request
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
window
使用UploadProgress实现文件上传进度条

本文介绍了如何通过安装和配置php_uploadprogress扩展来实现文件上传时的进度条显示功能。通过一个简单的示例，详细解释了从安装扩展到编写具体代码的全过程。 ... [详细]

蜡笔小新 2024-11-24 00:04:13

mobiledu2502887427

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章