当前位置: 开发笔记 > 编程语言 > 正文

python3.6爬虫库_python3.6之抓取LaGou网爬虫职位详解

作者：爱吃橘子的金XiaRui | 来源：互联网 | 2023-09-10 11:39

目标：抓取LaGou网爬虫职位，下载于数据库MongoDB，并可视化于pycharm。我们采用：requests(获取)——

目标&＃xff1a;抓取LaGou网爬虫职位&＃xff0c;下载于数据库MongoDB&＃xff0c;并可视化于pycharm。

我们采用&＃xff1a;requests(获取)——MongoDB——PyCharm可视化

废话不多说&＃xff0c;先上结果与代码&＃xff1a;

前言&＃xff1a;

①&＃xff1a;安装PyMongo(pip install pymongo)&＃xff0c;这是Python操作MongoDB的驱动程序

②&＃xff1a;抓取页面&＃xff0c;如图

现重点讲解代码四个部分&＃xff1a;

一&＃xff1a;MongoDB

这将建立连接到默认主机(localhost)和端口(27017)

mongodb的详细功用可前往官网

二&＃xff1a;真实的urls

异步加载中&＃xff0c;真实的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords&＃61;&fromSearch&＃61;true&suginput&＃61;&＃xff0c;真正的url需要我们通过抓包获取&＃xff0c;流程如图&＃xff1a;

所以我们得出真实url&＃xff1a;https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult&＃61;false&isSchoolJob&＃61;0

三&＃xff1a;请求方法post (之前的文章都是get)

通过抓包我们可以看出拉钩网的请求方法是post&＃xff0c;所以我们要加入请求表单form_data

四&＃xff1a;请求头(headers)

每个网站的请求头都会不一样&＃xff0c;但爬取的网站&＃xff0c;都有例子&＃xff0c;大家初期&＃xff0c;跟着选就行&＃xff0c;如图&＃xff1a;

大家可以对比下我第四篇知乎的请求头

总结&＃xff1a;

数据库是学习Python爬虫的必经之路&＃xff0c;大家记得安装哦

MongoDB、pycharm可视化的安装&＃xff0c;我都会在知乎上发表

下一篇文章&＃xff0c;将学习使用函数实现LaGou翻页

有不清楚的地方&＃xff0c;大家可以留言&＃xff0c;点赞&＃xff0c;我看到了&＃xff0c;会第一时间回复你

近来考试与课程设计&＃xff0c;很久没有更新&＃xff0c;还望大家谅解

本系列文章同步跟新于微信公众号&＃xff1a;工科男雷先生。知乎&＃xff1a;雷之

推荐阅读

go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
go
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
go
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
string
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
string
解决Anaconda安装TensorFlow时遇到的TensorBoard版本问题

本文介绍了在使用Anaconda安装TensorFlow时遇到的“Could not find a version that satisfies the requirement tensorboard”错误，并提供详细的解决方案，包括创建虚拟环境和配置PyCharm项目。 ... [详细]

蜡笔小新 2024-12-23 11:58:00
string
Python Django大学生心理健康管理系统开发（含源码、文档）

本项目包含完整的源代码、设计文档、数据库结构以及详细的安装指南，旨在为计算机专业的学生提供一个全面的心理健康管理系统解决方案。 ... [详细]

蜡笔小新 2024-12-21 19:57:18
go
Java SpringMVC SSM 实现多模块集成：操作日志、文件管理、头像编辑、权限控制及缓存优化

本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统，涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等，旨在提供一个高效且功能丰富的开发平台。 ... [详细]

蜡笔小新 2024-12-20 19:17:47
text
Python爬虫实战：51CTO学院IT课程数据抓取

本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据，并以51CTO学院为例，进行详细的技术解析和实践操作。 ... [详细]

蜡笔小新 2024-12-17 11:53:33
go
深入分析十大PHP开发框架

随着PHP技术的发展，各类开发框架层出不穷，成为了开发者们热议的话题。本文将详细介绍并对比十款主流的PHP开发框架，旨在帮助开发者根据自身需求选择最合适的工具。 ... [详细]

蜡笔小新 2024-12-17 11:15:55
go
DB2 数据库编目管理：创建与删除

本文介绍了如何在 DB2 环境中创建和删除数据库编目。创建编目是连接新数据库的必要步骤，涉及获取数据库连接信息、使用命令行工具进行配置，并验证连接的有效性。删除编目则用于移除不再需要的数据库连接。 ... [详细]

蜡笔小新 2024-12-28 11:43:05
string
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
match
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
shell
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
shell
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23

爱吃橘子的金XiaRui

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章