项目案例分析

作者：黑_猫__警_长 | 来源：互联网 | 2023-06-07 14:18

需求分析题目：爬取裁判文书网(https:wenshu.court.gov.cn)，包含“宇通客车股份有限公司”涉及的案号，发布日期&#

需求分析

题目&＃xff1a;爬取裁判文书网(https://wenshu.court.gov.cn/)&＃xff0c;
包含“宇通客车股份有限公司”涉及的案号&＃xff0c;发布日期&＃xff0c;案由&＃xff0c;案件名称&＃xff0c;链接等信息。
在这里插入图片描述

分析思路

快速开发&＃xff1a;使用selenium&＃43;Chrome&＃43;mongodb的解决方案

为了能快速拿到数据&＃xff0c;选择使用selenium&＃43;Chrome来抓数据。
打开网站主页&＃xff0c;在搜索框输入搜索内容&＃xff0c;点击搜索时&＃xff0c;提示需登录&＃xff0c;所以需注册一个账号&＃xff0c;且使用selenium实现账号的登录。
登录后&＃xff0c;再输入搜索内容“宇通客车股份有限公司”&＃xff0c;点击搜索&＃xff0c;就会获得服务端的响应数据。分析响应页面中数据内容的结构&＃xff0c;发现每页有五个案件&＃xff0c;均在类属性为"LM_list"的div元素块中。
获取页面中的5个div节点&＃xff0c;逐一的解析其中的目标数据。
然后模拟人点击“下一页”&＃xff0c;浏览器加载到数据后&＃xff0c;同样的方法解析页面的数据&＃xff0c;直到最后一页。所有解析的数据存入mongodb数据库。
爬取过程中&＃xff0c;注意给浏览器足够的时间&＃xff0c;加载数据&＃xff0c;渲染页面&＃xff0c;否则selenium无法从浏览器解析元素节点&＃xff0c;从而出现异常。
如果过多的关注爬取效率问题&＃xff0c;就需要使用requests/scrapy库来实现&＃xff0c;或者搭建分布式爬虫。

以上&＃xff0c;解决问题&＃xff01;

项目代码

from selenium import webdriver import pymongo import time import random import logging logging.basicConfig(level&＃61;logging.INFO,format&＃61;"%(asctime)s %(message)s")def parse_data(i):"""定义函数&＃xff1a;解析每一页的案例"""logging.info("正在解析第%d个页面..."%i)#解析第一页的数据,默认一页有5个案件&＃xff0c;在5个div块&＃xff0c;class&＃61;&＃39;LM_list&＃39;divs &＃61; browser.find_elements_by_class_name(&＃39;LM_list&＃39;)for d in divs:data &＃61; {}data["case_name"] &＃61; d.find_element_by_xpath(&＃39;./div[2]/h4/a&＃39;).textdata["case_link"] &＃61; d.find_element_by_xpath(&＃39;./div[2]/h4/a&＃39;).get_attribute("href")data["court_name"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[1]&＃39;).textdata["case_id"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[2]&＃39;).textdata["release_time"] &＃61; d.find_element_by_xpath(&＃39;./div[3]/span[3]&＃39;).textdata["case_reason"] &＃61; d.find_element_by_xpath(&＃39;./div[4]/p&＃39;).text#案例数据入库c1.insert_one(data)if __name__&＃61;&＃61;"__main__":#1.请求主页&＃xff0c;完成登录#打开浏览器browser &＃61; webdriver.Chrome()#get请求裁判网主页url &＃61; "https://wenshu.court.gov.cn/"browser.get(url)time.sleep(random.uniform(1,3)) #给浏览器时间&＃xff0c;完成页面的加载#最大化窗口browser.maximize_window()#模拟登录#在主页窗口找到"登录"节点,点击登录browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"loginLi"]/a&＃39;).click()time.sleep(random.uniform(0.5,1.5))#账号、密码输入框&＃xff0c;在页面内的iframe子页面内&＃xff0c;所以需切换到iframe节点#找到iframe节点iframe &＃61; browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"contentIframe"]&＃39;)#切换进去browser.switch_to.frame(iframe)#在iframe内的子页面查找账号、密码输入框#找到账号输入框,并输入账号browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[1]/div/div/div/input&＃39;).send_keys("account")time.sleep(random.uniform(1,3)) #模拟人的操作延时&＃xff0c;防止反爬#找到密码输入框&＃xff0c;并输入密码browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[2]/div/div/div/input&＃39;).send_keys("password")time.sleep(random.uniform(1,3)) #模拟人的操作延时&＃xff0c;防止反爬#找到登录按钮&＃xff0c;点击登录browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"root"]/div/form/div/div[3]/span&＃39;).click()time.sleep(random.uniform(3,5)) #给浏览器时间&＃xff0c;完成页面的加载#到此&＃xff0c;成功登录&＃xff01;#2. 在搜索框内&＃xff0c;输入"宇通客车股份有限公司"#找到搜索框browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"_view_1540966814000"]/div/div[1]/div[2]/input&＃39;).send_keys("宇通客车股份有限公司")time.sleep(random.uniform(0.5,1)) #模拟人的操作延时&＃xff0c;防止反爬#找到搜索按钮&＃xff0c;进行点击搜索browser.find_element_by_xpath(&＃39;//*[&＃64;id&＃61;"_view_1540966814000"]/div/div[1]/div[3]&＃39;).click()time.sleep(random.uniform(2,5)) #给浏览器时间&＃xff0c;加载数据#到此&＃xff0c;完成搜索功能&＃xff0c;并加载到数据#3.解析目标数据"""court_name:法院名称case_id:案号release_time:发布时间case_reason:案由case_name:案件名称case_link:案件的连接数据存入mongodb"""#连接mongo 数据库mongo &＃61; pymongo.MongoClient("localhost",27017)case &＃61; mongo["case"]c1 &＃61; case["case_c1"]#分页获取数据browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(2,3))i &＃61; 1while browser.find_element_by_link_text(&＃39;下一页&＃39;).get_attribute("class") &＃61;&＃61; " pageButton":#解析默认的当前页面的数据&＃xff0c;并存入mongodbparse_data(i)#点击 ‘下一页’browser.find_element_by_link_text(&＃39;下一页&＃39;).click()time.sleep(random.uniform(1,2)) #给浏览器时间&＃xff0c;加载数据#滚动条滑动到最下browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(0.5,1.5))i &＃43;&＃61; 1#控制抓取10页if i &＃61;&＃61; 10:break#解析最后一页数据&＃xff0c;此时页面中“下一页”不可点击#解析当前页面的数据&＃xff0c;并存入mongodbparse_data(i)time.sleep(5)#关闭浏览器browser.quit()
数据存储

在这里插入图片描述

目前&＃xff0c;控制程序抓了10页&＃xff0c;共50个案件。

项目的缺点

抓取的效率低&＃xff0c;selenium&＃43;Chrome组合的特性决定的
可以设置无头浏览器&＃xff0c;只在内存渲染页面&＃xff0c;提高效率
代码的结构&＃xff0c;可以优化&＃xff0c;实现面向对象
创建scrapy/scrapy-redis项目

常用的反爬机制

检查请求头
User-Agent
COOKIE
Referer
检查IP的访问频率
使用代理IP
检查同一个账户发请求的频率
设置一定的访问延时
使用不同的COOKIEs&＃xff0c;模拟不同的账户
js请求加密
解析加密算法&＃xff0c;使用python构造加密数据&＃xff0c;发请求
图形验证码
简单的图形验证码-----pytesseract/ tesseract-ocr
滑块验证-------selenium模拟人的滑动&＃xff0c;先快&＃xff0c;后慢

推荐阅读

post
深入解析SpringMVC中的HandlerMapping机制

本文将从基础概念入手，详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发，以及其背后的源码实现细节。 ... [详细]

蜡笔小新 2024-11-20 19:24:42
go
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
fetch
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
process
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
go
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
join
理解浏览器历史记录（2）hashchange、pushState

阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后，本打算去研究pushState，偶然在一些信息中发现了锚点变 ... [详细]

蜡笔小新 2024-11-20 20:05:37
join
深入解析 Bootstrap Table 的使用技巧

本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 17:21:26
go
linux网络子系统分析（二）—— 协议栈分层框架的建立

目录一、综述二、INET的初始化2.1INET接口注册2.2抽象实体的建立2.3代码细节分析2.3.1socket参数三、其他协议3.1PF_PACKET3.2P ... [详细]

蜡笔小新 2024-11-20 15:21:14
go
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
sum
UVALive 8201 - BBP 公式计算圆周率

在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]

蜡笔小新 2024-11-21 18:32:57
python
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
python
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
go
Vue3中如何提高开发效率

小编给大家分享一下Vue3中如何提高开发效率，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获， ... [详细]

蜡笔小新 2024-11-20 15:33:07
copy
ARM平台下构建SSH服务端并实现远程访问

本文详细介绍了如何在ARM架构的目标设备上部署SSH服务端，包括必要的软件包下载、交叉编译过程以及最终的服务配置与测试。适合嵌入式开发人员和系统集成工程师参考。 ... [详细]

蜡笔小新 2024-11-20 14:13:38
go
提升移动应用用户体验的8个设计策略

随着移动应用成为数字世界连接的关键桥梁，用户体验（UX）设计的重要性日益凸显。本文将探讨为何优质的UX设计对移动应用的成功至关重要，并分享8个实用的设计技巧，帮助开发者优化用户体验。 ... [详细]

蜡笔小新 2024-11-20 12:27:02

黑_猫__警_长

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章