需求分析
题目:爬取裁判文书网(https://wenshu.court.gov.cn/),
包含“宇通客车股份有限公司”涉及的案号,发布日期,案由,案件名称,链接等信息。
分析思路
快速开发:使用selenium+Chrome+mongodb的解决方案
- 为了能快速拿到数据,选择使用selenium+Chrome来抓数据。
- 打开网站主页,在搜索框输入搜索内容,点击搜索时,提示需登录,所以需注册一个账号,且使用selenium实现账号的登录。
- 登录后,再输入搜索内容“宇通客车股份有限公司”,点击搜索,就会获得服务端的响应数据。分析响应页面中数据内容的结构,发现每页有五个案件,均在类属性为"LM_list"的div元素块中。
- 获取页面中的5个div节点,逐一的解析其中的目标数据。
- 然后模拟人点击“下一页”,浏览器加载到数据后,同样的方法解析页面的数据,直到最后一页。所有解析的数据存入mongodb数据库。
- 爬取过程中,注意给浏览器足够的时间,加载数据,渲染页面,否则selenium无法从浏览器解析元素节点,从而出现异常。
- 如果过多的关注爬取效率问题,就需要使用requests/scrapy库来实现,或者搭建分布式爬虫。
以上,解决问题!
项目代码
from selenium import webdriver
import pymongo
import time
import random
import logging
logging.basicConfig(level=logging.INFO,format="%(asctime)s %(message)s")def parse_data(i):"""定义函数:解析每一页的案例"""logging.info("正在解析第%d个页面..."%i)divs = browser.find_elements_by_class_name('LM_list')for d in divs:data = {}data["case_name"] = d.find_element_by_xpath('./div[2]/h4/a').textdata["case_link"] = d.find_element_by_xpath('./div[2]/h4/a').get_attribute("href")data["court_name"] = d.find_element_by_xpath('./div[3]/span[1]').textdata["case_id"] = d.find_element_by_xpath('./div[3]/span[2]').textdata["release_time"] = d.find_element_by_xpath('./div[3]/span[3]').textdata["case_reason"] = d.find_element_by_xpath('./div[4]/p').textc1.insert_one(data)if __name__=="__main__":browser = webdriver.Chrome()url = "https://wenshu.court.gov.cn/"browser.get(url)time.sleep(random.uniform(1,3)) browser.maximize_window()browser.find_element_by_xpath('//*[@id="loginLi"]/a').click()time.sleep(random.uniform(0.5,1.5))iframe = browser.find_element_by_xpath('//*[@id="contentIframe"]')browser.switch_to.frame(iframe)browser.find_element_by_xpath('//*[@id="root"]/div/form/div/div[1]/div/div/div/input').send_keys("account")time.sleep(random.uniform(1,3)) browser.find_element_by_xpath('//*[@id="root"]/div/form/div/div[2]/div/div/div/input').send_keys("password")time.sleep(random.uniform(1,3)) browser.find_element_by_xpath('//*[@id="root"]/div/form/div/div[3]/span').click()time.sleep(random.uniform(3,5)) browser.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("宇通客车股份有限公司")time.sleep(random.uniform(0.5,1)) browser.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]').click()time.sleep(random.uniform(2,5)) """court_name:法院名称case_id:案号release_time:发布时间case_reason:案由case_name:案件名称case_link:案件的连接数据存入mongodb"""mongo = pymongo.MongoClient("localhost",27017)case = mongo["case"]c1 = case["case_c1"]browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(2,3))i = 1while browser.find_element_by_link_text('下一页').get_attribute("class") == " pageButton":parse_data(i)browser.find_element_by_link_text('下一页').click()time.sleep(random.uniform(1,2)) browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")time.sleep(random.uniform(0.5,1.5))i += 1if i == 10:breakparse_data(i)time.sleep(5)browser.quit()
数据存储
目前,控制程序抓了10页,共50个案件。
项目的缺点
- 抓取的效率低,selenium+Chrome组合的特性决定的
- 可以设置无头浏览器,只在内存渲染页面,提高效率
- 代码的结构,可以优化,实现面向对象
- 创建scrapy/scrapy-redis项目
常用的反爬机制
- 检查请求头
User-Agent
COOKIE
Referer - 检查IP的访问频率
使用代理IP - 检查同一个账户发请求的频率
设置一定的访问延时
使用不同的COOKIEs,模拟不同的账户 - js请求加密
解析加密算法,使用python构造加密数据,发请求 - 图形验证码
简单的图形验证码-----pytesseract/ tesseract-ocr
滑块验证-------selenium模拟人的滑动,先快,后慢