作者:suny | 来源:互联网 | 2024-10-14 16:38
网络爬虫
1.爬虫是什么?一段程序(一个脚本)
2.爬虫能干什么?自动批量的采集所需要的资源
3.运行模式是什么?模拟浏览器浏览网页
定义:一个能够模拟浏览器浏览网页自动的采集所需要的资源的程序(脚本)
网路资源:网络资源主要是指借助于网络环境可以利用的各种信息资源的总和。网络资源又称网络信息资源。
种类:网页,图片,视频,视频,音频,文件等。
网页请求方式:客户端(浏览器)通过URL(统一资源定位符)来向服务器发送http请求,服务器收到请求后向客户端发出http响应。客户端收到响应后通过网页界面形式展现出来。
爬虫的开发步骤:1.目标数据:先明确需要从网络或者页面爬取的数据(资源)
2.分析数据加载流程:分析目标数据对应的URL,并提取出来(难点)
3.下载数据(将所需要的数据下载下来,以便处理)
4.清洗,处理数据
5.数据持久化
(难点在于分析目标数据URL,并提取出来,需要具有一定前端基础)
网页分析工具:打开目标数据界面,F12,打开开发者工具,刷新网页,在Elements中即可看到网页的前端代码,根据代码分析;
在Network界面,有Headers,Resquents。COOKIEs等信息,以便爬虫使用。