热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python开发【爬虫】入门

网络爬虫1.爬虫是什么?一段程序(一个脚本)2.爬虫能干什么?自动批量的采集所需要的资源3.运行模式是什么?

网络爬虫

1.爬虫是什么?一段程序(一个脚本)
2.爬虫能干什么?自动批量的采集所需要的资源
3.运行模式是什么?模拟浏览器浏览网页
定义:一个能够模拟浏览器浏览网页自动的采集所需要的资源的程序(脚本)
网路资源:网络资源主要是指借助于网络环境可以利用的各种信息资源的总和。网络资源又称网络信息资源。
种类:网页,图片,视频,视频,音频,文件等。
网页请求方式:客户端(浏览器)通过URL(统一资源定位符)来向服务器发送http请求,服务器收到请求后向客户端发出http响应。客户端收到响应后通过网页界面形式展现出来。
网页请求爬虫的开发步骤:1.目标数据:先明确需要从网络或者页面爬取的数据(资源)
2.分析数据加载流程:分析目标数据对应的URL,并提取出来(难点)
3.下载数据(将所需要的数据下载下来,以便处理)
4.清洗,处理数据
5.数据持久化
(难点在于分析目标数据URL,并提取出来,需要具有一定前端基础)
网页分析工具:打开目标数据界面,F12,打开开发者工具,刷新网页,在Elements中即可看到网页的前端代码,根据代码分析;
在Network界面,有Headers,Resquents。COOKIEs等信息,以便爬虫使用。
开发者工具Elements开发者工具Network


推荐阅读
author-avatar
suny
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有