python网络爬虫的基本步骤Python网络爬虫学习手记（1）——爬虫基础

作者：奉召开博_745 | 来源：互联网 | 2023-09-23 15:27

1、爬虫基本概念网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）

1、爬虫基本概念

网络爬虫&＃xff08;又被称为网页蜘蛛&＃xff0c;网络机器人&＃xff0c;在FOAF社区中间&＃xff0c;更经常的称为网页追逐者&＃xff09;&＃xff0c;是一种按照一定的规则&＃xff0c;自动地抓取万维网信息的程序或者脚本。--------百度百科

简单的说&＃xff0c;爬虫就是获取目标网页源代码&＃xff0c;并提取和保存网页信息的自动化程序或者脚本。网络爬虫脚本或者程序一般包含如下几个步骤&＃xff1a;

A.获取网页源代码

爬虫首要的任务就是获取需要爬取的目标网页&＃xff0c;也就是网页源代码&＃xff0c;一般网页源代码就是一系列HTML代码

B.提取信息

得到了网页源代码后&＃xff0c;接下来就是分析该HTML代码&＃xff0c;按照一定的规则或者方法&＃xff0c;从中提取我们想要的数据

C.保存数据

提取了想要的数据后&＃xff0c;一般需要将我们爬取到的数据保存到某个地方&＃xff0c;如最简单的方式就是保存到本地为txt、json格式的文件&＃xff0c;更高级的就是搭建数据库服务&＃xff0c;如MySQL等&＃xff0c;将数据存储到数据库中

D.整合成可执行程序或者脚本

用于快速自动爬取大量数据&＃xff0c;并处理爬取过程中各种异常、错误等操作&＃xff0c;确保爬取的高效运行

2、HTTP原理和网页基础

上面对于爬虫的基本介绍知道&＃xff0c;爬虫就是爬取网页源代码并提取信息的过程&＃xff0c;那么我们需要了解一些基本的网页基础知识、HTTP原理等。

2.1、 HTTP基本原理

在我们访问一个网页站点时&＃xff0c;首先都是在浏览器输入一段URL&＃xff0c;然后才能访问该网站。什么是URL&＃xff1f;URL全称是&＃xff1a;Universal Resource Locator&＃xff0c;即统一资源定位符&＃xff0c;可以从互联网上得到的资源的位置和访问方法的一种简洁的表示&＃xff0c;是互联网上标准资源的地址。包括了访问的协议http(https)、访问路径和资源名称、端口号等&＃xff0c;如https&＃xff1a;//www.baidu.com。

HTTP全称&＃xff1a;Hyper Text Transfer Protocol&＃xff0c;中文译为超文本传输协议。HTTP协议用于从网络传输超文本数据到本地浏览器&＃xff0c;并保证高效而准确地传送超文本文档&＃xff0c;而HTML源代码就是一种超文本标记语言。该协议是由万维网和互联网工作小组联合制定的&＃xff0c;目前广泛使用的版本是HTTP1.1。除了HTTP外还有HTTPS&＃xff0c;就是HTTP的安全版&＃xff0c;通过HTTPS传输的内容都是经过SSL加密的&＃xff0c;保证数据传输的安全。如我们购票用的网站&＃xff1a;https://www.12306.cn/&＃xff0c;就是这样的站点。

2.2、 HTTP请求过程

我们在浏览器输入一个URL站点&＃xff0c;回车后正常就能在浏览器中看到网站页面内容。实际上&＃xff0c;这个过程是浏览器向所在的服务器发送了一个请求&＃xff0c;告诉服务器需要请求什么东西&＃xff0c;服务器收到请求后进行处理和解析这个请求&＃xff0c;如果处理解析这个请求OK&＃xff0c;那么就返回给浏览器对应的响应。响应中包含了页面的源代码等内容&＃xff0c;浏览器再对响应中的源代码进行解析&＃xff0c;最后将解析后的网页呈现出来。其大概过程就是&＃xff1a;浏览器请求》服务器处理解析》服务器响应并传给浏览器》浏览器解析呈现网页。

下面通过实际的网络站点&＃xff0c;学习HTTP请求和响应的过程&＃xff0c;以及过程中都发生了怎样的网络请求。以Chrome浏览器访问百度站点&＃xff1a;https://www.baidu.com/为例。

打开Chrome浏览器&＃xff0c;鼠标右键菜单选择【检查】或者直接快捷键【F12】打开开发者工具&＃xff0c;切换到【Network】。在浏览器中输入百度站点&＃xff1a;https://www.baidu.com/&＃xff0c;回车后&＃xff0c;看看发生的网络请求。如下图&＃xff1a;

其中第一条网络请求&＃xff1a;www.baidu.com&＃xff0c;就是浏览器向百度服务器发送的一条请求访问百度站点的请求&＃xff0c;点击这个请求&＃xff0c;即可看到请求的详细信息和内容。

首先是General部分&＃xff0c;描述了请求的URL、请求的方法、响应状态码以及远程服务器的地址和端口&＃xff1b;

在往下&＃xff0c;就是Response Headers和Request Headers&＃xff0c;分别是响应头和请求头。包含了响应和请求的部分相关信息和内容&＃xff0c;下面具体看看这个请求和对应的响应都哪些内容。

请求的组成

请求由客户端即浏览器向服务端发送&＃xff0c;发送的请求有4个方面的内容&＃xff1a;请求方法&＃xff08;Request Method&＃xff09;、请求的站点&＃xff08;Request URL&＃xff09;、请求头&＃xff08;Request Headers&＃xff09;、请求体&＃xff08;Request Body&＃xff09;

1.请求的方法

常见的请求有get,post,put...类型。get类型的接口一般是指获取信息的接口&＃xff0c;比如列表查询的功能&＃xff0c;点击查询按钮就调用一个get接口&＃xff0c;然后把信息返回出来。就是指把内容从服务器&＃xff08;后端&＃xff09;拉下来。Post类型一般是提交表单的功能&＃xff0c;比如注册、导入数据之类的就是post接口。就是指把内容推到服务器&＃xff08;后端&＃xff09;上去。

2.请求的站点

请求的网站&＃xff0c;就是在浏览器输入的一段URL网址

3.请求头

请求头用来说明服务端使用的附件信息&＃xff0c;也就是HTTP协议规定的附加内容&＃xff0c;必须按照协议规则办事。如下图访问百度站点的请求头信息&＃xff1a;

看看请求头信息的相关字段说明

Accept&＃xff1a;请求报头域&＃xff0c;用来指定客户端可接受哪些类型的信息&＃xff0c;如上图可以接受text/html等类型的信息

Accept-Encoding和Accept-Language&＃xff1a;指定客户端可接受的编码和语言

Connection&＃xff1a;连接状态

COOKIE&＃xff1a;存储的COOKIE信息&＃xff0c;主要用于维持当前会话

Host&＃xff1a;需要访问的站点地址

User-Agent&＃xff1a;用于向服务端识别客户使用的操作系统和浏览器版本等信息

4.请求体

请求体一般是承载着POST类型请求的表单数据&＃xff0c;GET类型的请求体为空

响应的组成

响应由服务端返回给浏览器的信息&＃xff0c;响应的内容有3个方面&＃xff1a;响应状态码&＃xff08;Response Status Code&＃xff09;、响应头&＃xff08;Response Headers&＃xff09;和响应体&＃xff08;Response Body&＃xff09;

1.响应状态码

响应状态码表示服务器对于请求信息的处理结果&＃xff0c;如200表示响应正常、404表示页面未找到、500表示服务器出错等

2.响应头

响应头包含了服务端对请求的应答信息&＃xff0c;如下图的响应头信息&＃xff1a;

看看响应头相关关键字段说明

Content-Type&＃xff1a;文档类型&＃xff0c;指定返回的文档是什么&＃xff0c;如text/html表示返回的是HTML文档

Server&＃xff1a;服务器的信息&＃xff0c;如服务器名称、版本等

Set-COOKIE&＃xff1a;设置COOKIE

Expires&＃xff1a;指定响应的过期时间

3.响应体

就是网页的HTML源代码&＃xff0c;点击【Preview】页签就可以看到网页的源代码

2.3、网页构成

现代化的网页呈现给我们的总是绚丽多彩的&＃xff0c;有着丰富的视觉感受&＃xff0c;不同网页上面往往有着诸多各式各样样子&＃xff0c;并搭配合理的排版、丰富的图片、动画效果等。那么这些网页是怎么构成的&＃xff1f;构成网页主要有三大部分&＃xff1a;HTML、CSS、Javascript&＃xff0c;其中HTML构成了网页的基础架构&＃xff0c;CSS确定了网页的排版样式&＃xff0c;Javascript决定了网页的可塑造性和动态呈现。下面具体看看这三大部分&＃xff1a;

1.HTML

HTML&＃xff1a;全称Hyper Text Markup Language&＃xff0c;即超文本标记语言。网页上的文字、段落、图片、按钮等元素就是由HTML定义&＃xff0c;如img标签表示图片&＃xff0c;p标签表示段落等等&＃xff0c;在Chrome浏览器打开百度站点&＃xff0c;右击鼠标菜单中选择【检查】或者直接【F12】打开开发者工具在【Elements】选项栏就可以看到网页的HTML源代码&＃xff0c;如下图&＃xff1a;

可以看到网页HTML源代码&＃xff0c;每个标签对定义了一个节点和节点的属性&＃xff0c;他们构成了一个HTML树。这些节点标签对陈列在HTML树中&＃xff0c;它们存在的一定的层级关系&＃xff0c;常用父节点、子节点和同级节点表示。具体对于HTML的学习&＃xff0c;可以参考W3School网站学习&＃xff1a;http://www.w3school.com.cn/html/index.asp

2.CSS

CSS&＃xff1a;全称Cascading Style Sheets&＃xff0c;即层叠样式表。CSS用来确定网页页面的排版样式的标准&＃xff0c;指定了网页中文字的大小、颜色、位置等属性。如下图定位到【百度一下】这个按钮&＃xff0c;查看样式&＃xff1a;

该CSS样式确定该按钮的width、height&＃xff0c;即宽和高的像素大小&＃xff0c;以及文字颜色color&＃xff1a;white等信息&＃xff0c;按钮背景色&＃xff1a;backgroud

3.Javascript

Javascript就是JS&＃xff0c;一种脚本语言&＃xff0c;用来将JS文件嵌入到HTML代码中提供交互式的动态效果&＃xff0c;如提示框、轮播图、下载进度条等等。其在HTML的标签对是由script标签对来定义

综上所述&＃xff0c;HTML定义了网页的内容和结构&＃xff0c;CSS则描述了网页元素的布局渲染和位置效果&＃xff0c;Javascript定义了网页的交互性和动画效果&＃xff0c;这三个构成了丰富网页呈现的基础架构。

在了解了爬虫基本概念和HTTP协议以及网页基本构成后&＃xff0c;基于这些方面的认知&＃xff0c;再开始学习如何爬取网站并提取信息。

推荐阅读

http
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
c语言
恶意软件分析的最佳编程语言及其应用

本文介绍了学习恶意软件分析和逆向工程领域时最适合的编程语言，并重点讨论了Python的优点。Python是一种解释型、多用途的语言，具有可读性高、可快速开发、易于学习的特点。作者分享了在本地恶意软件分析中使用Python的经验，包括快速复制恶意软件组件以更好地理解其工作。此外，作者还提到了Python的跨平台优势，使得在不同操作系统上运行代码变得更加方便。 ... [详细]

蜡笔小新 2023-12-10 18:39:23
php
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
request
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
php
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
php
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
php
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
php
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
client
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
php
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
php
GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕

11月13日，由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光，为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑，成为众多游戏开发者的合作伙伴。 ... [详细]

蜡笔小新 2023-12-12 17:16:00
php
集成电路企业跨隔离网数据交换的安全性及解决方案

集成电路企业在进行跨隔离网数据交换时面临着安全性问题，传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例，介绍了如何通过丰富的审批流程来满足企业的合规要求，保障数据交换的安全性。 ... [详细]

蜡笔小新 2023-12-12 11:59:54
php
容器技术的安全挑战与解决方案

本文探讨了容器技术在安全方面面临的挑战，并提出了相应的解决方案。多租户保护、用户访问控制、中毒的镜像、验证和加密、容器守护以及容器监控都是容器技术中需要关注的安全问题。通过在虚拟机中运行容器、限制特权升级、使用受信任的镜像库、进行验证和加密、限制容器守护进程的访问以及监控容器栈，可以提高容器技术的安全性。未来，随着容器技术的发展，还需解决诸如硬件支持、软件定义基础设施集成等挑战。 ... [详细]

蜡笔小新 2023-12-09 10:31:06
php
从毕业到工作一年多，我为什么决定转行做程序猿？

在工作了一年多后，我对现在的工作感到厌倦，没有激情，于是决定转行做程序猿。我在学校开了一个某宝店，通过自己摸索和努力，每个月挣够了零花钱和伙食费。我决定往互联网方向靠，不喜欢面对面和人沟通，而虚拟世界中的开发工作让我感到兴奋。我开始学习Java，感到困惑和怀疑自己的智商，但一篇鸡汤文激发了我学习Python的兴趣，我感到智商找回来了。我相信没有梦想的人和咸鱼没有什么区别。 ... [详细]

蜡笔小新 2023-12-09 10:15:44
php
Android开发者技能笔记分享，帮助提升内功实力和面试准备

本文分享了一位Android开发者多年来对于Android开发所需掌握的技能的笔记，包括架构师基础、高级UI开源框架、Android Framework开发、性能优化、音视频精编源码解析、Flutter学习进阶、微信小程序开发以及百大框架源码解读等方面的知识。文章强调了技术栈和布局的重要性，鼓励开发者做好学习规划和技术布局，以提升自己的竞争力和市场价值。 ... [详细]

蜡笔小新 2023-12-09 07:23:04

奉召开博_745

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章