Python爬虫学习（二）循序渐进的实例练习

作者：峰吹云飞_974 | 来源：互联网 | 2023-09-23 14:28

学习资料：小猿圈https:book.apeland.cndetails69一.最基本的爬取需求：给定一个页面，爬整个页面的信息&#x

学习资料&＃xff1a;小猿圈https://book.apeland.cn/details/69/

一.最基本的爬取

需求&＃xff1a;给定一个页面&＃xff0c;爬整个页面的信息&＃xff0c;例如爬取的所有文本数据
1.过程&＃xff1a;
new project–>new directory–>new python file
2.代码&＃xff1a;

import requests #指定搜索关键字 word &＃61; input(&＃39;enter a word you want to search:&＃39;) #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers&＃61;{&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36&＃39;,} #指定url&＃xff0c;原始url可能是https://www.sogou.com/web?query&＃61;撩妹&＃xff0c;发现该url携带了参数 url &＃61; &＃39;https://www.sogou.com/web&＃39; #封装get请求参数&＃xff1a;如果请求携带了参数&＃xff0c;则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param &＃61; {&＃39;query&＃39;:word, } #发起请求 response &＃61; requests.get(url&＃61;url,params&＃61;param,headers&＃61;headers) #获取响应数据 page_text &＃61; response.text #持久化存储 fileName &＃61; word&＃43;&＃39;.html&＃39; with open(fileName,&＃39;w&＃39;,encoding&＃61;&＃39;utf-8&＃39;) as fp:fp.write(page_text)

&＃xff08;结果暂不放图&＃xff09;

二.用户自定义的查询

需求&＃xff1a;我有想查的关键字&＃xff0c;我要查我想查的东西&＃xff0c;例如&＃xff1a;在百度中搜索“”&＃xff0c;爬去得到的搜索结果&＃xff0c;以文本数据展现
代码&＃xff1a;

#把查询参数写活&＃xff0c;变成用户自定义的 #UA是请求载体的标识&＃xff0c;如果服务器端检测到载体是浏览器端&＃xff0c;就不会拒绝&＃xff0c;如果检测到是爬虫就会被拒绝&＃xff0c;所以我们写的爬虫需要伪装成浏览器&＃xff0c;这叫做UA伪装 import requests #指定搜索关键字 word &＃61; input(&＃39;enter a word you want to search:&＃39;) #自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可 headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36&＃39;,} #指定url&＃xff0c;原始url可能是https://www.sogou.com/web?query&＃61;撩妹&＃xff0c;发现该url携带了参数 url &＃61; &＃39;https://www.sogou.com/web&＃39; #封装get请求参数&＃xff1a;如果请求携带了参数&＃xff0c;则可以将参数封装到字典中结合这requests请求方法中的data/params参数进行url参数的处理 param &＃61; {&＃39;query&＃39;: word, } #发起请求 response &＃61; requests.get(url&＃61;url,params&＃61;param,headers&＃61;headers)#获取响应数据 page_text &＃61; response.text #持久化存储 fileName &＃61; word&＃43;&＃39;.html&＃39; with open(fileName, &＃39;w&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as fp:fp.write(page_text)

&＃xff08;结果暂不放图&＃xff09;

查看&＃xff1a;
1.点击html文件查看爬去结果&＃xff0c;可进一步在浏览器中查看
在这里插入图片描述

三.爬取部分想要的信息

需求&＃xff1a;在指定页面搜我想搜的东西&＃xff0c;但不需要整个页面的信息&＃xff0c;只需要部分的信息
例如&＃xff1a;在百度翻译中发起请求&＃xff0c;搜索“”&＃xff0c;爬取得到的翻译结果而不是整个页面的信息
分析&＃xff1a;
1.试一下输入一个单词&＃xff0c;没有点击翻译它也会即时刷新&＃xff0c;而并不是整个页面都刷新了&＃xff0c;只是局部的刷新

在这里插入图片描述

2.F12打开查看响应的过程

在这里插入图片描述
我们发现在输入单词的过程中&＃xff0c;输入了很多字符&＃xff0c;最后的一次请求才是你最后得到的结果&＃xff0c;比如输入dog&＃xff0c;会有三个sug&＃xff0c;第一个sug查询的是d&＃xff0c;第二个是do&＃xff0c;第三个是dog&＃xff0c;这才是我们想要的
在这里插入图片描述
3.自定义要爬取的内容
代码&＃xff1a;

结果&＃xff1a;

四.爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

1.目标
基于requests模块ajax的get请求
1.分析

param数据来源
在这里插入图片描述
2.代码

import requests if __name__ &＃61;&＃61; "__main__":#指定ajax-get请求的url&＃xff08;通过抓包进行获取&＃xff09;url &＃61; &＃39;https://movie.douban.com/j/chart/top_list?&＃39;#定制请求头信息&＃xff0c;相关的头信息必须封装在字典结构中headers &＃61; {#定制请求头中的User-Agent参数&＃xff0c;当然也可以定制请求头中其他的参数&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36&＃39;,}#定制get请求携带的参数(从抓包工具中获取)param &＃61; {&＃39;type&＃39;:&＃39;5&＃39;,&＃39;interval_id&＃39;:&＃39;100:90&＃39;,&＃39;action&＃39;:&＃39;&＃39;,&＃39;start&＃39;:&＃39;0&＃39;,&＃39;limit&＃39;:&＃39;20&＃39;}#发起get请求&＃xff0c;获取响应对象response &＃61; requests.get(url&＃61;url,headers&＃61;headers,params&＃61;param)#获取响应内容print(response.json())

3.结果
在这里插入图片描述

五.爬取药监局的数据

1.目标
基于requests模块ajax的get请求
1.分析
2.代码

import requests from fake_useragent import UserAgent ua &＃61; UserAgent(use_cache_server&＃61;False,verify_ssl&＃61;False).random headers &＃61; {&＃39;User-Agent&＃39;:ua } url &＃61; &＃39;http://125.35.6.84:81/xk/itownet/portalAction.do?method&＃61;getXkzsList&＃39; pageNum &＃61; 3 for page in range(3,5):data &＃61; {&＃39;on&＃39;: &＃39;true&＃39;,&＃39;page&＃39;: str(page),&＃39;pageSize&＃39;: &＃39;15&＃39;,&＃39;productName&＃39;:&＃39;&＃39;,&＃39;conditionType&＃39;: &＃39;1&＃39;,&＃39;applyname&＃39;:&＃39;&＃39;,&＃39;applysn&＃39;:&＃39;&＃39;}json_text &＃61; requests.post(url&＃61;url,data&＃61;data,headers&＃61;headers).json()all_id_list &＃61; []for dict in json_text[&＃39;list&＃39;]:id &＃61; dict[&＃39;ID&＃39;]#用于二级页面数据获取#下列详情信息可以在二级页面中获取# name &＃61; dict[&＃39;EPS_NAME&＃39;]# product &＃61; dict[&＃39;PRODUCT_SN&＃39;]# man_name &＃61; dict[&＃39;QF_MANAGER_NAME&＃39;]# d1 &＃61; dict[&＃39;XC_DATE&＃39;]# d2 &＃61; dict[&＃39;XK_DATE&＃39;]all_id_list.append(id)#该url是一个ajax的post请求post_url &＃61; &＃39;http://125.35.6.84:81/xk/itownet/portalAction.do?method&＃61;getXkzsById&＃39;for id in all_id_list:post_data &＃61; {&＃39;id&＃39;:id}response &＃61; requests.post(url&＃61;post_url,data&＃61;post_data,headers&＃61;headers)if response.headers[&＃39;Content-Type&＃39;] &＃61;&＃61; &＃39;application/json;charset&＃61;UTF-8&＃39;:#print(response.json())#进行json解析json_text &＃61; response.json()print(json_text[&＃39;businessPerson&＃39;])

3.结果暂时不放图

注意&＃xff1a;

1.赋值“&＃61;”两边需要空格
2.属性结束&＃xff0c;逗号和下一个属性间需要有一个空格
在这里插入图片描述
冒号和下一个属性之间也需要一个空格

3.

警告&＃xff1a;在行尾没有换行符
这种情况&＃xff0c;你在行尾敲一下回车就行了

推荐阅读

ci
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
get
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
get
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
range
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
runtime
ShiftLeft：将静态防护与运行时防护结合的持续性安全防护解决方案

ShiftLeft公司是一家致力于将应用的静态防护和运行时防护与应用开发自动化工作流相结合以提升软件开发生命周期中的安全性的公司。传统的安全防护方式存在误报率高、人工成本高、耗时长等问题，而ShiftLeft提供的持续性安全防护解决方案能够解决这些问题。通过将下一代静态代码分析与应用开发自动化工作流中涉及的安全工具相结合，ShiftLeft帮助企业实现DevSecOps的安全部分，提供高效、准确的安全能力。 ... [详细]

蜡笔小新 2023-12-10 10:45:15
runtime
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
list
postman测试登录后的接口_使用postman进行接口测试的方法(测试用户管理模块)

本文介绍了使用postman进行接口测试的方法，以测试用户管理模块为例。首先需要下载并安装postman，然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时，可以进行异常测试，包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]

蜡笔小新 2023-12-14 10:29:45
list
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
get
页面请求方法参数最长_关于 HTTP GET/POST 请求参数长度最大值的一个理解误区

http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的，最大不能超过XX ... [详细]

蜡笔小新 2023-12-13 19:20:03
byte
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
list
响应式页面的概述和实现方式

本文介绍了响应式页面的概念和实现方式，包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点，提出了选择方案的建议。同时，对于响应式页面的需求和背景进行了讨论，解释了为什么需要响应式页面。 ... [详细]

蜡笔小新 2023-12-11 12:37:10
get
Servlet多用户登录时HttpSession会话信息覆盖问题的解决方案

本文讨论了在Servlet多用户登录时可能出现的HttpSession会话信息覆盖问题，并提供了解决方案。通过分析JSESSIONID的作用机制和编码方式，我们可以得出每个HttpSession对象都是通过客户端发送的唯一JSESSIONID来识别的，因此无需担心会话信息被覆盖的问题。需要注意的是，本文讨论的是多个客户端级别上的多用户登录，而非同一个浏览器级别上的多用户登录。 ... [详细]

蜡笔小新 2023-12-10 12:00:40
get
PHP输出缓冲控制Output Control系列函数详解【PHP】

后端开发|php教程PHP,输出缓冲,Output,Control后端开发-php教程概述全景网页源码,vscode如何打开c,ubuntu强制解锁,sts启动tomcat慢,sq ... [详细]

蜡笔小新 2023-10-17 17:31:33
get
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
format
创建ipadWEB应用程序到主屏幕

1.webkit内核中的一些私有的meta标签，这些meta标签在开发webapp时起到非常重要的作用(1) ... [详细]

蜡笔小新 2023-10-17 11:02:41

峰吹云飞_974

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章