当前位置: 开发笔记 > 编程语言 > 正文

Python爬虫——爬取上海15天天气高低温度

作者：寄到家的_259 | 来源：互联网 | 2023-09-25 20:09

文章目录前言一、基本目标二、使用步骤1.进行分析2.整体代码结果总结前言🚤想获取近15天上海天气数据，并绘制成折线图，用爬虫的xpat

文章目录

前言
一、基本目标
二、使用步骤
- 1.进行分析
- 2.整体代码
结果
总结

前言

&＃x1f6a4;想获取近15天上海天气数据&＃xff0c;并绘制成折线图&＃xff0c;用爬虫的xpath和re来解决数据获取的需求&＃xff0c;pylab来解决绘制折线图的需求。

⚠️提示&＃xff1a;爬虫不可用作违法活动&＃xff0c;爬取时要设定休眠时间&＃xff0c;不可过度爬取&＃xff0c;造成服务器宕机&＃xff0c;需付法律责任&＃xff01;&＃xff01;&＃xff01;

一、基本目标

&＃x1f6a3;目标是获取上海这个城市15天内的天气高低温数据&＃xff0c;并绘制成折线图

在这里插入图片描述

二、使用步骤

1.进行分析

⚓️数据采用服务器渲染模式&＃xff0c;天气温度数据直接在html页面中包裹&＃xff0c;可以利用xpath或者re进行定位获取数据。
但是7天内和8-15天数据两个不同的页面&＃xff0c;所以需要爬取两次数据

2.整体代码

import requests from lxml import etree from pylab import * # 支持中文# 设置爬取网站url base_url &＃61; "http://www.weather.com.cn/weather/101020100.shtml" # requests进行爬取代码 resp &＃61; requests.get(url&＃61;base_url)# XPATH解析 html &＃61; etree.HTML(resp.text) # 拿到天气的li&＃xff0c;在li里包含每天天气的全部数据&＃xff0c;包括日期/天气/气温/城市等等 lis &＃61; html.xpath(&＃39;//*[&＃64;id&＃61;"7d"]/ul/li&＃39;) # 创建日期、最高气温、最低气温的数组&＃xff0c;为了后续把爬取的数据添加到数组中&＃xff0c;进而进一步把数组用plot进行绘制折线图 days &＃61; [] lows &＃61; [] highs &＃61; [] # 对7天天气的li进行遍历&＃xff0c;为了获取高低温度和日期 for li in lis:print("正在爬取近7天···")# 获取7天高温high &＃61; li.xpath("./p[2]/span/text()")[0]# 获取7天低温low &＃61; li.xpath("./p[2]/i/text()")[0][0:2]# 获取7天日期day &＃61; li.xpath("./h1/text()")[0][0:2]# 把7天日期、高温、低温添加到数组中days.append(day)lows.append((int)(low))highs.append((int)(high))# 设置休眠1秒time.sleep(1)# 设置8-15天的url base_url &＃61; "http://www.weather.com.cn/weather15d/101020100.shtml" # requests进行爬取8-15天页面代码 resp &＃61; requests.get(url&＃61;base_url) # 设置编码 resp.encoding &＃61; &＃39;utf-8&＃39; # XPATH解析 html &＃61; etree.HTML(resp.text) # 拿到8-15天源码里每天的天气的li lis &＃61; html.xpath(&＃39;//*[&＃64;id&＃61;"15d"]/ul/li&＃39;) # 对8-15天的天气li进行遍历&＃xff0c;为了获取高低温度和日期 for li in lis:print("正在爬取近8-15天···")# 获取8-15天高温high &＃61; li.xpath("./span[&＃64;class&＃61;&＃39;tem&＃39;]/em/text()")[0][:2]# 获取8-15天低温low &＃61; li.xpath("./span[&＃64;class&＃61;&＃39;tem&＃39;]/text()")[0][1:3]# 获取8-15天日期day &＃61; li.xpath("./span[&＃64;class&＃61;&＃39;time&＃39;]/text()")[0][3:5]# 把8-15天日期、高温、低温添加到数组中days.append(day)lows.append((int)(low))highs.append((int)(high))# 设置休眠1秒time.sleep(1)# 爬取15日的日期、高低气温结束 # 打印15日各项信息 print("日期列表如下&＃xff1a;") print(days) print("最低气温列表如下&＃xff1a;") print(lows) print("最高气温列表如下&＃xff1a;") print(highs)# 下方代码绘制高低气温折线图图表 # 设置字体 mpl.rcParams[&＃39;font.sans-serif&＃39;] &＃61; [&＃39;SimHei&＃39;] # 设置x轴长度 x &＃61; range(len(days)) # 限定纵轴的范围 plt.ylim(0, 40) # 低温、高温数据加载&＃xff0c;设置图形表示&＃xff0c;设置解释 plt.plot(x, lows, marker&＃61;&＃39;o&＃39;, mec&＃61;&＃39;r&＃39;, mfc&＃61;&＃39;w&＃39;, label&＃61;u&＃39;最低气温&＃39;) plt.plot(x, highs, marker&＃61;&＃39;*&＃39;, ms&＃61;10, label&＃61;u&＃39;最高气温&＃39;) # 让图例生效 plt.legend() plt.xticks(x, days, rotation&＃61;45) plt.margins(0) plt.subplots_adjust(bottom&＃61;0.15) # X轴标签 plt.xlabel(u"日期") # Y轴标签 plt.ylabel("温度") # 标题 plt.title("近15日气温") # 图例显示 plt.show()

结果

&＃x1f694;程序运行的输出如下

在这里插入图片描述

&＃x1f692;输出的折线图如下

在这里插入图片描述

总结

爬虫的基本步骤&＃xff1a;
1.检查有没有反爬&＃xff0c;设置常规反反爬&＃xff0c;User-Agent和referer都是最常见的反爬手段
2.利用xpath和re技术进行定位&＃xff0c;定位后获取想到的数据即可
3.利用file文件操作写入到文本中
4.注意设置time休眠

推荐阅读

filter
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
import
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
import
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
import
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
filter
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
byte
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
bash
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
get
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
import
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
import
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
js
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
import
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
js
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
get
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51

寄到家的_259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章