Python+Selenium爬取动态加载页面（1）

作者：慕容春 | 来源：互联网 | 2023-09-23 00:54

注：最近有一小任务，需要收集水质和水雨信息，找了两个网站：国家地表水水质自动监测实时数据发布系统和全国水雨情网。由于这两个网站的数据都是动态加载出来的，所以我用了Selenium来完成我的数据

注：最近有一小任务，需要收集水质和水雨信息，找了两个网站：国家地表水水质自动监测实时数据发布系统和全国水雨情网。由于这两个网站的数据都是动态加载出来的，所以我用了Selenium来完成我的数据获取。数据的获取过程跟人手动获取过程类似，所以也不会对服务器造成更大负荷。这是我写的第1个爬虫，初次接触，还请各位多多指教。本文的代码见Selenium获取动态页面数据1.ipynb或Selenium获取动态页面数据1.py。

1、准备环境

工欲善其事，必先装好环境，耐心地把下面的环境装好。

建议安装Python3的版本，一般来说越新越好。这是官网下载安装，或者网上其它教程。
安装Selenium和其一些必要的包：
```
pip install pandas
pip install bs4
pip install selenium
```
pandas自不必多说，非常强大的数据分析库，网上教程非常丰富。bs4是一个比较方便的html页面解析的包，详细的可以自由百度教程，网上有很多，当然也有它的Beautiful Soup官网文档，这是中文的，比较良心。selenium能够用于自动测试我们的网页，模拟我们的浏览器，也很强大，它的说明文档在此。
最后我们需要安装浏览器的支持，如果电脑上已安装有Chrome浏览器，则还需下载chromedirver，注意需要安装与浏览器对应的版本，下载完成后，需要将其添加至系统的Path中。也可以安装PhantomJS，这是一个无界面的浏览器，速度更快一些，体积也不大。同样，下载好后，需要将其添加至系统的Path中。
另外，关于Python的学习环境，建议安装一个Jupyter。

2、详细爬取过程

2.1 分析待爬取网页

打开我们的国家地表水水质自动监测实时数据发布系统：http://123.127.175.45:8082/如下图2-1所示，我们可以看到它的数据是动态地在更新，每次只显示了十多条数据，但是这只是一个假象，其实在我们打开页面，加载完成后，所有的数据已经加载过来了，只是没有显示出来，不信我们可以按F12，

标签下的数据就是加载完成后的数据，共100条数据（有时候也只有99条）。

图2-1 国家地表水水质自动监测实时数据发布系统

2.2 利用Selenium提取数据

（1）打开网页

运行下面代码，会自动弹出Chrome浏览器的窗口；如果用的browser = webdriver.PhantomJS()，则没有窗口出来。浏览器的窗口出来后，可以看到，它加载出我们的页面了。

import datetime
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

# 打开chrome浏览器（需提前安装好chromedriver）
browser = webdriver.Chrome()
# browser = webdriver.PhantomJS()
print("正在打开网页...")
browser.get("http://123.127.175.45:8082/")

（2）得到页面源码

网页完成后打开完成后，还需要等待一下它的加载，只有等数据加载完成，我们才能去获取它的HTML页面源码。

print("等待网页响应...")
# 需要等一下，直到页面加载完成
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.CLASS_NAME, "grid")))

print("正在获取网页数据...")
soup = BeautifulSoup(browser.page_source, "lxml")
browser.close()

（3）定位数据

通过CSS选择器定位到我们的表头数据和表数据，如下图2-2和图2-3所示

图2-2 CSS选择(.panel-heading)表头

图2-3 CSS选择(.grid)表数据

# 表头和表数据
data_head = soup.select(".panel-heading")[0]
grid_data = soup.select(".grid")[0]

# 得到表头数据
data_colhead = data_head.findAll("td")
data_rows = grid_data.findAll("tr")

# 据表头生成数据表
water_df = pd.DataFrame(columns=[c.text for c in data_colhead])

我们查看water_df可以得到如下数据表头：

	断面名称	测量时间	pH	溶解氧	氨氮	高锰酸盐指数	总有机碳	水质类别	断面属性	站点情况

（4）提取数据

上面我们从表数据中的tr标签获得所有数据行后，将其所有数据提取出来，添加到我们前面定义好的water_df中。

print("提取网页数据中...")
for i, data_row in enumerate(data_rows):
    # 以名字为地名和时间标识符，以防止数据重复
    water_loc = water_df.iloc[:, 0].values
    water_date = water_df.iloc[:, 1].values

    row_dat = [r.text for r in data_row]
    water_df.loc[i] = row_dat

查看我获取的数据前5行，如下表

表2.1 获取的数据表前5行

	断面名称	测量时间	pH	溶解氧	氨氮	高锰酸盐指数	总有机碳	水质类别	断面属性	站点情况
0	四川攀枝花龙洞	2019-01-22 12:00	7.98	10.72	0.05	--	--	I		仪器故障
1	四川宜宾凉姜沟	2019-01-22 12:00	7.75	10.77	0.07	2.18	--	II	入长江前	正常
2	云南红河州河口	2019-01-22 12:00	7.41	9.09	0.21	3.4	--	II	中-越出境	仪器故障
3	云南昆明观音山	2019-01-22 12:00	8.51819	8.69207	0.27	7.51	--	IV	湖体	正常
4	云南昆明西苑隧道	2019-01-22 12:02	7.9	8.7	0.24	3.5	--	II	湖体	正常

（5）保存数据

得到数据后，一般要保存我们的数据，pandas给我们提供了非常方便的方法，可以保存为各种常见格式的数据，下面我们将其保存为.csv文件格式，由于这里面有中文编码，所以另外还保存了一个GB18030编码格式的文件，这样直接用excel打开，不会出现乱码。平时如果处理数据，还里建议用下面的utf-8编码的文件。

data_str = datetime.datetime.now().strftime('%Y_%m_%d')

water_df.to_csv("data_water_%s_ch.csv" % (data_str),
                index=None, encoding="GB18030")

water_df.to_csv("data_water_%s.csv" % (data_str), index=None)
print("数据提取完成！！")

数据提取完成后，可以看到下面2个文件：data_water_2019_01_22.csv、data_water_2019_01_22_ch.csv，直接用excel打开第2个文件，可以看到如下图2-4。

图2-4 最终获取的数据

总结
这次，我们主要用`selenium`模型浏览器得到动态加载的HTML页面源码，然后利用`BeautifulSoup`解析其中的数据，最后利用`Pandas`处理我们数据。

这也是我第1次写爬虫，还请各位不吝赐教。此次数据的获取还比较简单，下一篇《Python+Selenium爬取动态加载页面（2）》再来写一下要点击按钮的，稍微复杂一点点。

推荐阅读

js
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
post
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
post
Python开源库和第三方包的常用框架及库

本文介绍了Python开源库和第三方包中常用的框架和库，包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架，涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]

蜡笔小新 2023-12-11 18:24:06
js
Python工具安装教程及注意事项

本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤，以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径，以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后，需要继续安装pip，并注意不要将Python的目录添加到系统的环境变量中。最后，还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]

蜡笔小新 2023-12-10 16:46:45
js
Skywalking系列博客1安装单机版 Skywalking的快速安装方法

本文介绍了如何快速安装单机版的Skywalking，包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]

蜡笔小新 2023-12-14 19:05:47
js
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
utf-8
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
js
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
utf-8
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
yaml
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
js
HTML5网页模板怎么加百度统计？

本文介绍了如何在HTML5网页模板中加入百度统计，并对模板文件、css样式表、js插件库等内容进行了说明。同时还解答了关于HTML5网页模板的使用方法、表单提交、域名和空间的问题，并介绍了如何使用Visual Studio 2010创建HTML5模板。此外，还提到了使用Jquery编写美好的HTML5前端框架模板的方法，以及制作企业HTML5网站模板和支持HTML5的CMS。 ... [详细]

蜡笔小新 2023-12-11 12:06:41
process
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
process
腾讯安全平台部招聘安全工程师和数据分析工程师

腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析，提供安全测试技术支持；数据分析工程师负责安全产品相关系统数据统计和分析挖掘，通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理，精通Web漏洞，熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]

蜡笔小新 2023-12-10 17:01:40
install
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
install
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32

慕容春

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章