使用read_html爬取网页表哥,简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据...

作者：otion | 来源：互联网 | 2024-10-14 12:41

一、简介一般的爬虫套路无非是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。构造请求主要用到requests库，定位提取数据用的比较多的有xpath和正则匹配

一、简介

一般的爬虫套路无非是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。构造请求主要用到requests库&＃xff0c;定位提取数据用的比较多的有xpath和正则匹配。一个完整的爬虫&＃xff0c;代码量少则几十行&＃xff0c;多则百来行&＃xff0c;对于新手来说学习成本还是比较高的。

谈及pandas的read.xxx系列的函数&＃xff0c;常用的读取数据方法为&＃xff1a;pd.read_csv() 和 pd.read_excel()&＃xff0c;而 pd.read_html() 这个方法虽然少用&＃xff0c;但它的功能非常强大&＃xff0c;特别是用于抓取Table表格型数据时&＃xff0c;简直是个神器。无需掌握正则表达式或者xpath等工具&＃xff0c;短短的几行代码就可以将网页数据快速抓取下来并保存到本地。

二、原理

pandas适合抓取Table表格型数据&＃xff0c;先了解一下具有Table表格型数据结构的网页&＃xff0c;举例如下&＃xff1a;

用Chrome浏览器查看网页HTML结构&＃xff0c;会发现Table表格型数据有一些共同点&＃xff0c;大致的网页结构如下表示。

...

...............

...

......

网页具有以上结构&＃xff0c;我们可以尝试用pandas的 pd.read_html() 方法来直接获取数据。

L3Byb3h5L2h0dHBzL2ltZy1ibG9nLmNzZG5pbWcuY24vMjAyMDA4MjkyMTEwNTYzMjEucG5nI3BpY19jZW50ZXI&＃61;.jpg

pd.read_html() 的一些主要参数

io&＃xff1a;接收网址、文件、字符串

header&＃xff1a;指定列名所在的行

encoding&＃xff1a;The encoding used to decode the web page

attrs&＃xff1a;传递一个字典&＃xff0c;用其中的属性筛选出特定的表格

parse_dates&＃xff1a;解析日期

三、爬取实战

实例1

import pandas as pd

dates &＃61; pd.date_range(&＃39;20190101&＃39;, &＃39;20191201&＃39;, freq&＃61;&＃39;MS&＃39;).strftime(&＃39;%Y%m&＃39;) # 构造出日期序列便于之后构造url

for i in range(len(dates)):

df &＃61; pd.read_html(f&＃39;http://www.tianqihoubao.com/aqi/chengdu-{dates[i]}.html&＃39;, encoding&＃61;&＃39;gbk&＃39;, header&＃61;0)[0]

if i &＃61;&＃61; 0:

df.to_csv(&＃39;2019年成都空气质量数据.csv&＃39;, mode&＃61;&＃39;a&＃43;&＃39;, index&＃61;False) # 追加写入

i &＃43;&＃61; 1

else:

df.to_csv(&＃39;2019年成都空气质量数据.csv&＃39;, mode&＃61;&＃39;a&＃43;&＃39;, index&＃61;False, header&＃61;False)

9行代码搞定&＃xff0c;爬取速度也很快。

查看保存下来的数据

实例2

import pandas as pd

df &＃61; pd.DataFrame()

for i in range(1, 26):

url &＃61; f&＃39;http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p&＃61;{i}&＃39;

df &＃61; pd.concat([df, pd.read_html(url)[0].iloc[::,:-1]]) # 合并DataFrame 不要明细那一列

df.to_csv(&＃39;新浪财经基金重仓股数据.csv&＃39;, encoding&＃61;&＃39;utf-8&＃39;, index&＃61;False)

6行代码搞定&＃xff0c;爬取速度也很快。

查看保存下来的数据&＃xff1a;

之后在爬取一些小型数据时&＃xff0c;只要遇到这种Table表格型数据&＃xff0c;就可以先试试 pd.read_html() 大法。

推荐阅读

text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
text
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
join
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
join
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
ip
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
ip
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
ip
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
ip
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
text
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
text
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
js
解决Selenium浏览器实例化位置导致的闪退问题

本文探讨了在使用Selenium进行自动化测试时，由于webdriver对象实例化位置不同而导致浏览器闪退的问题，并提供了详细的代码示例和解决方案。 ... [详细]

蜡笔小新 2024-12-23 16:09:49
ip
解析：IE 浏览器中 IMG 元素 alt 属性的误用及其正确处理方式

在跨浏览器开发中，一个常见的问题是关于如何在鼠标悬停时显示图片提示信息。本文深入探讨了 IE 浏览器对 IMG 元素 alt 属性的特殊处理，并提供了最佳实践建议。 ... [详细]

蜡笔小新 2024-12-23 12:35:10
text
CSS选择器与XPath在Selenium中的元素定位对比

本文详细比较了CSS选择器和XPath在Selenium中通过页面结构定位元素的优劣，并提供了具体的代码示例，帮助读者理解两者在不同场景下的适用性。 ... [详细]

蜡笔小新 2024-12-21 08:56:18
ip
2015款Chromebook Pixel评测：高端Chrome OS笔记本体验

在笔记本电脑领域，Chromebook Pixel凭借其精致的铝合金外壳、细腻的显示屏和舒适的键盘，成为了外观设计的佼佼者。然而，尽管外观出众，它是否值得购买仍需考量。 ... [详细]

蜡笔小新 2024-12-15 16:12:50
ip
Web App vs Native App：未来的移动应用趋势

随着移动互联网的发展，Web App和Native App之间的竞争日益激烈。对于开发者而言，选择哪一种技术路径更为明智？本文将深入探讨两种应用模式的特点及未来趋势。 ... [详细]

蜡笔小新 2024-12-13 13:50:17

otion

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章