当前位置: 开发笔记 > 编程语言 > 正文

python添加lxml库_Python爬虫新手入门之初学lxml库

作者：有你真好cc_693 | 来源：互联网 | 2023-10-11 09:17

1.爬虫是什么所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛

1.爬虫是什么

所谓爬虫&＃xff0c;就是按照一定的规则&＃xff0c;自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网&＃xff0c;我们的爬虫就是上面的一个蜘蛛&＃xff0c;不断的去抓取我们需要的信息。

2.爬虫三要素

抓取

分析

存储

3.爬虫的过程分析

当人类去访问一个网页时&＃xff0c;是如何进行的&＃xff1f;

①打开浏览器&＃xff0c;输入要访问的网址&＃xff0c;发起请求。

②等待服务器返回数据&＃xff0c;通过浏览器加载网页。

③从网页中找到自己需要的数据(文本、图片、文件等等)。

④保存自己需要的数据。

对于爬虫&＃xff0c;也是类似的。它模仿人类请求网页的过程&＃xff0c;但是又稍有不同。

首先&＃xff0c;对应于上面的①和②步骤&＃xff0c;我们要利用python实现请求一个网页的功能。

其次&＃xff0c;对应于上面的③步骤&＃xff0c;我们要利用python实现解析请求到的网页的功能。

最后&＃xff0c;对于上面的④步骤&＃xff0c;我们要利用python实现保存数据的功能。

因为是讲一个简单的爬虫嘛&＃xff0c;所以一些其他的复杂操作这里就不说了。下面&＃xff0c;针对上面几个功能&＃xff0c;逐一进行分析。

4.如何用python请求一个网页

作为一门拥有丰富类库的编程语言&＃xff0c;利用python请求网页完全不在话下。这里推荐一个非常好用的类库urllib.request。

4.1.抓取网页

urllib库使用

import urllib.request

response &＃61; urllib.request.urlopen(&＃39;https://laoniu.blog.csdn.net/&＃39;)

print(response.read().decode(&＃39;utf-8&＃39;))

这样就可以抓取csdn我的主页的html文档

我们使用爬虫就是需要在网页中提取我们需要的数据&＃xff0c;接下来我们来学习抓取一下百度搜索页的热榜数据

4.2.如何解析网页呢

使用lxml库

lxml 是一种使用 Python 编写的库&＃xff0c;可以迅速、灵活地处理 XML 和 HTML。

它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)&＃xff0c;并且实现了常见的 ElementTree API。

安装

windows下安装

#pip方式安装

pip3 install lxml

#wheel方式安装

#下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl

linux下安装

yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

pip3 install lxml

环境/版本一览&＃xff1a;

开发工具&＃xff1a;PyCharm 2020.2.3

python&＃xff1a;3.8.5

4.3.编写代码

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

# 我们在请求头加入User-Agent参数&＃xff0c;这样可以让服务端认为此次请求是用户通过浏览器发起的正常请求&＃xff0c;防止被识别为爬虫程序请求导致直接拒绝访问

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

&＃39;User-Agent&＃39;: &＃39;User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&＃39;

})

# 发起请求

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

到这里我们可以顺利获取百度的搜索页面html文档

我门需要看一下热搜排行榜的标签元素在哪里

找到第一条右键复制 XPath (后边说XPath是什么)

我们需要了解并使用XPath&＃xff0c;XPath即为XML路径语言(XML Path Language)&＃xff0c;它是一种用来确定XML文档中某部分位置的语言。

复制的内容结果是&＃xff1a; //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1]

这xPath字符串表示现在在html定位的位置就是热点新闻第一行内容

5.XPath常用规则

表达式

描述

nodename

选取此节点的所有子节点

从当前节点选取直接子节点

从当前节点选取子孙节点

选取当前节点

选取当前节点的父节点

&＃64;

选取属性

通配符&＃xff0c;选择所有元素节点与元素名

&＃64;*

选取所有属性

[&＃64;attrib]

选取具有给定属性的所有元素

[&＃64;attrib&＃61;&＃39;value&＃39;]

选取给定属性具有给定值的所有元素

[tag]

选取所有具有指定元素的直接子节点

[tag&＃61;&＃39;text&＃39;]

选取所有具有指定元素并且文本内容是text节点

6.继续分析

那么我们要获取所有的热点新闻该怎么写呢

继续看网页

可以看到所有的热榜分别在三个

之下

修改一下刚才复制的XPath

//*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody[1]/tr[1] 改为 //*[&＃64;id&＃61;"con-ar"]/div[2]/div/div/table/tbody/tr

这样XPath就会定位到这三个tbody下的所有tr元素内容

我们继续看一下tr是不是我们想要的内容&＃xff0c;展开一个tr看看

淦&＃xff5e;还有一堆,,

这该怎么办。我们需要拿到数据是【标题】【访问链接】【热度】&＃xff0c;现在手里已经拿到的是所有的tr元素

紧接着从tr下手直接拿到下面所有标签的标题与超链接

标题的XPath: */a/&＃64;title超链接的XPath: */a/&＃64;href

*表示匹配tr下的所有元素 /a是在*找到第一个a标签 &＃64;是属性选择器 title和href就是要选择的素属性了

还剩下个热度&＃xff0c;let‘s me 继续操作&＃xff0c;直接选择tr下的第二个td XPath: td[2]

分析完毕&＃xff0c;把完整的代码贴出来

import urllib.request

from lxml import etree

# 获取百度热榜

url &＃61; "https://www.baidu.com/s?ie&＃61;UTF-8&wd&＃61;1"

req &＃61; urllib.request.Request(url&＃61;url, headers&＃61;{

&＃39;User-Agent&＃39;: &＃39;User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&＃39;

})

html_resp &＃61; urllib.request.urlopen(req).read().decode("utf-8")

html &＃61; etree.HTML(html_resp)#初始化生成一个XPath解析对象

_list &＃61; html.xpath("//*[&＃64;id&＃61;&＃39;con-ar&＃39;]/div[2]/div/div/table/tbody/tr")

print(f"article count : {len(_list)}")

for tr in _list:

title &＃61; tr.xpath("*/a/&＃64;title")[0]

href &＃61; tr.xpath("*/a/&＃64;href")[0]

hot &＃61; tr.xpath("string(td[2])").strip()

print(f"{hot}\t{title}\thttps://www.baidu.com{href}")

点击运行&＃xff0c;程序啪就跑起来了&＃xff0c;很快啊&＃xff0c;数据全都过来了&＃xff0c;我全都接住了&＃xff0c;我笑了一下。

到此就完成了lxml xpath的基本使用&＃xff0c;更详细的xpath教程请看 &＃xff1a;https://www.w3school.com.cn/xpath/index.asp

爬虫三要素&＃xff0c;抓取数据完成了&＃xff0c;剩余的分析与存储就先不说了

总结

到此这篇关于Python爬虫新手入门之初学lxml库的文章就介绍到这了,更多相关Python爬虫入门之lxml库内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们&＃xff01;

本文标题: Python爬虫新手入门之初学lxml库

本文地址: http://www.cppcns.com/jiaoben/python/370369.html

推荐阅读

version
掌握Android UI设计：利用ZoomControls实现图片缩放功能

本文介绍了如何在Android应用中通过使用ZoomControls组件来实现图片的缩放功能。ZoomControls提供了一种简单且直观的方式，让用户可以通过点击放大和缩小按钮来调整图片的显示大小。文章详细讲解了ZoomControls的基本用法、布局设置以及与ImageView的结合使用方法，适合初学者快速掌握Android UI设计中的这一重要功能。 ... [详细]

蜡笔小新 2024-11-04 14:29:34
version
技术分享：深入解析GestureDetector手势识别机制

技术分享：深入解析GestureDetector手势识别机制 ... [详细]

蜡笔小新 2024-11-04 13:54:00
version
开发笔记：深入解析Android自定义控件——Button的72种变形技巧

开发笔记：深入解析Android自定义控件——Button的72种变形技巧 ... [详细]

蜡笔小新 2024-11-03 17:42:23
object
Java Web开发中的JSP：三大指令、九大隐式对象与动作标签详解

在Java Web开发中，JSP（Java Server Pages）是一种重要的技术，用于构建动态网页。本文详细介绍了JSP的三大指令、九大隐式对象以及动作标签。三大指令包括页面指令、包含指令和标签库指令，它们分别用于设置页面属性、引入其他文件和定义自定义标签。九大隐式对象则涵盖了请求、响应、会话、应用上下文等关键组件，为开发者提供了便捷的操作接口。动作标签则通过预定义的动作来简化页面逻辑，提高开发效率。这些内容对于理解和掌握JSP技术具有重要意义。 ... [详细]

蜡笔小新 2024-11-02 19:12:25
utf-8
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
utf-8
深入理解 gRPC：从基础到进阶的全面指南

本文全面解析了 gRPC 的基础知识与高级应用，从 helloworld.proto 文件入手，详细阐述了如何定义服务接口。例如，`Greeter` 服务中的 `SayHello` 方法，该方法在客户端和服务器端的消息交互中起到了关键作用。通过实例代码，读者可以深入了解 gRPC 的工作原理及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-05 01:25:09
version
Spring框架中的面向切面编程（AOP）技术详解

面向切面编程（AOP）是Spring框架中的关键技术之一，它通过将横切关注点从业务逻辑中分离出来，实现了代码的模块化和重用。AOP的核心思想是将程序运行过程中需要多次处理的功能（如日志记录、事务管理等）封装成独立的模块，即切面，并在特定的连接点（如方法调用）动态地应用这些切面。这种方式不仅提高了代码的可维护性和可读性，还简化了业务逻辑的实现。Spring AOP利用代理机制，在不修改原有代码的基础上，实现了对目标对象的增强。 ... [详细]

蜡笔小新 2024-11-04 17:23:10
utf-8
Sanic框架下的高性能异步Web开发

Sanic 是一个类似于 Flask 的 Python 3.5 Web 服务器，以其出色的写入速度而著称。与 Flask 不同，Sanic 支持异步请求处理，这使得它在处理高并发请求时表现更加出色。通过利用 Python 的异步特性，Sanic 能够显著提高应用程序的性能和响应能力，适用于构建高性能的异步 Web 应用。 ... [详细]

蜡笔小新 2024-11-03 20:15:02
callback
深入解析 Vue 中的 Axios 请求库

本文深入探讨了 Vue 中的 Axios 请求库，详细解析了其核心功能与使用方法。Axios 是一个基于 Promise 的 HTTP 客户端，支持浏览器和 Node.js 环境。文章首先介绍了 Axios 的基本概念，随后通过具体示例展示了如何在 Vue 项目中集成和使用 Axios 进行数据请求。无论你是初学者还是有经验的开发者，本文都能为你解决 Vue.js 相关问题提供有价值的参考。 ... [详细]

蜡笔小新 2024-11-03 19:54:00
utf-8
网页图像抓取技术学习心得：从零开始掌握爬虫技巧

在今天的实践中，我深入学习了网页图像抓取技术，通过编写爬虫程序批量获取网站上的图片资源。具体来说，我选择了一个包含大量高质量图片的网站作为练习对象，并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解，还增强了我的编程能力。 ... [详细]

蜡笔小新 2024-11-03 19:35:28
char
Python爬虫入门：深入解析HTTP协议与Requests库的应用

Python爬虫入门：深入解析HTTP协议与Requests库的应用 ... [详细]

蜡笔小新 2024-11-03 15:17:58
version
在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理

在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理 ... [详细]

蜡笔小新 2024-11-03 14:38:15
object
Python编程中的并发与并行：深入解析阻塞、非阻塞、同步、异步及IO多路复用技术

在Python编程中，探讨了并发与并行的概念及其区别。并发指的是系统同时处理多个任务的能力，而并行则指在同一时间点上并行执行多个任务。文章详细解析了阻塞与非阻塞操作、同步与异步编程模型，以及IO多路复用技术的应用。通过模拟socket发送HTTP请求的过程，展示了如何创建连接、发送数据和接收响应，并强调了默认情况下socket的阻塞特性。此外，还介绍了如何利用这些技术优化网络通信性能和提高程序效率。 ... [详细]

蜡笔小新 2024-11-02 10:32:48
object
为何数据库设计中应谨慎考虑外键的使用：9个关键原因

在数据库设计中，谨慎使用外键至关重要。本文探讨了九个关键原因，包括数据完整性的维护、性能优化、系统复杂性的管理、数据迁移的灵活性以及对外部系统的依赖性控制。通过深入分析这些因素，可以帮助开发人员和架构师做出更明智的设计决策，确保数据库系统的高效与稳定。 ... [详细]

蜡笔小新 2024-11-04 10:46:54
select
深入解析微信小程序开发中的全局配置文件设置与优化技巧

本文深入探讨了微信小程序开发中全局配置文件的设置与优化技巧，详细解析了 `app.js`、`app.json`、`app.wxss` 和 `project.config.json` 的功能与最佳实践。通过合理配置这些文件，开发者可以显著提升小程序的性能和用户体验。文章还介绍了如何利用这些配置文件进行模块化开发和调试，帮助开发者更好地管理和维护小程序项目。 ... [详细]

蜡笔小新 2024-11-03 20:00:36

有你真好cc_693

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章