python3解析html_Python3解析html

作者：一个不起眼的小人物 | 来源：互联网 | 2023-10-15 15:32

python自带了一个类，叫HTMLParser。我们用的时候需要自己定义一个类，继承自HTMLParser。然后重写一部分方法。下面是我们常用的解析h

python 自带了一个类&＃xff0c;叫 HTMLParser。

我们用的时候需要自己定义一个类&＃xff0c;继承自 HTMLParser 。然后重写一部分方法。

下面是我们常用的解析html的方法&＃xff0c;可以看到在 HTMLParser 里面&＃xff0c;这些方法内容都是空的&＃xff0c;也就是如果我们要用某个方法&＃xff0c;我们得自己再我们的类里面重写这个方法。具体的每个方法的使用方式参见下文。

#Overridable -- finish processing of start&＃43;end tag:

defhandle_startendtag(self, tag, attrs):

self.handle_starttag(tag, attrs)

self.handle_endtag(tag)#Overridable -- handle start tag

defhandle_starttag(self, tag, attrs):pass

#Overridable -- handle end tag

defhandle_endtag(self, tag):pass

#Overridable -- handle character reference

defhandle_charref(self, name):pass

#Overridable -- handle entity reference

defhandle_entityref(self, name):pass

#Overridable -- handle data

defhandle_data(self, data):pass

#Overridable -- handle comment

defhandle_comment(self, data):pass

#Overridable -- handle declaration

defhandle_decl(self, decl):pass

#Overridable -- handle processing instruction

defhandle_pi(self, data):pass

使用

1. 简单解析

from html.parser importHTMLParserclassMyHTMLParser(HTMLParser):defhandle_starttag(self, tag, attrs):print("Encountered a start tag:", tag)defhandle_endtag(self, tag):print("Encountered an end tag :", tag)defhandle_data(self, data):print("Encountered some data :", data)

parser&＃61;MyHTMLParser()

parser.feed(&＃39;

TestParse me!&＃39;)

这里写了一个类 MyHTMLParse &＃xff0c;继承自 HTMLParser。然后重写了 handle_xxx方法。

然后只要调用该类的 feed() 方法&＃xff0c;将html格式的数据传进去&＃xff0c;遇到特定的数据&＃xff0c;就会自动触发相应的方法。比如遇到就会触发handle_starttag()方法进行处理。

执行结果如下&＃xff1a;

Encountered a start tag: html

Encountered a start tag: head

Encountered a start tag: title

Encountered some data : Test

Encountered an end tag : title

Encountered an end tag : head

Encountered a start tag: body

Encountered a start tag: h1

Encountered some data : Parse me!

Encountered an end tag : h1

Encountered an end tag : body

Encountered an end tag : html

2. 复杂解析

from html.parser importHTMLParserfrom html.entities importname2codepointclassMyHTMLParser(HTMLParser):defhandle_starttag(self, tag, attrs):print("Start tag:", tag)for attr inattrs:print("attr:", attr)defhandle_endtag(self, tag):print("End tag :", tag)defhandle_data(self, data):print("Data :", data)defhandle_comment(self, data):print("Comment :", data)defhandle_entityref(self, name):

c&＃61;chr(name2codepoint[name])print("Named ent:", c)defhandle_charref(self, name):if name.startswith(&＃39;x&＃39;):

c&＃61; chr(int(name[1:], 16))else:

c&＃61;chr(int(name))print("Num ent :", c)defhandle_decl(self, data):print("Decl :", data)

parser&＃61; MyHTMLParser()

1)解析文档类型申明

传入html数据如下&＃xff1a;

parser.feed(&＃39;&＃39;)

执行结果如下&＃xff0c;可以看到会自动调用 handle_decl() 方法。

Decl : DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"

2) 解析属性

传入html数据如下&＃xff1a;

parser.feed(&＃39; The Python logo &＃39;)

执行结果如下&＃xff0c;可以看到会自动调用 handle_starttag()方法。

Start tag: img

attr: (&＃39;src&＃39;, &＃39;python-logo.png&＃39;)

attr: (&＃39;alt&＃39;, &＃39;The Python logo&＃39;)

3)解析数据以及结束标签

传入html数据如下&＃xff1a;

parser.feed(&＃39;&＃39;)

执行结果如下&＃xff0c;可以看到会自动调用 handle_data() 以及 handle_endtag()方法。

Start tag: style

attr: (&＃39;type&＃39;, &＃39;text/css&＃39;)

Data :#python { color: green }

End tag : style

4)解析备注

传入html数据如下&＃xff1a;

parser.feed(&＃39;&＃39;)

执行结果如下&＃xff0c;可以看到会自动调用 handle_comment()方法。

Comment : a comment

Comment : [if IE 9]>IE-specific content

5)解析实体字符

传入html数据如下&＃xff1a;

parser.feed(&＃39;>>>&＃39;)

在html语言中 ‘>’这个符号&＃xff0c;实体名称为 > &＃xff0c; 实体编号为 >。这里 >表示16进制数字&＃xff0c;3E转化过来和62 是一致的。

执行结果如下&＃xff0c;可以看到会自动调用 handle_entityref() 来处理 > &＃xff0c;然后调用 handle_charref()来处理 > 以及 >。

Named ent: >Num ent :>Num ent :>

推荐阅读

js
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
js
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
uri
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
search
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
import
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
uri
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
uri
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
uri
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
uri
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
uri
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
js
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
search
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33

一个不起眼的小人物

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章