热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3解析html_Python3解析html

python自带了一个类,叫HTMLParser。我们用的时候需要自己定义一个类,继承自HTMLParser。然后重写一部分方法。下面是我们常用的解析h

python 自带了一个类,叫 HTMLParser。

我们用的时候需要自己定义一个类,继承自 HTMLParser 。然后重写一部分方法。

下面是我们常用的解析html的方法,可以看到在 HTMLParser 里面,这些方法内容都是空的,也就是如果我们要用某个方法,我们得自己再我们的类里面重写这个方法。具体的每个方法的使用方式参见下文。

#Overridable -- finish processing of start+end tag:

defhandle_startendtag(self, tag, attrs):

self.handle_starttag(tag, attrs)

self.handle_endtag(tag)#Overridable -- handle start tag

defhandle_starttag(self, tag, attrs):pass

#Overridable -- handle end tag

defhandle_endtag(self, tag):pass

#Overridable -- handle character reference

defhandle_charref(self, name):pass

#Overridable -- handle entity reference

defhandle_entityref(self, name):pass

#Overridable -- handle data

defhandle_data(self, data):pass

#Overridable -- handle comment

defhandle_comment(self, data):pass

#Overridable -- handle declaration

defhandle_decl(self, decl):pass

#Overridable -- handle processing instruction

defhandle_pi(self, data):pass

使用

1. 简单解析

from html.parser importHTMLParserclassMyHTMLParser(HTMLParser):defhandle_starttag(self, tag, attrs):print("Encountered a start tag:", tag)defhandle_endtag(self, tag):print("Encountered an end tag :", tag)defhandle_data(self, data):print("Encountered some data :", data)

parser=MyHTMLParser()

parser.feed('

TestParse me!')

这里写了一个类 MyHTMLParse ,继承自 HTMLParser。然后重写了 handle_xxx方法。

然后只要调用该类的 feed() 方法,将html格式的数据传进去,遇到特定的数据,就会自动触发相应的方法。比如遇到就会触发handle_starttag()方法进行处理。

执行结果如下:

Encountered a start tag: html

Encountered a start tag: head

Encountered a start tag: title

Encountered some data : Test

Encountered an end tag : title

Encountered an end tag : head

Encountered a start tag: body

Encountered a start tag: h1

Encountered some data : Parse me!

Encountered an end tag : h1

Encountered an end tag : body

Encountered an end tag : html

2. 复杂解析

from html.parser importHTMLParserfrom html.entities importname2codepointclassMyHTMLParser(HTMLParser):defhandle_starttag(self, tag, attrs):print("Start tag:", tag)for attr inattrs:print("attr:", attr)defhandle_endtag(self, tag):print("End tag :", tag)defhandle_data(self, data):print("Data :", data)defhandle_comment(self, data):print("Comment :", data)defhandle_entityref(self, name):

c=chr(name2codepoint[name])print("Named ent:", c)defhandle_charref(self, name):if name.startswith('x'):

c= chr(int(name[1:], 16))else:

c=chr(int(name))print("Num ent :", c)defhandle_decl(self, data):print("Decl :", data)

parser= MyHTMLParser()

1)解析文档类型申明

传入html数据如下:

parser.feed('')

执行结果如下,可以看到会自动调用 handle_decl() 方法。

Decl : DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"

2) 解析属性

传入html数据如下:

parser.feed('The Python logo')

执行结果如下,可以看到会自动调用 handle_starttag()方法。

Start tag: img

attr: ('src', 'python-logo.png')

attr: ('alt', 'The Python logo')

3)解析数据以及结束标签

传入html数据如下:

parser.feed('')

执行结果如下,可以看到会自动调用 handle_data() 以及 handle_endtag()方法。

Start tag: style

attr: ('type', 'text/css')

Data :#python { color: green }

End tag : style

4)解析备注

传入html数据如下:

parser.feed('')

执行结果如下,可以看到会自动调用 handle_comment()方法。

Comment : a comment

Comment : [if IE 9]>IE-specific content

5)解析实体字符

传入html数据如下:

parser.feed('>>>')

在html语言中 ‘>’这个符号,实体名称为 > , 实体编号为 >。这里 >表示16进制数字,3E转化过来和62 是一致的。

执行结果如下,可以看到会自动调用 handle_entityref() 来处理 > ,然后调用 handle_charref()来处理 > 以及 >。

Named ent: >Num ent :>Num ent :>



推荐阅读
  • 本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案,包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]
  • 本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值,并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等,而不仅仅是判断它们是否为同一个对象。 ... [详细]
  • 在OpenCV 3.1.0中实现SIFT与SURF特征检测
    本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块,因此需要特别处理才能正常使用。 ... [详细]
  • Jenkins API当前未直接提供获取任务构建队列长度的功能,因此需要通过解析HTML页面来间接实现这一需求。 ... [详细]
  • 深入理解:AJAX学习指南
    本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用,旨在为初学者提供全面的学习资料。 ... [详细]
  • HTML:  将文件拖拽到此区域 ... [详细]
  • 本文详细介绍了如何在Windows操作系统中配置和使用Lex(Flex)与Yacc(Bison),包括软件的下载、安装以及通过示例验证其正确性的步骤。 ... [详细]
  • 在Python编程中,经常需要处理文件下载的任务。本文将介绍三种常用的下载方法:使用urllib、urllib2以及requests库进行HTTP请求下载,同时也会提及如何通过ftplib从FTP服务器下载文件。 ... [详细]
  • 本文介绍了一个使用Spring框架和Quartz调度器实现每周定时调用Web服务获取数据的小项目。通过详细配置Spring XML文件,展示了如何设置定时任务以及解决可能遇到的自动注入问题。 ... [详细]
  • 在编程实践中,正确管理和释放资源是非常重要的。本文将探讨 Python 中的 'with' 关键字及其背后的上下文管理器机制,以及它们如何帮助我们更安全、高效地管理资源。 ... [详细]
  • 理解浏览器历史记录(2)hashchange、pushState
    阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后,本打算去研究pushState,偶然在一些信息中发现了锚点变 ... [详细]
  • importjava.io.*;importjava.util.*;publicclass五子棋游戏{staticintm1;staticintn1;staticfinalintS ... [详细]
  • Bootstrap Paginator 分页插件详解与应用
    本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件,提供了详细的使用指南和示例代码,旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]
  • 本文详细介绍了Windows网络编程中常用的几个关键结构体,包括sockaddr_in、in_addr和hostent,解释了它们的定义和用途,并提供了实际应用中的示例。 ... [详细]
  • C# 中创建和执行存储过程的方法
    本文详细介绍了如何使用 C# 创建和调用 SQL Server 存储过程,包括连接数据库、定义命令类型、设置参数等步骤。 ... [详细]
author-avatar
一个不起眼的小人物
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有