当前位置: 开发笔记 > 编程语言 > 正文

BeautifulSoup模块在Python中创建对象的方法介绍

作者：mobiledu2502884523 | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了Python利用BeautifulSoup模块创建对象的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。

这篇文章主要介绍了Python利用Beautiful Soup模块创建对象的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。

安装

通过 pip 安装 Beautiful Soup 模块：pip install beautifulsoup4 。

还可以使用 PyCharm IDE 来写代码，在 PyCharm 中的 Preferences 中找到 Project ，在里面搜索 Beautiful Soup 模块，进行安装即可。

创建 BeautifulSoup 对象

Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据，例如，网页中的所有链接或者标签内的内容。

为了实现这一点，Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象，这些对象有着不同的属性和方法，我们能够从中提取到需要的数据。

Beautiful Soup 总共有如下三种对象：

BeautifulSoup
Tag
NavigableString

创建 BeautifulSoup 对象

创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。

BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object)，例如机器上的文件或者网页。

通过字符串创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。

helloworld = &＃39;Hello World&＃39;
soup_string = BeautifulSoup(helloworld)
print soup_string 
Hello World

通过类文件对象创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个类文件对象（file-like object）来创建对象。这在解析在线网页时非常有用。

url = "http://www.glumes.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
print soup

除了传递类文件对象之外，我们还可以传递本地文件对象到 BeautifulSoup 的构造器来生成对象。

with open(&＃39;foo.html&＃39;,&＃39;r&＃39;) as foo_file :
 soup_foo = BeautifulSoup(foo_file)
print soup_foo

为 XML 解析创建 BeautifulSoup 对象

Beautiful Soup 模块同样能够用来解析 XML 。

当创建一个 BeautifulSoup 对象时， Beautiful Soup 模块将会选择合适的 TreeBuilder 类来创建 HTML/XML 树。默认情况下，选择 HTML TreeBuilder 对象，它将使用默认的 HTML 解析器，产生一个 HTML 结构树。在上面的代码中，由字符串生成 BeautifulSoup 对象，就是将它解析成了 HTML 树结构。

如果我们想要 Beautiful Soup 模块将输入的内容解析为 XML 类型，那么就需要在 Beautiful Soup 构造器中精确指定使用的 features 参数。通过特定的 features 参数，Beautiful Soup 将会选择最适合的 TreeBuilder 类来满足我们想要的特征。

理解 features 参数

每一个 TreeBuilder 根据它使用的解析器将会有不同的特征。因此，输入的内容根据传递到构造器的 features 参数也会有不同的结果。
在 Beautiful Soup 模块中，TreeBuilder 当前使用的解析器如下：

lxml
html5lib
html.parser

BeautifulSoup 构造器的 features 参数能够接受一个字符串列表或一个字符串值。

当前，每一个 TreeBuilder 支持的 features 参数和解析器如下表所示：

Features	TreeBuilder	Parser
[‘lxml&＃39;,&＃39;html&＃39;,&＃39;fast&＃39;,&＃39;permissive&＃39;]	LXMLTreeBuilder	lxml
[‘html&＃39;,&＃39;html5lib&＃39;,&＃39;permissive&＃39;,&＃39;strict&＃39;,&＃39;html5′]	HTML5TreeBuilder	html5lib
[‘html&＃39;,&＃39;strict&＃39;,&＃39;html.parser&＃39;]	HTMLParserTreeBuilder	html.parser
[‘xml&＃39;,&＃39;lxml&＃39;,&＃39;permissive&＃39;,&＃39;fast&＃39;]	LXMLTreeBuilderForXML	lxml

根据指定的 feature 参数，Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时，出现如下的报错信息，可能就是需要安装对应的解析器了。

bs4.FeatureNotFound: Couldn&＃39;t find a tree builder with the features you requested: html5lib. 
Do you need to install a parser library?

就 HTML 文档而言，选择 TreeBuilder 的顺序是基于解析器建立的优先级，就如上表格所示的优先级。首先是 lxml ，其次是 html5lib ，最后才是 html.parser 。例如，我们选择 html 字符串作为 feature 参数，那么如果 lxml 解析器可用，则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用，则会选择根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用，则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ，由于 lxml 是唯一的解析器，所以 LXMLTreeBuilderForXML 总是会被选择的。

所以，为 XML 创建一个 Beautiful Soup 对象的代码如下：

helloworld = &＃39;Hello World&＃39;
soup_string = BeautifulSoup(helloworld,features="xml")
print soup_string

输入的结果也是 XML 形式的文件：

在创建 Beautiful Soup 对象时，更好的实践是指定解析器。这是因为，不同的解析器解析的结果内容大不相同，尤其是在我们的 HTML 文档内容非法时，结果更为明显。

当我们创建一个 BeautifulSoup 对象时，Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象，也就是 HTML/XML 中的标签。

如下 HTML 代码所示：

#!/usr/bin/python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_atag = """
 
 
 Test html a tag example
 Blog
 
 
 """
soup = BeautifulSoup(html_atag,&＃39;html.parser&＃39;)
atag = soup.a
print type(atag)
print atag

从结果中可以看到 atag 的类型是。而 soup.a 的结果就是 HTML 文档中的第一个标签。
HTML/XML 标签对象具有名称和属性。名称就是标签的名字，例如标签的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称。

tagname = atag.name
print tagname

同时也能够改变 Tag 对象的名称：

atag.name = &＃39;p&＃39;

这样就将上面 HTML 文档中的第一个标签名称换成了

标签了。

Tag 对象的属性

在 HTML 页面中，标签可能有不同的属性，例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

atag = soup_atag.a
print atag

也能通过 .attrs 的方式访问到，这样会将所有的属性内容都打印出来：

print atag.attrs
{&＃39;href&＃39;: u&＃39;http://www.glumes.com&＃39;}

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容。

navi = atag.string
print type(navi)
print navi.string

小结

代码小结如下：

BeautifulSoup

soup = BeautifulSoup(String)
soup = BeautifulSoup(String,features=”xml”)

Tag

tag = soup.tag
tag.name
tag[‘attribute&＃39;]

NavigableString

soup.tag.string

总结

以上就是Beautiful Soup模块在Python中创建对象的方法介绍的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

require
解决Anaconda安装TensorFlow时遇到的TensorBoard版本问题

本文介绍了在使用Anaconda安装TensorFlow时遇到的“Could not find a version that satisfies the requirement tensorboard”错误，并提供详细的解决方案，包括创建虚拟环境和配置PyCharm项目。 ... [详细]

蜡笔小新 2024-12-23 11:58:00
get
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
get
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
数组
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
get
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
tree
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
function
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
utf-8
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
utf-8
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
utf-8
Python实现照片磨皮效果

本文介绍如何使用Python和OpenCV库来实现照片的磨皮效果，使图片更加平滑并提升整体美感。 ... [详细]

蜡笔小新 2024-12-25 20:30:59
instance
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
require
Python开发中使用Virtualenv和Virtualenvwrapper管理虚拟环境

在Python开发过程中，随着项目数量的增加，不同项目依赖于不同版本的库，容易引发依赖冲突。为了避免这些问题，并保持开发环境的整洁，可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]

蜡笔小新 2024-12-25 12:05:35
get
深入理解HTML基础语法

本文详细介绍超文本标记语言（HTML）的基本概念与语法结构。HTML是构建网页的核心语言，通过标记标签描述页面内容，帮助开发者创建结构化、语义化的Web页面。 ... [详细]

蜡笔小新 2024-12-24 08:21:49
get
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
function
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54

mobiledu2502884523

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章