末尾_python解析网站BeautifulSoup

作者：建霖怡旭家其 | 来源：互联网 | 2023-10-13 00:29

篇首语：本文由编程笔记#小编为大家整理，主要介绍了python解析网站BeautifulSoup相关的知识，希望对你有一定的参考价值。首先了解一下正则表达式解析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了python解析网站BeautifulSoup相关的知识，希望对你有一定的参考价值。

首先了解一下正则表达式解析网站

正则表达式是解析网站时必须要了解的&＃xff0c;我们在提取网页中的数据时&＃xff0c;可以先将源代码变成字符串&＃xff0c;然后用正则表达式匹配想要的数据

模式	描述
.	匹配任意字符&＃xff0c;除了换行符
*	匹配前一个字符0次或多次
&＃43;	匹配前一个字符1次或多次
?	匹配前一个字符0次或1次
^	匹配字符串开头
$	匹配字符串末尾
()	匹配括号内的表达式&＃xff0c;也表示一个组
\\s	匹配空白字符
\\S	匹配任何非空白字符
\\d	匹配数字&＃xff0c;等价于[0-9]
\\D	匹配任何非数字&＃xff0c;等价于[^0-9]
\\w	匹配字母数字&＃xff0c;等价于[A-Za-z0-9_]
\\W	匹配非字母数字&＃xff0c;等价于[^A-Za-z0-9_]
[]	用来表示一组字符

re.match()方法

re.match的意思是从字符串起始位置匹配一个模式&＃xff0c;如果从起始位置匹配不了&＃xff0c;match()就返回none

re.match的语法为re.match(pattern,string,flags&＃61;0)&＃xff0c;其中pattern是正则表达式&＃xff0c;包含一些特殊的字符&＃xff0c;string为要匹配的字符串&＃xff0c;flags用来控制正则表达式的匹配方式&＃xff0c;如是否区分大小写、多行匹配等

re.search方法

re.search扫描整个字符串并返回第一个成功的匹配&＃xff0c;其余与re.match一样

re.findall方法

由于re.match和re.search方法中&＃xff0c;我们只能找到一个匹配所写的模式&＃xff0c;而findall可以找到所有的匹配
findall与match、search不同的是&＃xff0c;findall能够找到所有匹配的结果&＃xff0c;并且以列表的形式返回

BeautifulSoup解析网站

BeautifulSoup可以从HTML或XML文件中提取数据

BeautifulSoup的安装

在cmd中输入&＃xff1a;pip install bs4

BeautifulSoup的其他功能

BeautifulSoup对象是一个复杂的树形结构&＃xff0c;它的每个节点都是python对象&＃xff0c;获取网页的内容就是一个提取对象内容的过程

遍历文档树
搜索文档树
CSS选择器

1.遍历文档树

要获取

标签&＃xff0c;只需要输入&＃xff1a;

`soup.header.h1`
对于某个标签的所有子节点&＃xff0c;我们可以用contents把它的子节点以列表的方式输出&＃xff1a;

`soup.header.div.contents`
我们也可以使用children方法获得所有子标签&＃xff1a;

`for child in soup.header.div.children: print (child)`
上述方法只能获取该节点下一级的节点&＃xff0c;如果要获得所有子子孙孙的节点&＃xff0c;就要用.descendants方法。其代码如下&＃xff1a;

`for child in soup.header.div.descendants: print(child)`
除了获取子节点外&＃xff0c;还可以使用.parent方法获得父节点的内容&＃xff1a;

`a_tag &＃61; soup.header.div.a a_tag.parent`

2.搜索文档树

在搜索文档树时&＃xff0c;常用的是find()和find_all()
find()和find_all()方法可以和re正则结合起来使用

for tag in soup.find_all(re.compile("^h")): print(tag.name)

输出&＃xff1a;

html header h3

3.CSS选择器

CSS选择器方法既可以作为遍历文档树的方法数据提取&＃xff0c;也可以作为搜索文档树的方法提取数据

推荐阅读

format
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
python
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
io
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
python
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
php
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
select
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
php
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
uri
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
format
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
io
Spring Boot快速入门与应用

本文详细介绍了如何使用Spring Boot进行高效开发，涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]

蜡笔小新 2024-12-27 15:28:29
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
select
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47

建霖怡旭家其

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章