当前位置: 开发笔记 > 编程语言 > 正文

Beautifulsoup4

作者：他们叫我红豆 | 来源：互联网 | 2023-01-11 03:11

Beautifulsoup将复杂HTML文档转换成一个复杂的属性结构，每个节点都是python对象，所有对象可归纳为4种Tag，NavigableString,BeautifulS

Beautiful soup将复杂HTML文档转换成一个复杂的属性结构，每个节点都是python对象，所有对象可归纳为4种Tag，NavigableString,BeautifulSoup,Comment

1.Tag 就是html中的一个个标签

　　tag有两个重要的属性，name和attrs

2.NavigableString 字符对象

　　#打印出标签p中的内容

　　print （soup.p.string）

3.BeautifulSoup 表示的是一个文档的内容

　　?部分时候,可以把它当作Tag 对象，是?个特殊的 Tag

4.Comment 特殊的NavigableString对象

　　输出的内容不包括注释符号

一、遍历文档树：

1.直接子节点：.contents和.children属性

　　.conten

　　tag 的 .content 属性可以将tag的?节点以列表的?式输出

　　Print(soup.head.contents)

　　# [the domouse’s story]

　　.children 返回的是list对象

　　print (soup.head.children)

　　for child in soup.body.children:

　　print (child)

2.所有子孙节点：.descendants

　　contents 和 .children 属性仅包含tag的直接?节点， .descendants 属性可以对所有tag的?孙节点进?递归循环，和 children类似，我们也需要遍历获取其中的内容。

　　　　for child in soup.descendants:

　　　　print (child)

通过一个例子来更直观的看出三者之间的区别

获取的节点如下

　　　　技术分享图片

　　以下代码分别获取了class=‘catListTag’下直接子节点和子孙子节点的信息

　　　　技术分享图片

运行结果：

D:\PycharmProjects\ImoocInterface\venv\Scripts\python.exe D:/PycharmProjects/ImoocInterface/soup_test.py

-------------------contents-----------------------

[‘\n‘,

我的标签

, ‘\n‘,

Autoit(1)
beautifulsoup4(1)
debug(1)
fiddler(1)
grid(1)
jdk(1)
python logging(1)
进程(1)
模块(1)
线程(1)
更多

, ‘\n‘]

-------------------children------------------------

我的标签

Autoit(1)
beautifulsoup4(1)
debug(1)
fiddler(1)
grid(1)
jdk(1)
python logging(1)
进程(1)
模块(1)
线程(1)
更多

-------------------descendants-----------------------

我的标签

Autoit(1)
beautifulsoup4(1)
debug(1)
fiddler(1)
grid(1)
jdk(1)
python logging(1)
进程(1)
模块(1)
线程(1)
更多

Autoit(1)

Autoit

(1)

beautifulsoup4(1)

beautifulsoup4

(1)

debug(1)

debug

.....................

对比三者可发现，contens和children输出为直接子节点的内容即

和

标签的内容

3.节点内容：.string属性

二、搜索

1. find_all(name, attrs, recursive, text,**kwargs)

1） name 参数

　　name 参数可以查找所有名字为 name 的tag,字符串对象会被?动忽略掉

　　A.传字符串

　　　　最简单的过滤器是字符串.在搜索?法中传??个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下?的例??于查找?档中所有的 标签:

　　　　soup.find_all(‘b‘)

　　　　# [The Dormouse‘s story]

　　B.传正则表达式

　　　　如果传?正则表达式作为参数,Beautiful Soup会通过正则表达式的 match()来匹配内容.下?例?中找出所有以b开头的标签,这表示和 标签都应该被找到

　　　　import re

　　　　for tag in soup.find_all(re.compile("^b")):

　　　　 print(tag.name)

　　　　# body

　　　　# b

　　C.传列表

　　　　如果传?列表参数,Beautiful Soup会将与列表中任?元素匹配的内容返回.下?代码找到?档中所有标签和 标签:

　　　　soup.find_all(["a", "b"])

　　　　# [The Dormouse‘s story,
　　　　# Els

　　　　ie,

　　　　# Lac

　　　　ie,

　　　　# Ti

　　　　llie]

2） keyword 参数

　　soup.find_all(id_=‘link2‘)或soup.find_all(class_=‘link2‘)

　　注意关键字后的下划线，没有下划线会报错

　　# [Lac

　　ie]

3） text 参数

　　通过 text 参数可以搜搜?档中的字符串内容，与 name 参数的可选值?样,text 参数接受字符串 , 正则表达式 , 列表

　　soup.find_all(text="Elsie")

　　# [u‘Elsie‘]

2.soup.find(name, attrs, recursive, text,**kwargs)

　　找到第一个符合的对象

三、css选择器

与soup.find_all()类似，查找所有符合的节点并返回list

（1）通过标签查找 soup.select(‘b’)

　　返回所有标签为的节点

（2）通过类名或ID查找

　　Soup.select(‘.classname’)

　　Soup.select(‘#id’)

（3）组合查找

　　标签+类Soup.select(‘b .classname’)

　　　　返回b标签中类名为classname的节点

　　子标签查找Soup.select(‘head>title’)

　　　　返回父标签为head的title节点

（4）属性查找

　　Soup.select(“a[class=’link’]”)

　　　　标签为a且class为link的节点

　　Soup.select(“p a[class=’link’]”)

　　　　返回p标签中a[class=’link’]的节点

（5）获取内容

　　get_text()

　　

四、爬网页图片

1、目标网站

　　1) 打开一个风景图的网站：https://www.enterdesk.com/

　　2) 用 firebug 定位

　　3)从下图可以看出，所有的图片都是 img 标签,父节点class属性为egeli_pic_dl

　　　　

2、用 find_all 找出所有的标签

　　1).find_all(class_="legeli_pic_dl")获取所有的图片对象标签

　　2).从标签里面提出 jpg 的 url 地址和 title

1 from bs4 import BeautifulSoup 2 import requests 3 import os 4 r = requests.get("https://www.enterdesk.com/") 5 # 获取页面内容 6 cOntent= r.content 7 # 用html.parser解析html 8 soup = BeautifulSoup(content, ‘html.parser‘) 9 # 获取所有class为egene_pic_dl，返回tag类,为list 10 all = soup.find_all(class_=‘egeli_pic_dl‘) 11 for i in all: 12 # 获取图片路径和名称 13 img_url = i.img[‘src‘] 14 img_name = i.img[‘title‘]

3.保存图片

　　1).在当前脚本文件夹下创建一个 img 的子文件夹

　　2).导入 os 模块，os.getcwd()这个方法可以获取当前脚本的路径

　　3).用 open 打开写入本地电脑的文件路径，命名为：os.getcwd()+"\\img\\"+img_name+‘.jpg‘（命名重复的话，会被覆盖掉）

　　4).requests 里 get 打开图片的 url 地址，content 方法返回的是二进制流文件，可以直接写到本地

1 for i in all: 2 # 获取图片路径和名称 3 img_url = i.img[‘src‘] 4 img_name = i.img[‘title‘] 5 # 保存图片 6 with open(os.getcwd()+‘\\img\\‘+img_name+‘.jpg‘, ‘wb‘) as f: 7 f.write(requests.get(img_url).content)

4.运行结果

Beautifulsoup4

android

asp.net

php

jsp

数据库

html

python

string

windows

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

web
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新   2024-12-27 18:20:43

tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新   2024-12-28 04:11:47

uri
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新   2024-12-28 12:33:18

import
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新   2024-12-27 20:54:03

list
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新   2024-12-27 19:49:07

list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新   2024-12-27 19:32:17

list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新   2024-12-27 18:51:49

list
Python 实现字符串双拆分并转换为矩阵

本文介绍如何使用 Python 将一个字符串按照指定的行和元素分隔符进行两次拆分，最终将字符串转换为矩阵形式。通过两种不同的方法实现这一功能：一种是使用循环与 split() 方法，另一种是利用列表推导式。 ... [详细]

蜡笔小新   2024-12-28 12:15:45

list
Android 模拟用户交互：点击与滑动操作的实现

本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作，包括参数说明、事件生成及处理逻辑。详细解析了视图（View）对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]

蜡笔小新   2024-12-28 12:12:22

list
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新   2024-12-28 10:51:55

import
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新   2024-12-28 09:42:41

list
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新   2024-12-28 08:54:34

list
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新   2024-12-27 22:07:40

list
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新   2024-12-27 19:42:28

post
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新   2024-12-27 19:05:41

他们叫我红豆

这个家伙很懒，什么也没留下！

Tags | 热门标签

java

php8

hashset

plugins

post

schema

chat

actionscrip

stream

timestamp

bytecode

yaml

httprequest

php7

go

cpython

scala

copy

import

web

regex

heatmap

include

list

header

fetch

uri

tags

hashtable

substring

RankList | 热门文章

1HashMap的扩容知识详解

2Scanner类的next()方法与hasnext()方法的用法解释

3bootstrapselect设置container之后，选择完之后options不隐藏？

4java八大异常_关于Java异常最常见的八大问题

5常量对象、常量成员函数、常引用及其应用

6Java语言基础编程题(二维数组, 五子棋游戏, 实体类和接口, 视频讲解)分享三道简单的编程题，后面加上我个人的视频讲解

7RHEL 7中的系统日志管理和网络管理

8Android平台版本及API级别详解

9PHP函数实现分页含文本分页和数字分页【PHP】

10ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

11【重识云原生】第四章云网络4.8.3.2节——Open vSwitch工作原理详解

12com.evernote.android.job.JobRequest.getTransientExtras()方法的使用及代码示例

13给定一个没有排序的链表，去掉重复项，并保留原顺序

14python中安装并使用redis相关的知识

15容器技术的安全挑战与解决方案

Beautifulsoup4

Beautiful soup将复杂HTML文档转换成一个复杂的属性结构，每个节点都是python对象，所有对象可归纳为4种Tag，NavigableString,BeautifulSoup,Comment

一、遍历文档树：

1.直接子节点：.contents和.children属性

2.所有子孙节点：.descendants

我的标签

我的标签

我的标签

3.节点内容：.string属性

二、搜索

1. find_all(name, attrs, recursive, text,**kwargs)

2.soup.find(name, attrs, recursive, text,**kwargs)

三、css选择器

（1）通过标签查找 soup.select(‘b’)

（2）通过类名或ID查找

（3）组合查找

（4）属性查找

（5）获取内容

四、爬网页图片

1、目标网站

2、用 find_all 找出所有的标签

3.保存图片

4.运行结果