热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Beautifulsoup4

Beautifulsoup将复杂HTML文档转换成一个复杂的属性结构,每个节点都是python对象,所有对象可归纳为4种Tag,NavigableString,BeautifulS

Beautiful soup将复杂HTML文档转换成一个复杂的属性结构,每个节点都是python对象,所有对象可归纳为4种Tag,NavigableString,BeautifulSoup,Comment

1.Tag 就是html中的一个个标签

  tag有两个重要的属性,name和attrs

2.NavigableString  字符对象

  #打印出标签p中的内容

  print (soup.p.string)

3.BeautifulSoup 表示的是一个文档的内容

  ?部分时候,可以把它当作Tag 对象, 是?个特殊的 Tag

4.Comment 特殊的NavigableString对象

  输出的内容不包括注释符号

 

一、遍历文档树:

 1.直接子节点:.contents和.children属性

  .conten

  tag 的 .content 属性可以将tag的?节点以列表的?式输出

  Print(soup.head.contents)

  # [the domouse’s story]

 

  .children 返回的是list对象

  print (soup.head.children)

  #

  for child in soup.body.children:

  print (child)

 

2.所有子孙节点:.descendants

  contents 和 .children 属性仅包含tag的直接?节点, .descendants 属性可以对所有tag的?孙节点进?递归循环, 和 children类似, 我们也需要遍历获取其中的内容。

    for child in soup.descendants:

    print (child)

  •  通过一个例子来更直观的看出三者之间的区别

获取的节点如下

    技术分享图片

  以下代码分别获取了class=‘catListTag’下直接子节点和子孙子节点的信息

     技术分享图片

运行结果:

D:\PycharmProjects\ImoocInterface\venv\Scripts\python.exe D:/PycharmProjects/ImoocInterface/soup_test.py

-------------------contents-----------------------

[‘\n‘,

我的标签

, ‘\n‘,

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多
, ‘\n‘]

-------------------children------------------------

我的标签

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多

-------------------descendants-----------------------

我的标签

我的标签 

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多

  • Autoit(1)
  • Autoit

    Autoit

    (1)

  • beautifulsoup4(1)
  • beautifulsoup4

    beautifulsoup4

    (1)

  • debug(1)
  • debug

    debug

    .....................

    对比三者可发现,contens和children输出为直接子节点的内容即

    推荐阅读
    • 高质量SQL书写的30条建议
      本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
    • 本文介绍了django中视图函数的使用方法,包括如何接收Web请求并返回Web响应,以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]
    • 在编写业务代码时,常常会遇到复杂的业务逻辑导致代码冗长混乱的情况。为了解决这个问题,可以利用中间件模式来简化代码逻辑。中间件模式可以帮助我们更好地设计架构和代码,提高代码质量。本文介绍了中间件模式的基本概念和用法。 ... [详细]
    • 延迟注入工具(python)的SQL脚本
      本文介绍了一个延迟注入工具(python)的SQL脚本,包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试,并通过延迟时间来判断注入是否成功。 ... [详细]
    • 本文介绍了在Python中使用getpass模块隐藏密码输入的方法,以保护用户的密码不被其他人员看到。同时还提到了在PyCharm中运行该命令无效的问题,需要在terminal中运行。 ... [详细]
    • JavaWeb中读取文件资源的路径问题及解决方法
      在JavaWeb开发中,读取文件资源的路径是一个常见的问题。本文介绍了使用绝对路径和相对路径两种方法来解决这个问题,并给出了相应的代码示例。同时,还讨论了使用绝对路径的优缺点,以及如何正确使用相对路径来读取文件。通过本文的学习,读者可以掌握在JavaWeb中正确找到和读取文件资源的方法。 ... [详细]
    • Tkinter Frame容器grid布局并使用Scrollbar滚动原理
      本文介绍了如何使用Tkinter实现Frame容器的grid布局,并通过Scrollbar实现滚动效果。通过将Canvas作为父容器,使用滚动Canvas来滚动Frame,实现了在Frame中添加多个按钮,并通过Scrollbar进行滚动。同时,还介绍了更新Frame大小和绑定滚动按钮的方法,以及配置Scrollbar的相关参数。 ... [详细]
    • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
      本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
    • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
    • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
    • 知识图谱——机器大脑中的知识库
      本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
    • 本文讲述了作者通过点火测试男友的性格和承受能力,以考验婚姻问题。作者故意不安慰男友并再次点火,观察他的反应。这个行为是善意的玩人,旨在了解男友的性格和避免婚姻问题。 ... [详细]
    • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
    • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
    • 后台获取视图对应的字符串
      1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
    author-avatar
    他们叫我红豆
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有