热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Beautifulsoup4

Beautifulsoup将复杂HTML文档转换成一个复杂的属性结构,每个节点都是python对象,所有对象可归纳为4种Tag,NavigableString,BeautifulS

Beautiful soup将复杂HTML文档转换成一个复杂的属性结构,每个节点都是python对象,所有对象可归纳为4种Tag,NavigableString,BeautifulSoup,Comment

1.Tag 就是html中的一个个标签

  tag有两个重要的属性,name和attrs

2.NavigableString  字符对象

  #打印出标签p中的内容

  print (soup.p.string)

3.BeautifulSoup 表示的是一个文档的内容

  ?部分时候,可以把它当作Tag 对象, 是?个特殊的 Tag

4.Comment 特殊的NavigableString对象

  输出的内容不包括注释符号

 

一、遍历文档树:

 1.直接子节点:.contents和.children属性

  .conten

  tag 的 .content 属性可以将tag的?节点以列表的?式输出

  Print(soup.head.contents)

  # [the domouse’s story]

 

  .children 返回的是list对象

  print (soup.head.children)

  #

  for child in soup.body.children:

  print (child)

 

2.所有子孙节点:.descendants

  contents 和 .children 属性仅包含tag的直接?节点, .descendants 属性可以对所有tag的?孙节点进?递归循环, 和 children类似, 我们也需要遍历获取其中的内容。

    for child in soup.descendants:

    print (child)

  •  通过一个例子来更直观的看出三者之间的区别

获取的节点如下

    技术分享图片

  以下代码分别获取了class=‘catListTag’下直接子节点和子孙子节点的信息

     技术分享图片

运行结果:

D:\PycharmProjects\ImoocInterface\venv\Scripts\python.exe D:/PycharmProjects/ImoocInterface/soup_test.py

-------------------contents-----------------------

[‘\n‘,

我的标签

, ‘\n‘,

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多
, ‘\n‘]

-------------------children------------------------

我的标签

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多

-------------------descendants-----------------------

我的标签

我的标签 

  • Autoit(1)
  • beautifulsoup4(1)
  • debug(1)
  • fiddler(1)
  • grid(1)
  • jdk(1)
  • python logging(1)
  • 进程(1)
  • 模块(1)
  • 线程(1)
  • 更多

  • Autoit(1)
  • Autoit

    Autoit

    (1)

  • beautifulsoup4(1)
  • beautifulsoup4

    beautifulsoup4

    (1)

  • debug(1)
  • debug

    debug

    .....................

    对比三者可发现,contens和children输出为直接子节点的内容即

    推荐阅读
    author-avatar
    他们叫我红豆
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有