当前位置: 开发笔记 > 前端 > 正文

python解析html开发库pyquery使用方法

作者：手机用户2502903557 | 来源：互联网 | 2022-04-13 02:54

PyQuery是一个类似于jQuery的Python库，也可以说是jQuery在Python上的实现，能够以jQuery的语法来操作解析HTML文档，易用性和解析速度都很好

例如

代码如下:

导演: 汤姆·提克威 / 拉娜·沃卓斯基 / 安迪·沃卓斯基

编剧: 汤姆·提克威 / 安迪·沃卓斯基 / 拉娜·沃卓斯基

主演: 汤姆·汉克斯 / 哈莉·贝瑞 / 吉姆·布劳德本特 / 雨果·维文 / 吉姆·斯特吉斯 / 裴斗娜 / 本·卫肖 / 詹姆斯·达西 / 周迅 / 凯斯·大卫 / 大卫·吉雅西 / 苏珊·萨兰登 / 休·格兰特

类型: 剧情 / 科幻 / 悬疑

官方网站: cloudatlas.warnerbros.com

制片国家/地区: 德国 / 美国 / 香港 / 新加坡

语言: 英语

上映日期: 2013-01-31(中国大陆) / 2012-10-26(美国)

片长: 134分钟(中国大陆) / 172分钟(美国)

IMDb链接: tt1371111

官方小站:
电影《云图》

代码如下:

from pyquery import PyQuery as pq
doc=pq(url='http://movie.douban.com/subject/3530403/')
data=doc('.pl')
for i in data:
    print pq(i).text()

输出

代码如下:

导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

用法

用户可以使用PyQuery类从字符串、lxml对象、文件或者url来加载xml文档:

代码如下:

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> doc=pq("")
>>> doc=pq(etree.fromstring(""))
>>> doc=pq(filename=path_to_html_file)
>>> doc=pq(url='http://movie.douban.com/subject/3530403/')

可以像jQuery一样选择对象了

代码如下:

>>> doc('.pl')
[, , , , , , , , , , , , , , , , , , , ]

这样，class为'pl'的对象就全部选择出来了。

不过在使用迭代时需要对文本进行重新封装：

代码如下:

for para in doc('.pl'):
    para=pq(para)
    print para.text()   
导演
编剧
主演
类型:
官方网站:
制片国家/地区:
语言:
上映日期:
片长:
IMDb链接:
官方小站:

这里得到的text是unicode码，如果要写入文件需要编码为字符串。
用户可以使用jquery提供的一些伪类（但还不支持css）来进行操作，诸如：

代码如下:

>>> doc('.pl:first')
[]
>>> print  doc('.pl:first').text()
导演

Attributes
获取html元素的属性

代码如下:

>>> p=pq('

')('p')
>>> p.attr('id')
'hello'
>>> p.attr.id
'hello'
>>> p.attr['id']
'hello'

赋值

代码如下:

>>> p.attr.id='plop'
>>> p.attr.id
'plop'
>>> p.attr['id']='ola'
>>> p.attr.id
'ola'
>>> p.attr(id='hello',class_='hello2')
[]

Traversing
过滤

代码如下:

>>> d=pq('

hello

world

')
>>> d('p').filter('.hello')
[]
>>> d('p').filter('#test')
[]
>>> d('p').filter(lambda i:i==1)
[]
>>> d('p').filter(lambda i:i==0)
[]
>>> d('p').filter(lambda i:pq(this).text()=='hello')
[]

按照顺序选择

代码如下:

>>> d('p').eq(0)
[]
>>> d('p').eq(1)
[]

选择内嵌元素

代码如下:

>>> d('p').eq(1).find('a')
[]

选择父元素

代码如下:

>>> d=pq('

Whoah!

there

')
>>> d('p').eq(1).find('em')
[]
>>> d('p').eq(1).find('em').end()
[
]
>>> d('p').eq(1).find('em').end().text()
'there'
>>> d('p').eq(1).find('em').end().end()
[
,
]

xml

html

jquery

css

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

css
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新   2024-12-20 20:02:31

focus
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新   2024-12-27 21:33:33

ajax
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新   2024-12-27 15:19:01

css
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新   2024-12-25 18:48:34

ajax
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新   2024-12-24 16:36:52

css
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新   2024-12-24 14:37:46

css
深入理解HTML基础语法

本文详细介绍超文本标记语言（HTML）的基本概念与语法结构。HTML是构建网页的核心语言，通过标记标签描述页面内容，帮助开发者创建结构化、语义化的Web页面。 ... [详细]

蜡笔小新   2024-12-24 08:21:49

css
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新   2024-12-23 20:23:57

css
基于JQuery实现的评分插件

本文介绍了一个使用JQuery创建的交互式评分控件。当用户将鼠标悬停在星星上时，左侧的星星会变为实心，右侧保持空心，并显示对应的评分等级；移开鼠标后，所有星星恢复为空心状态。 ... [详细]

蜡笔小新   2024-12-23 10:09:44

css
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新   2024-12-28 08:20:07

css
信息安全小组第一周工作总结

本周信息安全小组主要进行了CTF竞赛相关技能的学习，包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外，还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]

蜡笔小新   2024-12-28 05:52:22

css
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新   2024-12-28 04:11:47

css
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新   2024-12-28 02:40:28

js
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新   2024-12-27 22:07:40

css
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新   2024-12-27 20:40:29

手机用户2502903557

这个家伙很懒，什么也没留下！

Tags | 热门标签

json

cookies

label

textview

vue.js

chart

javascript

chrome

layout

icons

jq

postman

firefox

dom

build

chart.js

node.js

js

charts

上传

hover

npm

overflow

css3

scroll

css

react

ajax

focus

微信开发

RankList | 热门文章

1行车记录仪的循环录制一般设置多长时间？

2AD18输出制造文件Gerber并下单打样PCB

3oppor3怎么设置主屏？

4EDA可编程逻辑器件基础（PLD分类介绍）

5电脑绘制流程图操作方法

6excel多个工作表合并怎么操作

7格之格易加粉PRO+硒鼓颠覆传统，重新定义易加粉！

8第三方的 magsafe 安全吗，会影响手机电池性能么

9语雀的随机字符串路由匹配是如何实现的？

10原版Win10系统重装详细操作教程

11如何快速的给EXCEL中图表添加颜色和改变字体？:图表背景设置

12Photoshop CC怎样一键去模糊防抖

13最新经营级秀出打赏系统源码+带支付/视频教程

14建筑物沉降观测点的设置

15魅族16sPro怎么安装软件