#Pythonpyquerycar之家案例

作者：唯爱-U澄_155 | 来源：互联网 | 2023-10-10 12:05

查看页面源码案例1.提取页面源代码2.解析页面源代码，提取数据importrequestsfrompyqueryimportPyQueryfo

查看页面源码

在这里插入图片描述

案例

""" 1. 提取页面源代码 2. 解析页面源代码&＃xff0c;提取数据""" import requests from pyquery import PyQuery f &＃61; open("qingchezhijia.csv",mode&＃61;&＃39;w&＃39;,encoding&＃61;&＃39;utf-8&＃39;) # 创建文件def get_page_source(url): # 定义函数访问页面resp &＃61; requests.get(url)resp.encoding &＃61; "gbk"# print(resp.text)return resp.textdef parse_page_source(html): # 解析并找准定位doc &＃61;PyQuery(html)mt_list &＃61; doc(".mt-10").items() # class &＃61;"mt-10"for mt in mt_list: # 拿到每一个# 判断是否有汽车经销商if not mt("div >dl:nth-child(3)>dt:contains(购车经销商)"):# 向地点后添加购车经销商进去mt("div >dl:nth-child(2)").after(PyQuery("""

购车经销商

"""))# 提取购买的车型# 想要在已经提取的内容中获得第一个怎么办&＃xff1f; .eq(0)# nth - child(1) 在css进行选择的时候&＃xff0c;选取第1个位置的内容car &＃61;mt("div>dl:nth-child(1)>dd").eq(0).text().replace("\n","").replace(" ","")place &＃61; mt("div>dl:nth-child(2)>dd").eq(0).text()time &＃61; mt("div>dl:nth-child(4)>dd").eq(0).text()price &＃61; mt("div>dl:nth-child(5)>dd").eq(0).text().replace("万元","")youhao &＃61; mt("div>dl:nth-child(6)>dd >p:nth-child(1)").eq(0).text().replace("升/百公里","")kilometer &＃61; mt("div>dl:nth-child(6)>dd >p:nth-child(2)").eq(0).text().replace("公里","")# for i in range(8):#     other &＃61; mt("div>div>dl>dd").text().split()#     i&＃43;&＃61;1other &＃61; mt("div>div>dl>dd").text().split()# kongjian &＃61; mt("div>dl:nth-child(7)>dd").eq(0).text()# kongjian &＃61; mt("div>dl:nth-child(7)>dd >p:nth-child(1)")# kongjian &＃61; mt("div>div>dl")[1].text()# print(car,other)# 存储到文件中.....f.write(f"购买车型&＃xff1a;{car},购买地点&＃xff1a;{place},购买时间:{time},购车购买价:{price},油耗:{youhao},目前行驶:{kilometer},其它:{other}\n")  # 爬取想要的数据存放在文件中# print(other)def main():   # 定义函数 并调用函数url &＃61; "https://k.autohome.com.cn/146/"# 1.提取页面源代码html &＃61; get_page_source(url)# 2.解析页面源代码&＃xff0c;提取数据parse_page_source(html)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:  # 调用函数 &＃61;> 主函数(main)main()

运行结果&＃xff1a;

在这里插入图片描述

推荐阅读

int
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
join
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
int
Python 实现字符串双拆分并转换为矩阵

本文介绍如何使用 Python 将一个字符串按照指定的行和元素分隔符进行两次拆分，最终将字符串转换为矩阵形式。通过两种不同的方法实现这一功能：一种是使用循环与 split() 方法，另一种是利用列表推导式。 ... [详细]

蜡笔小新 2024-12-28 12:15:45
join
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
uri
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
int
Python - 检查列表中是否存在交替峰值

本文介绍如何使用 Python 编写程序，检查给定列表中的元素是否形成交替峰值模式。我们将探讨两种不同的方法来实现这一目标，并提供详细的代码示例。 ... [详细]

蜡笔小新 2024-12-27 15:40:11
command
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
int
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
instance
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
php
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
format
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
instance
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
instance
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
int
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30

唯爱-U澄_155

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章