python爬虫：BeautifulSoup巴乐兔租房信息爬取

作者：MINT米田 | 来源：互联网 | 2023-05-29 15:18

找到巴乐兔上海租房网页url：巴乐兔上海通过翻页发现：第一页url：‘http:sh.baletu.comzhaofang?entranc

找到巴乐兔上海租房网页url&＃xff1a;巴乐兔上海
通过翻页发现&＃xff1a;
第一页url&＃xff1a;‘http://sh.baletu.com/zhaofang/?entrance&＃61;14’
第二页url&＃xff1a;‘http://sh.baletu.com/zhaofang/p2o1a1/?**seachId&＃61;0&is_rec_house&＃61;0&entrance&＃61;14&solr_house_cnt&＃61;28156’
第三页url&＃xff1a;‘http://sh.baletu.com/zhaofang/p3o1a1/?**seachId&＃61;0&is_rec_house&＃61;0&entrance&＃61;14&solr_house_cnt&＃61;28159’
我们只需要关注网址的前半部分的不同之处&＃xff0c;后半部分为自动生成字段&＃xff0c;因此可以用以下代码获取每页的url

if page &＃61;&＃61; 1:url &＃61; &＃39;http://sh.baletu.com/zhaofang/?entrance&＃61;14&＃39; else:url &＃61; &＃39;http://sh.baletu.com/zhaofang/p&＃39;&＃43;str(page)&＃43;&＃39;o1a1/&＃39;

再通过request请求网页&＃xff0c;用BeautifulSoup解析&＃xff1a;

r &＃61; requests.get(url,headers&＃61;headers) soup &＃61; BeautifulSoup(r.content.decode(&＃39;utf-8&＃39;),&＃39;html.parser&＃39;)

通过检查网页发现&＃xff0c;需要的信息全部在class为list-center的div标签下&＃xff1a;
在这里插入图片描述
在该div下&＃xff0c;每个li标签就是一条租房信息&＃xff0c;因此

outer_div &＃61; soup.find(&＃39;div&＃39;,class_&＃61;"list-center") houses &＃61; outer_div.find_all(&＃39;li&＃39;,attrs &＃61; {"class":"listUnit-date clearfix PBA_list_house"})

同样&＃xff0c;通过分析每个li标签下的子标签&＃xff0c;可以得到房屋名称&＃xff0c;区域&＃xff0c;小区等信息&＃xff0c;代码如下&＃xff1a;

houses_info &＃61; [] for house in houses:try:id &＃61; house.attrs[&＃39;num&＃39;]name &＃61; house.h3.a.attrs[&＃39;title&＃39;]address &＃61; re.search("(.*?)-(.{2})",name)area &＃61; address.group(2)community &＃61; address.group(1)url &＃61; house.find(&＃39;a&＃39;,attrs&＃61;{"target":"_blank"}).attrs[&＃39;href&＃39;]price &＃61; house.attrs[&＃39;price&＃39;]rent_type &＃61; house.attrs[&＃39;variant&＃39;]size_info &＃61; house.find(&＃39;p&＃39;,attrs&＃61;{"class":"list-pic-ps"}).find("span",attrs&＃61;{"class":False}).textsize &＃61; re.search("(\d&＃43;)",size_info).group()traffic_1 &＃61; house.find("div",attrs&＃61;{"class":"list-pic-ad"}).texttraffic_2 &＃61; re.search("距离(?:(\d&＃43;)号线)?(.*?)(?:(\d&＃43;)米)",traffic_1)if traffic_2 &＃61;&＃61; None:traffic_info &＃61; &＃39;__&＃39;else:traffic &＃61; traffic_2.groups()info_list &＃61; []for i in traffic:if i is None:info_list.append("")else:info_list.append(i)traffic_info &＃61; &＃39;_&＃39;.join(info_list)release_time &＃61; house.find("span",attrs&＃61;{"class":"room-time"}).text.replace(" 发布","")grade &＃61; house.find("span",attrs&＃61;{"class":"lan-ratedetail"}).textcomment &＃61; house.find("span",attrs&＃61;{"class":"lan-rate-people"}).textcomment_num &＃61; re.search("(\d&＃43;)",comment).group()except Exception:Nonehouses_info.append({"id":id,"name":name,"area":area,"community":community,"url":url,"price":price,"rent_type":rent_type,"size":size,"traffic_info":traffic_info,"release_time":release_time,"grade":grade,"comment_num":comment_num})

将以上代码封装成方法&＃xff0c;在定义一个保存成csv文件的方法&＃xff1a;

def randerToFile(houses_info):with open("巴乐兔_上海.csv","a",encoding&＃61;&＃39;utf-8&＃39;) as file:for house in houses_info:file.write("::".join(house.values())&＃43;"\n")

最后通过循环&＃xff0c;执行上述方法&＃xff0c;就能爬取到巴乐兔所有页的租房信息。

推荐阅读

less
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
python
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
datetime
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
python
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
include
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
java
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
replace
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
replace
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
java
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
replace
解决FCKeditor应用主题后上传问题及优化配置

本文介绍了在Freetextbox收费后选择FCKeditor作为替代方案时遇到的上传问题及其解决方案。通过调整配置文件和调试工具，最终解决了上传失败的问题，并对相关配置进行了优化。 ... [详细]

蜡笔小新 2024-12-23 12:43:29
replace
solrCloud分布式集群安装配置

solrCloud分布式集群安装配置1.前提安装Zookeeper集群2.安装部署多个solr节点10.41.2.82 ... [详细]

蜡笔小新 2024-12-06 17:31:56
get
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02

MINT米田

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章