轩宝：python小白的第一只爬虫“房天下”在售新房数据爬取

作者：我的生活我做主哦耶_266 | 来源：互联网 | 2023-10-14 18:28

仅以此文纪念我的第一只虫子！先上干货，由于是初学者，代码略渣，欢迎交流学习。整个虫主要由四个模块组成：URL管理器（url_manager）、下载器（html_downloader

仅以此文纪念我的第一只虫子！

先上干货，由于是初学者，代码略渣，欢迎交流学习。

整个虫主要由四个模块组成：URL管理器（url_manager）、下载器（html_downloader）、解析器（html_parser）和输出器（html_outputer）。

没错，整个爬虫代码主要是参照我的启蒙爬虫教学视频，慕课网“Python开发简单爬虫”中的百度百科1000个页面的爬取视频所得Python开发简单爬虫视频教程，所以可以发现借鉴痕迹较重，在此基础上，根据具体页面内容和需要对其进行了部分改造。个人觉得这个视频内容还是一个不错的入门级爬虫教育视频，介绍了爬虫的工作原理，还配合具体案例实现，有兴趣的朋友可以看看。

程序的思想很简单，就是将房天下上的主要城市的在售楼盘数据爬下来：通过CityUrl_Crwa（）获取每一个城市的在售楼盘列表起始页，将获取到的城市楼盘起始页链接循环放入crwa（）中，分别获取每一个城市的楼盘数据。在crwa（）中，通过URL管理器（url_manager.py）对列表页链接进行管理，然后对每一个列表页页面下载(html_downloader.py)后，进行解析（html_parser.py），解析的过程中爬取了楼盘的名称、详情页链接、地址、价格四个字段，并获取了页面最下方分页链接，该链接是爬虫不断爬取数据的url来源。最后输出（html_outputer.py）到excel（output_excel（））中或mysql（output_mysql（））数据库中。

下面开始代码部分：

首先是主程序spider_main.py：

# coding=utf-8 __author__ = 'zyx' import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object): def __init__(self): self.urls=url_manager.UrlManager()#管理URL self.downloader=html_downloader.HtmlDownloader()#下载URL内容 self.parser=html_parser.HtmlParser()#解析URL内容 self.outputer=html_outputer.HtmlOutputer()#输出获取到的内容 #获取待爬取城市链接 def CityUrl_Crwa(self,root_url): html_cOnt=self.downloader.download(root_url) cityurls_list=self.parser.cityurlparser(html_cont) return cityurls_list #爬虫主体程序 def crwa(self,city_url): count=0 self.urls.add_new_url(city_url)#将根链接首先放入page页urllist while self.urls.has_new_url(): count=count+1 try: new_url=self.urls.get_new_url()#获取新的链接 html_cOnt=self.downloader.download(new_url)#下载页面内容 new_urls, new_data ,house_city= self.parser.parse(new_url, html_cont)#解析页面内容 self.urls.add_new_urls(new_urls) #self.outputer.output_excel(new_data,house_city)#写入excel self.outputer.output_mysql(new_data,house_city)#写入mysql print "第",count,"个网页【",new_url,"】输出成功--------------" except: self.urls.add_false_url(new_url)#如果解析失败，则将url放入失败列表 print "第",count,"个网页【",new_url,"】爬取失败，将会被重新爬取,失败次数过多将会被舍弃-------------" count=count-1 self.urls.release_urllist()#解析并输出完一个城市后，释放page页urllist if __name__=="__main__": obj_spider=SpiderMain() root_url="http://newhouse.wuhan.fang.com/house/s/b81-b91/" city_urls=obj_spider.CityUrl_Crwa(root_url) for city_url in city_urls: obj_spider.crwa(city_url)

最开始尝试爬取的是一个城市的数据，成功后就想着爬取所有城市数据。这时候，第一个方案想的是将所有城市的列表页链接从网上人工弄下来，人工构建好以后，放入city_url.txt文档，用程序读txt里面的城市链接，并进行爬取。虽然这个也能够完成任务，但是为了体现出爬虫的自主性，于是第二个方案是用程序自动爬取城市url，爬完城市url后，再对每一个城市的列表也进行爬取。于是产生了CityUrl_Crwa（）和crwa（）。

url管理器：url_manager.py

#coding=utf8 __author__ = 'zyx' class UrlManager(object): def __init__(self): self.new_urls=set() self.old_urls=set() self.false_urls=[] def add_new_url(self, url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) def add_new_urls(self, urls): if urls is None or len(urls)==0: return for url in urls: self.add_new_url(url) def has_new_url(self): return len(self.new_urls)!=0 def get_new_url(self): new_url=self.new_urls.pop() self.old_urls.add(new_url) return new_url #将解析失败的URL重新放入url列表进行解析 def add_false_url(self,url): #如果一个URL被反复循环爬取多次失败，就放弃该url if url is None or self.false_urls.count(url)>4: return self.false_urls.append(url) self.old_urls.remove(url) self.add_new_url(url) #每爬取完一个城市，清空old_url和false_urls列表 def release_urllist(self): if len(self.new_urls)==0: self.old_urls.clear() self.false_urls=[]

在Python开发简单爬虫视频教程该教程里面没有后两个方法add_false_url（）和release_urllist（），设计这个两个方法的目的是因为在测试的过程中，发现有些页面列表页可能会存在一次解析不成功的行为，特别是网速不太好的时候。因此增加了一个解析失败的方法add_false_url，可以对这种列表页进行反复解析，测试的过程中发现一般最多解析3次就会爬取得到该页面数据。release_urllist（）的设计是为了爬取完一个城市的页面，就释放已有的列表队列。

下载器：html_downloader.py

# coding=utf-8 __author__ = 'zyx' import requests class HtmlDownloader(object): def download(self, url): if url is None: return None html=requests.get(url) html=html.text.encode(html.encoding).decode("gbk").encode("utf8") return html

该功能较为简单，就是使用requests获取页面内容。需要注意的是爬虫中的会普遍遇到的坑，即页面编码问题，反正我是在此摔了大跟头，因为涉及到后面存储到数据库中，页面编码、数据库编码问题折腾了我好几天，一度难以推进，好在最后还是解决了。

解析器：html_parser.py

#coding=utf8 __author__ = 'zyx' import urlparse from bs4 import BeautifulSoup import re class HtmlParser(object): def cityurlparser(self,html_cont): soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf8') city_urls=set() linklist=soup.find('div',class_="city20141104").find_all('a',href=True) [city_urls.add(city_url["href"]+"b81-b91/") for city_url in linklist] return city_urls def parse(self,page_url,html_cont): if page_url is None or html_cont is None: return soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf8') new_urls=self._get_new_urls(page_url,soup) new_data=self._get_new_data(soup) city=self._get_city(soup) return new_urls,new_data,city #获取分页链接 def _get_new_urls(self,page_url,soup): new_urls=set() links=soup.find('div',class_="page").find_all('a',href=re.compile(r"/house/s/b81-\w+")) for link in links: new_url=link['href'] new_full_url=urlparse.urljoin(page_url,new_url) new_urls.add(new_full_url) return new_urls #获取页面内容 def _get_new_data(self,soup): res_data=[] nodes=soup.find_all('div',class_="nlc_details") for node in nodes: house_data={} house_name=node.find('div',class_="nlcd_name").get_text() house_data['house_name']=''.join(house_name.split()) house_tag=node.find('div',class_="nlcd_name").find('a',href=True).get("href") house_data['house_tag']=''.join(house_tag.split()) try: house_address=node.find('div',class_="address").get_text() house_data['house_address']=''.join(house_address.split()) except: house_data['house_address']="" try: house_price=node.find('div',class_="nhouse_price").get_text() house_data['house_price']=''.join(house_price.split()) except: house_data['house_price']="" res_data.append(house_data) return res_data def _get_city(self,soup): house_city=soup.find('div',class_="s4Box").get_text() return house_city

解析部分主要使用了BeautifulSoup解析页面内容，urlparse组合新的城市分页链接，re匹配href。_get_new_urls（）获取分页链接，放入new_url队列中，供爬虫爬取相关页面使用，这也是这个爬虫程序不断爬取新的页面url来源。_get_new_data（）获取列表中每一个楼盘的数据。由于价格和地址两个字段，有些楼盘有缺失，于是做了简单的处理。_get_city（）获取当前爬取的城市字段。

最后是输出器：html_outputer.py

#coding=utf8 __author__ = 'zyx' import MySQLdb import xlrd from xlutils.copy import copy import time class HtmlOutputer(object): #写入EXCEL def output_excel(self,new_data,house_city): file=xlrd.open_workbook("soufang.xls",formatting_info=True) #获取已有sheet的行数 nrow=file.sheets()[0].nrows if nrow!=0: nrow==nrow+1 #复制原有sheet copy_file=copy(file) sheet=copy_file.get_sheet(0) #插入数据 for row,item in enumerate(new_data): sheet.write((row+nrow),4,house_city) for i,value in enumerate(item.values()): sheet.write((row+nrow),i,value) copy_file.save('soufang.xls') #写入数据库 def output_mysql(self,new_data,house_city): db=MySQLdb.connect(host="localhost",user="root",passwd="root",db="test",charset="utf8") cursor=db.cursor() try: for item in new_data: values=item.values() sql=("insert into SouFang (HouseAddr,HouseTag,HouseName,HousePrice,HouseCity,CrawDate) values('%s','%s','%s','%s','%s','%s')" %(values[0].encode("utf8"),values[1].encode("utf8"), values[2].encode("utf8"),values[3].encode("utf8"), house_city.encode("utf8"),time.strftime('%Y-%m-%d',time.localtime(time.time())).encode("utf8")) ) cursor.execute(sql) db.commit() except: print item["house_name"],"false" db.rollback()#发生错误时回滚 db.close()

输出方式设计了excel和mysql两种数据存储格式。存储到数据库中需要注意格式编码的问题。本次采集共获得2W+条数据：

—————以下为学习python的过程杂记，不感兴趣的小伙伴可自行忽略—————————

校招进了某国企，8月只身来到杭州闯荡。没有任何亲人朋友，有的只是彼此陌生的小伙伴。国企二次分配，去了杭州某县城，巨大的落差感觉人生跌倒了最低谷。不感兴趣的工作内容，小县城慢节奏的无聊生活，以及孤身闯荡的形单影只，把刚参加工作的兴奋蹂躏的粉碎。在听说有个早几个月来的前辈，没干够一周就辞职的光辉事迹后，内心不甘的小人儿冲破了枷锁，在女友和家人的支持下开始骑驴找马，一边学习python，一边寻找自己喜欢的工作。就这样开始走上了python的不归路。

python的学习首要的问题是不知道如何下手。说来惭愧，由于大学期间就系统的学过C，连JAVA都没学过，所以基础并不怎么好。但是自己却在一些项目中多少接触或自学过php，jquery，css，java等，但是却都是由于缺乏具体的项目实践，学的半吊子。python学习的过程中，最开始是想着跟着视频学，为此在网上找了一堆视频，但是发现看视频太慢了。于是放弃了，转战书籍资料，开始跟着书本学习python语法。有幸我们身在一个互联网的时代，信息获取廉价又方便，知乎中的知友提供了很多帮助，很多关于python学习的问答给予了方向。这里关于python基础语法的学习资料推荐慕课网的Python入门_python入门视频教程和python进阶视频教程，以及该网站上python其他的视频，都讲的还不错，至少对我受益匪浅。另外就是Python教程 &＃8211; 廖雪峰的官方网站廖老师的这个网站上的python资料也是很不错，在基础知识上通熟易懂，受益良多。

与大多数程序语言的学习过程相类似，学习了基础语法其实还是不会写程序。当我学完Python以后，我仍然是看不懂别人写的代码，当然自己也不懂如何写大块大块的代码。(＞﹏＜)。于是乎陷入了纠结中。于是乎疯狂在知乎上各种看别人的学习心得、学习路径。其中有位大神的回答让我茅塞顿开：“不要问怎么入门，直接上路就好了”，说的好像很有道理。于是乎就参照指数上各位大神推荐的学习路径，找到了一份python小程序的学习案例GitHub &＃8211; Yixiaohan/show-me-the-code: Python 练习册，每天一个小程序，号称100个，实际上我没发现100个。管他有没有100个，直接上路开搞。就这样，对着这些小程序就开始了python的编程学习之路。学习的过程是痛苦的，拿着一个小案例，想了半天也不知道该如何下手，一脸懵逼。后来就想想，既然不会写，那就默写好了，先把对方的答案弄出来看一遍，看两遍&＃8230;.看懂记住为止，然后再pycharm中就默写了起来，默写一遍不对，再看再默写，直到能够实现。在看的过程中就需要去拆解没一行程序，为什么是这样写，为什么可以这样写，不懂的就去查相应的方法函数，一遍一遍又一遍。慢慢的默写了几个小程序之后，就有了点感觉，再然后就能自己写几句，不断的查阅资料去实现一个小的功能，或在别人已完成的基础上改变一些实现语句、方法。在这过程中学习了对文件的操作，对数据库，对excel的操作等，写了一个实现tfidf的渣渣代码等等，后来才知道有相关的tfidf包可以用。。。。。

再后来就想到挑战一下python爬虫，因为我的目的是要学习数据分析，数据分析的前提是数据，因此在有一定感觉和写作代码的基础上又开始了爬虫的学习。最开始想着的是对QQ空间数据的爬取，分析一下自己好友的空间说说数据，但是后来发现需要模拟登陆，很是麻烦，而且还是动态页面。于是只好先妥协，学学静态页面的数据抓取。于是乎跟着Python开发简单爬虫视频教程上面相关的一些课程慢慢学习爬虫的知识。最开始是跟着视频里面的教学内容，实现了对百度百科内容的获取，但是后来一想不甘心就这样跟着别人做，想着自己写一个静态的爬虫。以什么为对象呢，刚好各地方出了房产的一些政策，那就爬房产数据好了。于是乎白天上班，晚上加班学习写爬虫，但是由于自身能力有限，经过大半个月，才逐渐成型，且经过多次修改和改善相关功能，才成为现在的这只虫虫(＾－＾)V。程序中也还有诸多问题没解决，比如突然断网了，就TM得重新爬/(ㄒoㄒ)/~~，还有如何实现增量爬取也没搞定。。。。

接下来想继续学习一些爬虫框架，学习抓取动态页面数据，学习模拟登陆等等，同时学习数据分析、机器学习、数据可视化相关包。

任重道远，且行且努力吧O(∩_∩)O~~

推荐阅读

int
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
go
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
int
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
foreach
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
default
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
hash
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
go
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
go
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
int
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
range
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
go
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
int
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
range
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
int
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49

我的生活我做主哦耶_266

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章