python写爬虫3MongoDB数据缓存(采集58出租房信息)

作者：灵123456妞子 | 来源：互联网 | 2023-07-06 08:28

python写爬虫3-MongoDB数据缓存(采集58出租房信息)有时，我们下载某个页面并抓取部分数据后，之后可能还会需要重新下载该页面，抓取其他数据。对于小网站而言，这不算什么大

python写爬虫3-MongoDB数据缓存(采集58出租房信息)

有时，我们下载某个页面并抓取部分数据后，之后可能还会需要重新下载该页面，抓取其他数据。对于小网站而言，这不算什么大问题；但对于那些拥有百万网页的网站来说，重新爬取可能需要耗费大量时间。因此，我们可以对已爬取的网页进行缓存，让每个页面只下载一次。

本文代码只是实现了数据的存储与获取，与上述案例实情不符
开发环境：
1.硬件mac
2.python2.7
3.MongoDB3.4.2

NoSQL即Not Only SQL,通常是无模式的，NoSQL包含列数据存储（HBase）,键值对存储（Redis），面向文档的数据库（MongoDB），图形数据库（Neo4j）;本文采用MongoDB，MongoDB有个功能：为数据设定时间，当到达设定时间后，MongoDB可自动为我们删除记录。

需注意，MongoDB缓存无法按设定时间精确清理过期记录，会存在1分钟内的延迟，这是MongoDB的运行机制造成的

1.安装MongoDB及对应的Python封装库

mac下安装MongoDB命令：

brew update brew install mongodb pip install pymongo

2.配置MongoDB

创建默认MongoDB数据库文件存放目录

mkdir -p /data/db

记得给此目录加用户的读写权限，不然会报权限错误；其他配置，请参见官方文档。

3.启动MongoDB

mongod

4.MongoDB缓存实现

#!/usr/bin/env python # -*- coding: utf-8 -*- import pickle import zlib from bson.binary import Binary from datetime import datetime, timedelta from pymongo import MongoClient class MongoCache: def __init__(self, client=None, expires=timedelta(days=1)): self.client = MongoClient('localhost', 27017) self.db = self.client.cache self.db.webpage.create_index('timestamp', expireAfterSecOnds=expires.total_seconds()) def __getitem__(self, item): record = self.db.webpage.find_one({'id': item}) if record: return pickle.loads(zlib.decompress(record['result'])) # 压缩数据 else: return None # raise KeyError(item + 'dose not exist') def __setitem__(self, key, value): record = {'result': Binary(zlib.compress(pickle.dumps(value))), 'timestamp': datetime.utcnow()} self.db.webpage.update({'id': key}, {'$set': record}, upsert=True)

5.爬虫编写

先看一下http://bj.58.com/zufang/页面结构：
《python写爬虫3-MongoDB数据缓存(采集58出租房信息)》
再看一下出租房详细页面结构：

下面开始敲代码：

#! /usr/bin/env python # -*- coding:utf-8 -*- import urllib2 import lxml.html import time from lxml.cssselect import CSSSelector from MongoCache import MongoCache def download(url, user_agent='Google', num_retries=2): """下载整个页面""" print 'Downloading:', url # 设置用户代理 headers = {'User-agent': user_agent} request = urllib2.Request(url, headers=headers) try: html = urllib2.urlopen(request).read() except urllib2.URLError as e: print 'Downloading error:', e.reason html = None # 只有在服务器报500-600错误时，才会重试下载，仅重试2次 if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code <600: return download(url, num_retries-1) return html def get_data(url): """从详细页面获取各字段数据""" # 如果缓存中有该页面数据，则直接获取使用；否则，先下载页面，再使用 cache = MongoCache() if not cache.__getitem__(url): html_text_detail = download(url) if not html_text_detail: pass else: cache.__setitem__(url, html_text_detail) else: print 'Exists:', url html_text_detail = cache.__getitem__(url) try: # 获取个字段数据 tree = lxml.html.fromstring(html_text_detail) house_title = CSSSelector('div.main-wrap > div.house-title > h1') house_pay_way1 = CSSSelector('div.house-pay-way > span:nth-child(1)') house_pay_way2 = CSSSelector('div.house-pay-way > span:nth-child(2)') print house_title(tree)[0].text_content() print '%s|%s' % (house_pay_way1(tree)[0].text_content(), house_pay_way2(tree)[0].text_content()) for i in range(7): for j in range(2): css = 'div.house-desc-item > ul.f14 > li:nth-child(%s) > span:nth-child(%s)' % (i+1, j+1) house_info = CSSSelector(css) print house_info(tree)[0].text_content().replace(' ', '') except TypeError as e: print 'HTML文本发生错误：%s' % e except IndexError as e: print '获取详细数据发生错误：%s' % e def get_url(html): """获取需爬取数据的链接集""" tree = lxml.html.fromstring(html) sel = CSSSelector('div.mainbox > div.main > div.content > div.listBox > ul.listUl > li > div.des > h2 > a') url_list = [] for i in sel(tree): if i.get('href') not in url_list: url_list.append(i.get('href')) return url_list if __name__ == '__main__': url_index = 'http://bj.58.com/chuzu/' html_text_list = download(url_index) url_list = get_url(html_text_list) for url_detail in url_list: time.sleep(2) # 延时2s get_data(url_detail)

执行效果图：(左屏为数据抓取输出；右屏为MongoDB数据库)
《python写爬虫3-MongoDB数据缓存(采集58出租房信息)》

推荐阅读

web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
cmd
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
byte
Python 数据库操作指南：MySQL 与 Redis 实战技巧

本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先，针对 MySQL 数据库，通过 `pymysql` 模块展示了如何连接和操作数据库，包括建立连接、执行查询和更新等常见操作。接着，文章深入探讨了 Redis 的基本命令和高级功能，如键值存储、列表操作和事务处理。此外，还提供了多个实际案例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 12:55:01
web
从CodeIgniter中提取图像处理组件

本指南旨在帮助开发者在未使用CodeIgniter框架的情况下，如何独立使用其强大的图像处理功能，包括图像尺寸调整、创建缩略图、裁剪、旋转及添加水印等。 ... [详细]

蜡笔小新 2024-11-20 19:57:35
web
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11
byte
MySQL Administrator: 监控与管理工具

本文介绍了 MySQL Administrator 的主要功能，包括图形化监控 MySQL 服务器的实时状态、连接健康度、内存健康度以及如何创建自定义的健康图表。此外，还详细解释了状态变量和系统变量的管理。 ... [详细]

蜡笔小新 2024-11-18 08:20:16
import
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41
grid
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
web
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
config
CRZ.im：一款极简的网址缩短服务及其安装指南

本文介绍了一款名为CRZ.im的极简网址缩短服务，该服务采用PHP和SQLite开发，体积小巧，约10KB。本文还提供了详细的安装步骤，包括环境配置、域名解析及Nginx伪静态设置。 ... [详细]

蜡笔小新 2024-11-21 13:50:47
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
email
在CentOS上部署和配置FreeSWITCH

在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法，包括必要的依赖项安装、编译和配置过程。此外，还提供了常见的配置选项和故障排除技巧，帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]

蜡笔小新 2024-11-01 09:14:29
email
Linux学习精华：程序管理、终端种类与命令帮助获取方法综述

Linux学习精华：程序管理、终端种类与命令帮助获取方法综述 ... [详细]

蜡笔小新 2024-10-28 13:45:59
web
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05
dll
.NET Core 2.* 开发者指南：全面学习与实践手册

本书《.NET Core 2.* 开发者指南》是面向开发者的全面学习与实践手册，涵盖了从基础到高级的各个层面。书中详细解析了 .NET Core 的核心概念，包括如何创建 .NET Core 网站，并通过视频教程直观展示操作过程。此外，还深入探讨了 Startup 类的作用、项目目录结构的组织方式以及如何在应用中使用静态文件等内容。对于希望深入了解 .NET Core 架构和开发技巧的开发者来说，本书提供了丰富的实践案例和详尽的技术指导。 ... [详细]

蜡笔小新 2024-10-27 13:05:35

灵123456妞子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章