scrapy爬虫案例：用MongoDB保存数据

作者：dnjaskn | 来源：互联网 | 2023-02-05 20:35

爬取豆瓣电影top250movie.douban.comtop250的电影数据，并保存在MongoDB中。items.pyclassDoubanspiderItem(scrapy.

爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。

items.py

class DoubanspiderItem(scrapy.Item):
    # 电影标题
    title = scrapy.Field()
    # 电影评分
    score = scrapy.Field()
    # 电影信息
    cOntent= scrapy.Field()
    # 简介
    info = scrapy.Field()

spiders/douban.py

import scrapy
from doubanSpider.items import DoubanspiderItem


class DoubanSpider(scrapy.Spider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]
    start = 0
    url = 'https://movie.douban.com/top250?start='
    end = '&filter='
    start_urls = [url + str(start) + end]

    def parse(self, response):

        item = DoubanspiderItem()

        movies = response.xpath("//div[@class=\'info\']")

        for each in movies:
            title = each.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract()
            content = each.xpath('div[@class="bd"]/p/text()').extract()
            score = each.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
            info = each.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()

            item['title'] = title[0]
            # 以;作为分隔，将content列表里所有元素合并成一个新的字符串
            item['content'] = ';'.join(content)
            item['score'] = score[0]
            item['info'] = info[0]
            # 提交item

            yield item

        if self.start <= 225:
            self.start += 25
            yield scrapy.Request(self.url + str(self.start) + self.end, callback=self.parse)

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import json

import pymongo
from scrapy.utils.project import get_project_settings



class DoubanspiderPipeline(object):
    def __init__(self):
        settings = get_project_settings()
        # 获取setting主机名、端口号和数据库名
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        dbname = settings['MONGODB_DBNAME']

        # pymongo.MongoClient(host, port) 创建MongoDB链接
        client = pymongo.MongoClient(host=host, port=port)

        # 指向指定的数据库
        mdb = client[dbname]
        # 获取数据库里存放数据的表名
        self.post = mdb[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):
        data = dict(item)
        # 向指定的表里添加数据
        self.post.insert(data)
        return item

BOT_NAME = 'doubanSpider'

SPIDER_MODULES = ['doubanSpider.spiders']
NEWSPIDER_MODULE = 'doubanSpider.spiders'

ITEM_PIPELINES = {
        'doubanSpider.pipelines.DoubanspiderPipeline' : 300
        }

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'

# MONGODB 主机环回地址127.0.0.1
MONGODB_HOST = '127.0.0.1'
# 端口号，默认是27017
MONGODB_PORT = 27017
# 设置数据库名称
MONGODB_DBNAME = 'DouBan'
# 存放本次数据的表名称
MONGODB_DOCNAME = 'DouBanMovies'

效果：

scrapy爬虫案例：用MongoDB保存数据

推荐阅读

search
MongoDB Aggregates.group() 方法详解与编程实例

MongoDB Aggregates.group() 方法详解与编程实例 ... [详细]

蜡笔小新 2024-10-30 14:23:34
数组
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
split
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
php
HTML5 Web存储技术详解：从基础到应用全面解析

HTML5 Web存储技术是许多开发者青睐本地应用程序的重要原因之一，因为它能够实现在客户端本地存储数据。HTML5通过引入Web Storage API，使得Web应用程序能够在浏览器中高效地存储数据，从而提升了应用的性能和用户体验。相较于传统的Cookie机制，Web Storage不仅提供了更大的存储容量，还简化了数据管理和访问的方式。本文将从基础概念、关键技术到实际应用，全面解析HTML5 Web存储技术，帮助读者深入了解其工作原理和应用场景。 ... [详细]

蜡笔小新 2024-10-26 20:33:04
version
结语 | 《探索二进制世界：软件安全与逆向分析》读书笔记：深入理解二进制代码的逆向工程方法

结语 | 《探索二进制世界：软件安全与逆向分析》读书笔记：深入理解二进制代码的逆向工程方法 ... [详细]

蜡笔小新 2024-10-31 18:43:36
search
利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码，展示了如何利用爬虫技术获取微博内容和动态图片，为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者，本文具有较高的参考价值。 ... [详细]

蜡笔小新 2024-10-31 14:48:38
format
C#编程指南：实现列表与WPF数据网格的高效绑定方法

C#编程指南：实现列表与WPF数据网格的高效绑定方法 ... [详细]

蜡笔小新 2024-10-31 10:46:47
php
全面解析Java虚拟机：内存模型深度剖析

全面解析Java虚拟机：内存模型深度剖析 ... [详细]

蜡笔小新 2024-10-31 09:46:59
format
全面解析 HTML 中的 margin 属性及其应用

本文深入探讨了 HTML 中的 `margin` 属性，详细解析了其基本特性和应用场景。文章不仅介绍了 `margin` 的基本概念，还重点讨论了垂直外边距合并现象，并分析了 `margin` 在块级元素与内联元素中的不同表现。通过实例和代码示例，帮助读者全面理解 `margin` 的使用技巧和常见问题。 ... [详细]

蜡笔小新 2024-10-30 15:08:31
数组
Java 8 新增功能详解：Stream API 流处理技术

Java 8 引入了 Stream API，这一新特性极大地增强了集合数据的处理能力。通过 Stream API，开发者可以更加高效、简洁地进行集合数据的遍历、过滤和转换操作。本文将详细解析 Stream API 的核心概念和常见用法，帮助读者更好地理解和应用这一强大的工具。 ... [详细]

蜡笔小新 2024-10-30 11:50:09
version
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
format
【Python爬虫实操】不创作小说，专精网站内容迁移，超高效！（含源代码）

本文详细介绍了如何利用Python爬虫技术实现高效网站内容迁移，涵盖前端、后端及Android相关知识点。通过具体实例和源代码，展示了如何精准抓取并迁移网站内容，适合对Python爬虫实战感兴趣的开发者参考。 ... [详细]

蜡笔小新 2024-10-28 20:00:28
php
Python正则表达式详解：掌握数量词用法轻松上手

Python正则表达式详解：掌握数量词用法轻松上手 ... [详细]

蜡笔小新 2024-10-28 09:12:57
post
利用Requests库深入解析POST请求的发送方法与实践技巧

在前一篇文章中，我们介绍了如何使用Requests库发送GET请求。本文将深入探讨如何通过Requests库发送POST请求，包括参数格式、请求封装等关键技巧，并通过“历史上的今天”API实例进行详细说明。 ... [详细]

蜡笔小新 2024-10-27 15:02:24
version
Android开发常见问题汇总（含Gradle解决方案）第二篇

本文继续深入探讨Android开发中常见的问题及其解决方案，特别聚焦于Gradle相关的挑战。通过详细分析和实例演示，帮助开发者高效解决构建过程中的各种难题，提升开发效率和项目稳定性。 ... [详细]

蜡笔小新 2024-10-26 18:50:09

dnjaskn

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章