当前位置: 开发笔记 > 编程语言 > 正文

热门文章_Scrapy学习第五课

作者：giee旗舰店_姬儿皮衣_256 | 来源：互联网 | 2023-09-05 08:06

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Scrapy学习第五课相关的知识，希望对你有一定的参考价值。python爬虫框架scrapy学习第五课

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Scrapy学习第五课相关的知识，希望对你有一定的参考价值。

python爬虫框架scrapy学习第五课

任务:爬取简书30日热门文章信息&＃xff0c;数据存储在MongoDB库中
执行&＃xff1a;爬虫操作及数据存储
- 安装mongdb
- python 连接mongodb驱动PyMongo
- 爬虫实例
结果&＃xff1a;爬取结果展示
问题总结
- DEBUG: Crawled (403) XXX

任务:爬取简书30日热门文章信息&＃xff0c;数据存储在MongoDB库中

简书热门30日

执行&＃xff1a;爬虫操作及数据存储

安装mongdb

下载mongodb安装包。由于尝试官网下载一直失败&＃xff0c;故从该mongodb下载链接处下载安装包。
参照mongoDB入门与安装进行安装。这里需要注意的是msi文件安装完成后&＃xff0c;自带data文件夹&＃xff0c;因此不需要额外新建数据存放目录。
以管理员身份启动mongodb服务。注意执行net start mongodb一定是在管理员身份下运行cmd/powershell,否则会出现没有访问权限/访问被拒绝的错误。

python 连接mongodb驱动PyMongo

安装PyMongo需执行如下命令

pip install pymongo

在python文件需要连接mongodb处&＃xff0c;导入

import pymongo

爬虫实例

具体爬虫文件——jian.py

# -*- coding: utf-8 -*- import scrapy from JianShu.items import JianshuItem class JianSpider(scrapy.Spider): name &＃61; &＃39;jian&＃39; allowed_domains &＃61; [&＃39;www.jianshu.com&＃39;] start_urls &＃61; (&＃39;https://www.jianshu.com/trending/monthly?utm_medium&＃61;index-banner-s&utm_source&＃61;desktop&＃39;,) def parse(self, response): item &＃61; JianshuItem() content &＃61; response.xpath(&＃39;//div[&＃64;class&＃61;"content"]&＃39;) for each in content: item[&＃39;title&＃39;] &＃61; each.xpath(&＃39;./a/text()&＃39;)[0].extract() abstract &＃61; each.xpath(&＃39;./p/text()&＃39;)[0].extract() abstract &＃61; abstract.replace("\\n", "") abstract &＃61; abstract.strip() item[&＃39;abstract&＃39;] &＃61; abstract item[&＃39;nickname&＃39;] &＃61; each.xpath(&＃39;./div/a/text()&＃39;)[0].extract() item[&＃39;link&＃39;] &＃61; "https://www.jianshu.com" &＃43; each.xpath(&＃39;./a/&＃64;href&＃39;)[0].extract() yield item

items.py

import scrapy class JianshuItem(scrapy.Item): #文章标题 title &＃61; scrapy.Field() #摘要 abstract &＃61; scrapy.Field() #作者 nickname &＃61; scrapy.Field() #文章链接 link &＃61; scrapy.Field()

pipelines.py

import pymongo from scrapy.conf import settings class JianshuPipeline(object): def __init__(self): #主机 host &＃61; settings["MONGODB_HOST"] #端口 port &＃61; settings["MONGODB_PORT"] #数据库名 dbname &＃61; settings["MONGODB_DBNAME"] #数据表 sheetname &＃61; settings["MONGODB_SHEETNAME"] #创建MONGODB数据库 client &＃61; pymongo.MongoClient(host&＃61;host, port&＃61;port) #指定数据库 mydb &＃61; client[dbname] #指定数据表 self.post &＃61; mydb[sheetname] def process_item(self, item, spider): data &＃61; dict(item) self.post.insert(data) return item

settings.py

# Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT &＃61; &＃39;Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;&＃39; ITEM_PIPELINES&＃61; &＃39;JianShu.pipelines.JianshuPipeline&＃39;:300 MONGODB_HOST &＃61; "127.0.0.1" MONGODB_PORT &＃61; 27017 MONGODB_DBNAME &＃61; "jianshu" MONGODB_SHEETNAME &＃61; "jianshuPaper"
结果&＃xff1a;爬取结果展示

爬取到的数据存储在mongodb数据库中&＃xff0c;查看新建的数数据库“jianshu”&＃xff0c;数据表“jianshuPaper”和表内容是否存在&＃xff0c;具体操作如下。

连接数据库
查看已有数据库
查看库jianshu的表
查看表jianshuPaper内容

问题总结

DEBUG: Crawled (403) XXX

解决&＃xff1a;settings.py文件中增加如下代理

USER_AGENT &＃61; ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;’

推荐阅读

header
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
install
scrapyredis分布式爬虫

scrapyredis分布式爬虫 ... [详细]

蜡笔小新 2024-12-02 12:00:49
callback
Flutter 高德地图插件使用指南

本文档详细介绍了如何在Flutter项目中集成和使用高德地图插件，包括安装、配置及基本使用方法。 ... [详细]

蜡笔小新 2024-12-02 14:05:24
join
实现割绳子游戏(来源网络)

转载网址：http:www.open-open.comlibviewopen1326597582452.html参考资料：http:www.cocos2d-ip ... [详细]

蜡笔小新 2024-12-02 19:52:30
input
TensorFlow核心函数解析与应用

本文详细介绍了TensorFlow中几个常用的基础函数及其应用场景，包括常量创建、张量扩展以及二维卷积操作等，旨在帮助开发者更好地理解和使用这些功能。 ... [详细]

蜡笔小新 2024-12-02 18:09:09
install
Python图像处理库概览

本文详细介绍了Python中常用的图像处理库，包括scikit-image、Numpy、Scipy、Pillow、OpenCV-Python、SimpleCV、Mahotas、SimpleITK、pgmagick和Pycairo，旨在帮助开发者和研究人员选择合适的工具进行图像处理任务。 ... [详细]

蜡笔小新 2024-12-02 17:15:21
list
Iris 开发环境配置指南 (最新 Go & IntelliJ IDEA & Iris V12)

本指南详细介绍了如何在最新的 Go 语言环境及 IntelliJ IDEA 中配置 Iris V12 框架，适合初学者和有经验的开发者。文章提供了详细的步骤说明和示例代码，帮助读者快速搭建开发环境。 ... [详细]

蜡笔小新 2024-12-02 13:02:05
java
Smali代码动态调试指南

本文介绍了如何通过一系列具体步骤实现Smali代码的动态调试，包括环境搭建、工具安装及调试过程中的关键操作。 ... [详细]

蜡笔小新 2024-12-02 11:43:35
list
关于python中的字符串,python里面字符串

关于python中的字符串,python里面字符串 ... [详细]

蜡笔小新 2024-11-28 12:09:04
js
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
install
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
header
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
header
《Python3 网络爬虫开发实战》:高效实用的 MongoDB 文档存储

NoSQL，全称NotOnlySQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL ... [详细]

蜡笔小新 2023-10-13 12:58:52
js
C++ STL容器功能概览与异常安全保证

本文详细介绍了C++标准模板库（STL）中各容器的功能特性，并深入探讨了不同容器操作函数的异常安全性。 ... [详细]

蜡笔小新 2024-12-03 15:10:39
js
linux图形图像三剑客,Linux必会的三剑客命令

grep、sed、awk一、grep的用法1、grep简介grep是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep包 ... [详细]

蜡笔小新 2024-12-03 13:02:44

giee旗舰店_姬儿皮衣_256

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章