当前位置: 开发笔记 > 编程语言 > 正文

python爬虫scrapy框架爬取网页数据_Python爬虫框架Scrapy学习笔记2爬取Mininova网站种子文件信息...

作者：Ruby | 来源：互联网 | 2023-10-12 18:17

1.任务描述目标网站截图：-------------------------------------可以看到种子文件的列表，这些链接的url可以用正

1. 任务描述

目标网站截图&＃xff1a;

-------------------------------------

可以看到种子文件的列表&＃xff0c;这些链接的url可以用正则表达式表示为&＃xff1a; /tor/\d&＃43;

详情页截图

截图中的&＃xff1a;资源名称, 资源大小&＃xff0c;和资源描述就是我们要抓取的信息。

2. 定义scrapy item.

mininova.pyimport scrapy

class TorrentItem(scrapy.Item):

url &＃61; scrapy.Field()

name &＃61; scrapy.Field()

description &＃61; scrapy.Field()

size &＃61; scrapy.Field()

3. 查看网页源文件&＃xff0c;确定我们要抓取的内容的XPath表达式。对XML Path Language不熟悉的话可以参考&＃xff1a;http://www.w3.org/TR/xpath/ItemXPath

name//hi/text()

size//div[&＃64;id&＃61;&＃39;specifications&＃39;]/p[2]/text()[2]

descripthin//div[&＃64;id&＃61;&＃39;description&＃39;]

4. 最终的代码为&＃xff1a;

mininova.pyimport scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors import LinkExtractor

class TorrentItem(scrapy.Item):

url &＃61; scrapy.Field()

name &＃61; scrapy.Field()

description &＃61; scrapy.Field()

size &＃61; scrapy.Field()

class MininovaSpider(CrawlSpider):

name &＃61; &＃39;mininova&＃39;

allowed_domains &＃61; [&＃39;mininova.org&＃39;]

start_urls &＃61; [&＃39;http://www.mininova.org/yesterday&＃39;]

rules &＃61; [Rule(LinkExtractor(allow&＃61;[&＃39;/tor/\d&＃43;&＃39;]), &＃39;parse_torrent&＃39;)]

def parse_torrent(self, response):

torrent &＃61; TorrentItem()

torrent[&＃39;url&＃39;] &＃61; response.url

torrent[&＃39;name&＃39;] &＃61; response.xpath("//h1/text()").extract()

torrent[&＃39;description&＃39;] &＃61; response.xpath("//div[&＃64;id&＃61;&＃39;description&＃39;]").extract()

torrent[&＃39;size&＃39;] &＃61; response.xpath("//div[&＃64;id&＃61;&＃39;specifications&＃39;]/p[2]/text()[2]").extract()

return torrent

5. 运行代码

将mininova.py复制到C:\

打开cmd&＃xff0c;输入命令&＃xff1a; scrapy runspider --output&＃61;spider_out.json mininova.py

文件的后缀名很重要&＃xff0c;scrapy会根据后缀名确定输出格式

6. 查看输出

推荐阅读

import
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
import
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
import
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
import
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
import
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
import
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
import
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
import
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
import
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
import
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
import
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
import
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
import
解决无法从selenium导入webdriver的错误

在学习网页爬虫时，使用Selenium进行自动化操作。初次安装selenium模块后，第二天运行代码时遇到了ImportError：无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-25 08:55:45
int
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54

Ruby

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章