用scrapy抓取网站图片

作者：sysv | 来源：互联网 | 2023-07-31 09:43

学习Python，就避免不了爬虫，而Scrapy就是最流行的一个。你可以爬取文字信息（如招聘职位信息，网站评论等࿰

学习Python&＃xff0c;就避免不了爬虫&＃xff0c;而Scrapy就是最流行的一个。你可以爬取文字信息&＃xff08;如招聘职位信息&＃xff0c;网站评论等&＃xff09;&＃xff0c;也可以爬取图片&＃xff0c;比如看到一些好的网站展示了很多精美的图片&＃xff08;这里只用作个人学习Scrapy使用&＃xff0c;不作商业用途&＃xff09;&＃xff0c;可以download下来。好了&＃xff0c;不多说&＃xff0c;现在开始一个最简单的图片爬虫。

首先&＃xff0c;我们需要一个浏览器&＃xff0c;方便查看html路径&＃xff0c;这里推荐使用火狐开发者版&＃xff08;https://www.mozilla.org/en-US/firefox/developer/&＃xff09; 这个版本的火狐logo是蓝色的哦

装了这个&＃xff0c;你不需要在去装firebug&＃xff0c;firepath之类的插件

这里的例子&＃xff0c;以花瓣网为例&＃xff0c;抓取http://www.meisupic.com/topic.php 这个页面的图片。

Step 1: Open Firefox and access with above URL, navigate to Inspector tab, click arrow and then select a picture, you then can see the location of selected picture (see below)
用scrapy抓取网站图片

在这里我们发现&＃xff0c;打开的页面包含了很多主题的图片&＃xff0c;然后每个主题对应一个图片链接地址&＃xff0c;打开之后&＃xff0c;就是这个主题下面对应的图片。那我们的目的是抓取每一个主题下面的图片&＃xff0c;所以&＃xff0c;第一步要获取每个主题的链接&＃xff0c;打开这个链接&＃xff0c;在查看图片的地址&＃xff0c;然后一个一个download。现在大概知道了我们这个例子有两层结构&＃xff1a;①访问主页&＃xff0c;展示的是不同主题的图片 ②打开每一个主题&＃xff0c;展示的这个主题下面的图片

现在开始创建一个scrapy的工程&＃xff08;可以参考之前的文章https://blog.51cto.com/waytogo/2092238&＃xff09;

这里我创建了一个huaban2的project&＃xff08;之前有做另一个&＃xff0c;所以这里命名为huaban2&＃xff0c;想写什么名都可以&＃xff09;&＃xff0c;然后再创建一个spider&＃xff0c;begin是一个command line的文件&＃xff0c;里面是就scrapy crawl meipic的命令&＃xff0c;一会再看
用scrapy抓取网站图片

Step 2: Implement a spider

# -*- coding: utf-8 -*- from huaban2.items import Huaban2Item import scrapyclass HuabanSpider(scrapy.Spider):name &＃61; &＃39;meipic&＃39;allowed_domains &＃61; [&＃39;meisupic.com&＃39;]baseURL &＃61; &＃39;http://www.meisupic.com/topic.php&＃39;start_urls &＃61; [baseURL]def parse(self, response):node_list &＃61; response.xpath("//div[&＃64;class&＃61;&＃39;body glide&＃39;]/ul")if len(node_list) &＃61;&＃61; 0:returnfor node in node_list:sub_node_list &＃61; node.xpath("./li/dl/a/&＃64;href").extract()if len(sub_node_list) &＃61;&＃61; 0:returnfor url in sub_node_list:new_url &＃61; self.baseURL[:-9] &＃43; urlyield scrapy.Request(new_url, callback&＃61;self.parse2)def parse2(self, response):node_list &＃61; response.xpath("//div[&＃64;id&＃61;&＃39;searchCon2&＃39;]/ul")if len(node_list) &＃61;&＃61; 0:returnitem &＃61; Huaban2Item()item["image_url"] &＃61; node_list.xpath("./li/a/img/&＃64;data-original").extract()yield item

解释一下这段代码&＃xff1a;在用 scrapy genspider meipic meisupic.com 生成spider之后&＃xff0c;默认的结构已经写好了&＃xff0c;这里我们设置了一个baseURL, parse是默认的方法。从上面的分析中得知&＃xff0c;我们需要拿到每一个主题的链接&＃xff0c;所以用xpath定位

node_list &＃61; response.xpath("//div[&＃64;class&＃61;&＃39;body glide&＃39;]/ul")

这样我们得到一个selector对象&＃xff0c;赋给变量node_list,加个if判断一下&＃xff0c;如果没了就结束(return之后的代码都不会执行&＃xff0c;这个大家应该都知道&＃xff09;&＃xff0c;接着我们要取/ul/li/dl下面的a中的href&＃xff0c;取到之后&＃xff0c;用extract()&＃xff0c;返回一个list&＃xff0c;就是dl下面所有中的链接&＃xff0c;接下来&＃xff0c;我们需要拼接一个完整的URL&＃xff0c;然后请求这个URL&＃xff0c;用yield返回。因为我们真正要抓取的图片在第二层页面&＃xff0c;所以这里的回调函数&＃xff08;callback)调用一个parse2&＃xff08;这是自己定义的一个方法&＃xff09;&＃xff0c;parse2用来处理图片链接。同理&＃xff0c;parse2的response就是之前拼接的URL请求的页面返回的
用scrapy抓取网站图片

这里我们要到得到图片的地址&＃xff0c;就是//div[&＃64;id&＃61;&＃39;SearchCon2‘]/ul/li/a/img/&＃64;data-original,拿到地址之后&＃xff0c;把它给item&＃xff08;我们定义了item的字段&＃xff0c;用来存储图片的地址&＃xff09;,这样item返回给pipeline

items.py

import scrapyclass Huaban2Item(scrapy.Item):# define the fields for your item here like:# name &＃61; scrapy.Field()image_url &＃61; scrapy.Field()image_paths &＃61; scrapy.Field()

pipelines.py

from scrapy.pipelines.images import ImagesPipeline from scrapy.exceptions import DropItem import scrapyclass Huaban2Pipeline(ImagesPipeline):def get_media_requests(self, item, info):for image_url in item[&＃39;image_url&＃39;]:yield scrapy.Request(image_url)def item_completed(self, results, item, info):image_paths &＃61; [x["path"] for ok, x in results if ok]if not image_paths:raise DropItem("Item contains no image")item[&＃39;image_paths&＃39;] &＃61; image_pathsreturn item

因为要下载图片&＃xff0c;所以需要在settings.py里配置一个路径&＃xff0c;同时
需要的配置如下&＃xff0c;其他默认就好

MEDIA_ALLOW_REDIRECTS &＃61; True #因为图片地址会被重定向&＃xff0c;所以这个属性要为True IMAGES_STORE &＃61; "E:\\img" #存储图片的路径 ROBOTSTXT_OBEY &＃61; False #Robot协议属性要为False&＃xff0c;不然就不会抓取任何内容 ITEM_PIPELINES &＃61; {&＃39;huaban2.pipelines.Huaban2Pipeline&＃39;: 1, } #pipeline要enable&＃xff0c;不然不会出来pipeline的请求

最后&＃xff0c;我们写了一个begin.py的文件&＃xff0c;用来执行

from scrapy import cmdlinecmdline.execute(&＃39;scrapy crawl meipic&＃39;.split())

多说一点&＃xff0c;可以存储不同图片尺寸&＃xff0c;如果需要可以加属性在settings.py里

IMAGES_THUMBS &＃61; {&＃39;small&＃39;: (100, 100), &＃39;big&＃39;: (800, 1000)}

好了&＃xff0c;基本的都已经写好了&＃xff0c;可以开始执行了。

转:https://blog.51cto.com/waytogo/2109243

推荐阅读

java
JavaScript与DOM（上）——也适用于新手 – 深入理解JavaScript系列 23

本文是《JavaScript深度解析》系列文章第23篇(共51篇）文档对象模 ... [详细]

蜡笔小新 2023-10-11 22:37:09
java
JavaScript对象的打印内容?(复制) - Print content of JavaScript object? [duplicate]

Thisquestionalreadyhasananswerhere:这个问题已经有了答案:HowcanIdisplayaJavaScriptobje ... [详细]

蜡笔小新 2024-09-26 16:36:17
range
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
import
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
php
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
import
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
install
Ubuntu 7.10 常用软件安装指南

本文详细介绍了在Ubuntu 7.10操作系统上安装多种常用软件的方法，包括RAR压缩工具、即时通讯软件Pidgin、办公软件永中Office 2007试用版、多线程下载软件MultiGet及d4x、FTP客户端gFTP与FireFTP插件，以及P2P下载工具aMule。每部分都提供了具体的安装步骤和配置方法。 ... [详细]

蜡笔小新 2024-12-09 10:29:31
sum
PHP的前端用什么工具(2023年最新解答)

导读：今天编程笔记来给各位分享关于PHP的前端用什么工具的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： ... [详细]

蜡笔小新 2024-10-13 18:01:35
java
使用Firebug Lite（1.2）你会在生产网站中使用它吗？ - Using Firebug Lite (1.2) would you use it in production sites?

ItriedtouseFirebugLite(viathebookmarkletandalsoaddingittooneofmywebsites).我尝试使用Fi ... [详细]

蜡笔小新 2023-10-12 14:37:04
install
WPF/E CTP与SDK即将发布，引领RIA新时代？

Microsoft即将发布WPF/E的CTP（Community Technology Preview）和SDK，标志着RIA（Rich Internet Application）技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]

蜡笔小新 2024-12-16 16:06:18
python
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
java
深入理解动画队列

动画队列的设计目的是为了确保一系列任务能够按照预定顺序执行，每个任务只有在其前一个任务完成后才开始。这些任务既可以是同步的，也可以是异步的。本文将探讨jQuery动画系统中的队列机制，并介绍如何使用队列来优化动画效果。 ... [详细]

蜡笔小新 2024-12-07 10:26:02
java
深入解析stopPropagation与cancelBubble的区别

本文将详细介绍DOM事件处理中的两个重要方法——stopPropagation和cancelBubble，探讨它们的工作原理及在不同浏览器环境下的应用。 ... [详细]

蜡笔小新 2024-12-05 09:15:37
python
SonarQube配置与使用指南

本文档详细介绍了SonarQube的配置方法及使用流程，包括环境准备、样本分析、数据库配置、项目属性文件解析以及插件安装等内容，适用于具有Linux基础操作能力的用户。 ... [详细]

蜡笔小新 2024-12-02 17:00:28
sum
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27

sysv

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章