当前位置: 开发笔记 > 编程语言 > 正文

【scrapy】爬取汽车车型数据

作者：骏天天在线 | 来源：互联网 | 2024-09-25 05:55

汽车最近想在工作相关的项目上做技术改进，需要全而准的车型数据，寻寻觅觅而不得，所以就只能自己动手丰衣足食，到网上获（窃）得（取）数据了。汽车之家是大家公认的数据做的比较好的汽车网站

《【scrapy】爬取汽车车型数据》汽车

最近想在工作相关的项目上做技术改进，需要全而准的车型数据，寻寻觅觅而不得，所以就只能自己动手丰衣足食，到网上获（窃）得（取）数据了。

汽车之家是大家公认的数据做的比较好的汽车网站，所以就用它吧。（感谢汽车之家的大大们这么用心地做数据，仰慕）

俗话说的好，“十爬虫九python”，作为一只java狗，我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。

在写这个爬虫之前，我用urllib2,BeautifulSoup写了一个版本，不过效率太差，而且还有内存溢出的问题，作为python小白感觉很无力，所以用scrapy才是正道。

嗯，开搞。

准备工作

安装python，版本是2.7
安装scrapy模块, 版本是1.4.0

参考

汽车之家车型数据爬虫：这是我工程的代码，以下内容需要参照着代码来理解，就不贴代码在这里了。

Scrapy中文文档：这是Scrapy的中文文档，具体细节可以参照文档。感谢Summer同学的翻译。

Xpath教程：解析页面数据要用到xpath的语法，简单了解一下，在做的过程中遇到问题去查一下就可以了。

初始化工程

scrapy工程的初始化很方便，在shell中的指定目录下执行scrapy start startproject 项目名称，就自动化生成了。

执行这步的时候遇到了一个问题，抛出了异常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1"，解决方法是执行sudo pip install twisted==13.1.0，应该是依赖库版本不兼容。

目录结构

工程初始化后，scrapy中的各个元素就被构建好了，不过构建出来的是一副空壳，需要我们往里边写入我们的爬虫逻辑。

初始化后的目录结构是这样的：

spiders:爬虫目录，爬虫的爬取逻辑就放在个目录下边
items.py:数据实体类，在这里定义我们爬到的数据结构
middlewares.py:爬虫中间件（我自己翻译的哈），在这里定义爬取前、爬取后需要处理的逻辑
pipelines.py:数据管道，爬取后的数据实体会经过数据管道的处理
settings.py:配置文件，可以在这里配置爬虫的爬取速度，配置中间件、管道是否开启和先后顺序，配置数据输出的格式等。

了解过这些文件的作用后就可以开始写爬虫了。

开始吧！

首先，确定要爬取的目标数据。

我的目标是获取汽车的品牌、车系、车型数据，先从品牌开始。

在汽车之家的页面中寻觅一番后，找到了一个爬虫的切入点，汽车之家车型大全。这个页面里有所有品牌的数据，正是我的目标。不过在观察的过程中发现，这个页面里的品牌数据是在页面向下滚动的过程中延迟加载的，这样我们通过请求这个页面不能获取到延迟加载的那部分数据。不过不要慌，看一下延迟加载的方式是什么样的。

打开浏览器控制台的网络请求面板，滚动页面来触发延迟加载，发现浏览器发送了一个异步请求：

《【scrapy】爬取汽车车型数据》控制台

复制请求的URL看看：

http://www.autohome.com.cn/grade/carhtml/B.html
http://www.autohome.com.cn/grade/carhtml/C.html
http://www.autohome.com.cn/grade/carhtml/D.html

找到规律了，每一次加载的URL，都只是改变了对应的字母，所以对A到Z分别请求一次就取到了所有的品牌数据。

打开http://www.autohome.com.cn/grade/carhtml/B.html看下，发现页面的数据很规整，是按照品牌-厂商-车系的层级组织的。嗯，正合我意，那就开爬吧。

编写Spider

在spiders目录下边，新建一个brand_spider.py文件，在文件中定义BrandSpider类，这个类继承了scrapy.Spider类，这就是scrapy的Spider类。在BrandSpider中，需要声明name变量，这是这个爬虫的ID；还需要声明start_urls，这是爬虫的起点链接；再定义一个parse方法，里面实现爬虫的逻辑。

parse方法的入参中，response就是对start_urls中的链接的请求响应数据，我们要爬取的品牌数据就在这里面，我们需要从response中提取出来。从response提取数据需要使用xpath语法，参考上边的xpath教程。

提取数据之前，需要先给品牌数据定义一个实体类，因为需要把品牌数据存到数据实体中并落地到磁盘。在items.py文件中定义一个BrandItem类，这个类继承了scrapy.Item类，类中声明了爬取到的、要落地的品牌相关数据，这就是scrapy的Item类。

定义好品牌实体后，在parse方法中声明一个BrandItem实例，然后通过reponse.xpath方法取到想要的品牌ID、品牌url、品牌名称、图标url等数据，并设置到BrandItem实例中，最后通过yield来聚合爬取到的各个品牌数据并返回，返回的数据会进入pipeline。

编写Pipeline

爬取到的数据接着被pipeline.py文件中定义的Pipeline类处理，这个类通常是对传入的Item实体做数据的清洗、排重等工作，可以定义多个Pipeline，依次对Item处理。由于暂时没有这方面的需要，就不改写这个文件，保持默认状态就好。经过pipeline的处理后，数据进入数据集。

输出csv格式数据

对于爬取到的车型数据，我想以csv的格式输出，并且输出到指定目录下，此时需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'两项，目的是指定输出格式为csv，输出到data目录下，以”爬虫名称_爬取时间.csv“格式命名。

执行爬虫

品牌数据的爬虫编写完成了，在项目根目录下执行scrapy crawl brand，不出意外的话，在执行了brand爬虫后，会在data目录下出现一个新的csv文件，并且装满了品牌数据。

小心被屏蔽

不过需要注意一个问题，就是当爬虫高频地请求网站接口的时候，有可能会被网站识别出来并且屏蔽掉，因为太高频的请求会对网站的服务器造成压力，所以需要对爬虫限速。

在settings.py中添加DOWNLOAD_DELAY = 3，限制爬虫的请求频率为平均3秒一次。

另外，如果爬虫发送的请求头中没有设置user agent也很容易被屏蔽掉，所以要对请求头设置user agent。

在项目根目录下新建user_agent_middlewares.py文件，在文件中定义UserAgentMiddleware类，继承了UserAgentMiddleware类。在UserAgentMiddleware中声明user_agent_list，存放一些常用的user agent，然后重写process_request方法，在user_agent_list中随机选取user agent写入请求头中。

车系、车型爬虫

车系爬虫与上边的品牌爬虫类似，实现在spiders/series_spider.py中。

车型爬虫稍微复杂一些，实现在spiders/model_spider.py中。车型爬虫要从页面中解析出车型数据，同时要解析出更多的URL添加到请求队列中。而且，车型爬虫爬取的页面并不像品牌数据页面那么规整，所以要根据URL的特征以及页面中的特征来调整解析策略。因此在这里用到了CrawlSpider和Rules，具体参照Spider文档。

总结

以上就实现了一个简单的汽车之家的车型数据爬虫，其中用到了scrapy中的部分元素，当然还有很多元素没有涉及到，不过对于一个简单爬虫来说足矣。

Tip

在用xpath解析页面的时候，写出来的xpath语句很可能与预期不符，而且调试起来很麻烦，我是用以下方式来提高效率的：

使用chrome上的XPath Helper插件。安装好插件，打开目标页面，按command+shift+x（mac版的快捷键）打开插件面板，在面板里输入xpath语句，就能看到取到的结果了：
xpath helper
使用scrapy shell调试。在工程目录下执行scrapy shell http://www.xxxxx.xx，之后就会进入python的交互终端，这时就可以进行调试了。执行print response.xpath('xxxxx')来验证xpath语句是否符合预期。

推荐阅读

list
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
nodejs
Symfony框架的安装与使用指南

Symfony是一个功能强大的PHP框架，以其依赖注入（DI）特性著称。许多流行的PHP框架如Drupal和Laravel的核心组件都基于Symfony构建。本文将详细介绍Symfony的安装方法及其基本使用。 ... [详细]

蜡笔小新 2024-12-21 14:17:36
header
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
install
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
install
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
format
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
list
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
input
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
list
CentOS系统安装与配置常见问题及解决方案

本文详细介绍了在CentOS系统安装过程中遇到的常见问题及其解决方案，包括Vi编辑器的操作、图形界面的安装、网络连接故障排除等。通过本文，读者可以更好地理解和解决这些常见问题。 ... [详细]

蜡笔小新 2024-12-23 20:57:23
list
解决Android SDK中aapt错误：无法加载libstdc++.so.6共享库

在创建新的Android项目时，您可能会遇到aapt错误，提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-23 11:49:11
input
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
list
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
list
Python开发中使用Virtualenv和Virtualenvwrapper管理虚拟环境

在Python开发过程中，随着项目数量的增加，不同项目依赖于不同版本的库，容易引发依赖冲突。为了避免这些问题，并保持开发环境的整洁，可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]

蜡笔小新 2024-12-25 12:05:35
install
嵌入式开发环境搭建与文件传输指南

本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境，并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]

蜡笔小新 2024-12-22 13:38:48
list
无屏幕环境下树莓派4B的安装与配置指南

本文将详细介绍如何在没有显示器的情况下，使用Raspberry Pi Imager为树莓派4B安装操作系统，并进行基本配置，包括设置SSH、WiFi连接以及更新软件源。 ... [详细]

蜡笔小新 2024-12-21 08:14:50

骏天天在线

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章