利用Scrapy构建的数据采集与分析可视化系统

作者：尘世聚散 | 来源：互联网 | 2024-11-23 16:56

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。

在构建数据采集与分析可视化系统的过程中，Scrapy框架因其强大的抓取能力和灵活的配置选项而成为首选工具。本文将重点介绍Scrapy在数据采集阶段的应用，包括针对特定网站如前程无忧、智联招聘等的爬虫设计，以及为应对反爬措施而采用的Selenium辅助登录策略。

### Scrapy在招聘网站上的应用

对于前程无忧和智联招聘这两个招聘网站，我们主要关注的是IT岗位的信息。在实际操作中，由于初期缺乏详细规划，导致需要部署多个爬虫来完成任务。为了确保数据能够高效地存入数据库，我们采用了异步插入的方法，这得益于Scrapy内置的Twisted异步网络框架。传统的关系型数据库操作（如使用pymysql进行的commit插入）可能会因速度跟不上Scrapy的采集速率而导致数据丢失。因此，我们推荐使用异步插入以保证数据完整性。

#### 异步数据插入实现

首先，我们需要引入必要的库：
```python
import MySQLdb
from twisted.enterprise import adbapi
import MySQLdb.cursors
```
接着，定义一个名为`MysqlTwistedPipline`的类，用于处理数据的异步插入：
```python
class MysqlTwistedPipline(object):
def __init__(self, dbpool):
self.dbpool = dbpool

@classmethod
def from_settings(cls, settings):
dbparms = dict(
host=settings["MYSQL_HOST"],
db=settings["MYSQL_DBNAME"],
user=settings["MYSQL_USER"],
passwd=settings["MYSQL_PASSWORD"],
charset='utf8',
cursorclass=MySQLdb.cursors.DictCursor,
use_unicode=True,
)
dbpool = adbapi.ConnectionPool("MySQLdb", **dbparms)

return cls(dbpool)
```
根据不同的爬虫名称执行相应的插入语句：
```python
def process_item(self, item, spider):
if spider.name in ['qc_java', 'zl_java']:
query = self.dbpool.runInteraction(self.do_insert_java, item)
query.addErrback(self.handle_error, item, spider)
# 其他语言岗位的插入逻辑类似...
```
具体的MySQL插入语句如下所示：
```python
def do_insert_java(self, cursor, item):
insert_sql = "insert into `zp_java` (where_from, url, url_obj_id, job_name, company_name, salary_min, salary_max, job_city, experience_year, education_need, publish_date, job_advantage_tags, position_info, job_classification, crawl_time) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
item['url_obj_id'] += str(random.randint(61, 70))
cursor.execute(insert_sql, (
item['where_from'], item['url'], item['url_obj_id'], item['job_name'], item['company_name'], item['salary_min'],
item['salary_max'], item['job_city'], item['experience_year'], item['education_need'], item['publish_date'],
item['job_advantage_tags'], item['position_info'], item['job_classification'], item['crawl_time']))
```

### 使用Selenium应对复杂登录机制

对于拉勾网这样的网站，其反爬措施较为严格，直接使用Scrapy可能无法完成登录。因此，我们选择了Selenium作为辅助工具，通过模拟用户行为完成登录过程。以下是使用Selenium进行登录的基本代码示例：
```python
try:
self.driver.get(self.login_url)
self.driver.find_element_by_css_selector("div:nth-child(2) > form > div:nth-child(1) > input").send_keys(self.username)
time.sleep(3)
self.driver.find_element_by_css_selector("div:nth-child(2) > form > div:nth-child(2) > input").send_keys(self.password)
time.sleep(4)
self.driver.find_element_by_css_selector("div:nth-child(2) > form > div.input_item.btn_group.clearfix > input").click()
time.sleep(2)
```
此外，在处理拉勾网的数据时，我们遇到了字符串转义的问题，尤其是在处理包含大量特殊字符的岗位详情描述时。为了解决这一问题，我们可以使用pymysql提供的`escape_string()`方法，该方法能够有效地处理字符串中的特殊字符，避免数据插入过程中出现错误。

### 结论

通过上述方法，我们不仅能够有效地从多个招聘网站上抓取所需数据，还能确保这些数据能够安全、完整地存储到数据库中。这对于后续的数据分析和可视化工作具有重要意义。

推荐阅读

object
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
object
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
rsa
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
client
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
web
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
case
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
cmd
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
cmd
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
cmd
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
数组
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
post
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
python
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
python
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
case
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10

尘世聚散

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章