当前位置: 开发笔记 > 编程语言 > 正文

利用scrapy集成社区爬虫功能

作者：禁令2502861143 | 来源：互联网 | 2023-07-27 20:17

序社区活跃度或者贡献越来越受到重视，往往会作为获得工作或者承接项目的加分项。为了方便用户展示自己的社区资料，雨点儿网中增加了一个社区爬虫功能。当前只爬取了用户主页上一些简单的信息，

序

社区活跃度或者贡献越来越受到重视，往往会作为获得工作或者承接项目的加分项。为了方便用户展示自己的社区资料，雨点儿网中增加了一个社区爬虫功能。

当前只爬取了用户主页上一些简单的信息，如果有需求请提到我们的项目议题中

效果如下：

《利用 scrapy 集成社区爬虫功能》

功能实现

代码放在了github上，源码

如图所示，在之前的架构上(http://segmentfault.com/a/1190000003808733)，我增加了橙色虚线框内的部分，包括：

scrapyd：一个用于运行爬虫任务的webservice
spiders：使用scrapy框架实现的爬虫
mongo：存放爬取的数据

《利用 scrapy 集成社区爬虫功能》

使用scrapy框架

scrapy是一个python爬虫框架，想要快速实现爬虫推荐使用这个。

可以参考如下资料自行学习：

官方文档和官方例子
一个简单明了的入门博客，注意：博客中scrapy的安装步骤可以简化，直接使用 pip install scrapy，安装过程中可能会缺少几个lib，ubuntu使用 apt-get install libffi-dev libxml2-dev libxslt1-dev -y

使用mongodb存储数据

mongo非常适合存储爬虫数据，支持异构数据。这意味着你可以随时改变爬虫策略抓取不同的数据，而不用担心会和以前的数据冲突（使用sql就需要蛋疼的修改表结构了）。

通过scrapy的pipline来集成mongo，非常方便。

安装mongo

apt-get install mongodb pip install pymongo

使用xpath提取页面数据

在编写爬虫的过程中需要使用xpath表达式来提取页面数据，在chrome中可以使用XPath Helper来定位元素，非常方便。使用方法：

打开XPath Helper插件
鼠标点击一下页面，按住shift键，把鼠标移动到需要选取的元素上，插件会将该元素标记为黄色，并给出对应的xpath表达式，如下图：
在爬虫程序中使用这个表达式selector.xpath(..../text()").extract()

使用scrapyd把爬虫集成到系统中

编写好爬虫后，我门可以通过执行scrapy crawl spidername命令来运行爬虫程序，但这还不够。

通常我们通过手动或者定时任务(cron)来执行爬虫，而这里我们需要通过web应用来触发爬虫。即，当用户更新绑定的社交账号时，去执行一次爬虫。来分析一下：

爬虫执行过程中会阻塞当前进程，为了不阻塞用户请求，必须通过异步的方式来运行爬虫。
可能有多个用户同时更新资料，这就要求能够同时执行多个爬虫，并且要保证系统不会超载。
可以扩展成分布式的爬虫。

方案1：使用celery运行爬虫

鉴于项目当前的架构，准备使用celery来执行异步爬虫。但是碰到了两个问题：

scrapy框架下，需要在scrapy目录下执行爬虫，否则无法获取到settings，这个用起来有点别扭，不过还能解决。
celery中反复运行scrapy的爬虫会报错：raise error.ReactorNotRestartable()。原因是scrapy用的twisted调度框架，不可以在进程中重启。

stackoverflow上有讨论过这个问题，尝试了一下，搞不定，放弃这个方案。如果你有解决这个问题的方法，期待分享:)

方案2：使用scrapyd

scrapy文档中提到了可以使用scrapyd来部署，scrapyd是一个用于运行scrapy爬虫的webservice，使用者能够通过http请求来运行爬虫。

你只需要使用scrapyd-client将爬虫发布到scrapyd中，然后通过如下命令就可以运行爬虫程序。

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2 {"status": "ok", "jobid": "26d1b1a6d6f111e0be5c001e648c57f8"}

这意味什么：

爬虫应用和自己的web应用完全解耦，只有一个http接口。
由于使用http接口，爬虫可以放在任何能够被访问的主机上运行。一个简易的分布式爬虫，不是吗？
scrapyd使用sqlite队列来保存爬虫任务，实现异步执行。
scrapyd可以同时执行多个爬虫，最大进程数可配，防止系统过载。

尾

欢迎使用我们的爬虫功能来收集社交资料。

使用方法

成为雨点儿网用户，进入用户主页，点击编辑按钮
填写社交账号，点击更新按钮
爬虫会在几秒内完成工作，刷新个人主页就能看到你的社区资料了，你也可以把个人主页链接附在电子简历中哟:)

推荐阅读

object
Spring与Quartz结合实现周期性任务调度

本文介绍了一个使用Spring框架和Quartz调度器实现每周定时调用Web服务获取数据的小项目。通过详细配置Spring XML文件，展示了如何设置定时任务以及解决可能遇到的自动注入问题。 ... [详细]

蜡笔小新 2024-11-19 19:14:50
schema
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
char
JavaScript 实现图片文件转Base64编码的方法

本文详细介绍了如何使用JavaScript将用户通过文件输入控件选择的图片文件转换为Base64编码字符串，适用于Web前端开发中图片上传前的预处理。 ... [详细]

蜡笔小新 2024-11-19 12:43:15
ip
2023年，Android开发前景如何？25岁还能转行吗？

近期，关于Android开发行业的讨论在多个平台上热度不减，许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]

蜡笔小新 2024-11-21 18:08:07
shell
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
shell
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
shell
物理隔离环境下的数据交换平台挑战与解决方案（上）

本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战，包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时，作者结合自身项目经验，分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]

蜡笔小新 2024-11-20 18:18:23
object
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
object
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
hash
软通动力Java开发工程师笔试题解析

本文档详细介绍了软通动力Java开发工程师职位的笔试题目，涵盖了Java基础、集合框架、JDBC、JSP等内容，并提供了详细的答案解析。 ... [详细]

蜡笔小新 2024-11-20 13:34:48
object
Android SOAP 请求失败：服务器无法处理请求，参数值不能为空

在尝试使用 Android 发送 SOAP 请求时遇到错误，服务器返回 '无法处理请求' 的信息，并指出某个值不能为 null。本文探讨了可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-11-20 13:01:10
object
PHP面试题精选及答案解析

本文精选了新浪PHP笔试题及最新的PHP面试题，并提供了详细的答案解析，帮助求职者更好地准备PHP相关的面试。 ... [详细]

蜡笔小新 2024-11-19 20:00:19
schema
深入解析 Java 中 org.w3c.dom.Node.isEqualNode() 方法及其应用实例

本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值，并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等，而不仅仅是判断它们是否为同一个对象。 ... [详细]

蜡笔小新 2024-11-19 18:11:10
schema
解决 ChinaASP.Upload 错误 '80040002' - 必须添加版权信息

本文介绍了如何解决 ChinaASP.Upload 错误 '80040002'，即必须添加版权信息的问题，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 15:12:54
ip
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19

禁令2502861143

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章