数据采集_大数据采集：爬虫框架之WebMagic的基本使用

作者：廖赞胜 | 来源：互联网 | 2024-10-12 18:02

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据采集：爬虫框架之WebMagic的基本使用相关的知识，希望对你有一定的参考价值。

本文转载：大米锅巴加点盐

大数据采集：爬虫框架之WebMagic的基本使用 webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/COOKIE等功能。作为爬虫框架，它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学们可以先行百度一下这些都是什么，起了什么作用，以便更好的理解爬虫的原理。

爬虫主要思想分这么几步：

1. 根据种子链接，抽取目标链接放入待爬取队列

2. 从页面中解析并抽取需要的信息，webmagic在这里会用Jsoup组件来解析html页面。

3. 处理数据。将已提取出来的数据以文件格式存放或者存入数据库以及搜索引擎索引库等。

此处以爬取天涯论坛某个栏目下的帖子主题和链接为例（示例比较简单，仅供大家入门参考）：

要爬取的种子链接页面如下，大数据采集：爬虫框架之WebMagic的基本使用

配置java工程及导入webmagic的核心jar等操作步骤此处不再详细描述，下面说一下代码示例。

首先，需要新建一个实现PageProcessor接口的类，复写process方法。部分截图如下: 大数据采集：爬虫框架之WebMagic的基本使用

程序结构：大数据采集：爬虫框架之WebMagic的基本使用

第一步，抽取目标链接放入待爬取队列。

说明：

程序启动入口处设置种子链接并设置相应的Pipeline（第三步会讲PipeLine怎么写），定义爬取时使用的线程数，并使用webmagic监控（这一句话：SpiderMonitor.instance().register(CastSpider)）。

代码如下：

大数据采集：爬虫框架之WebMagic的基本使用

此处从页面html中提取所有翻页的链接并使用正则表达式筛选后放入待爬取队列：大数据采集：爬虫框架之WebMagic的基本使用

第二步，从页面中解析并抽取需要的信息。此处获取帖子主题、作者、点击数、回复数、最后回复时间，process方法内示例：
大数据采集：爬虫框架之WebMagic的基本使用

第三步，处理数据。此处以存放入mysql数据库为例，定义一个MysqlPipeline，实现Pipeline接口。
大数据采集：爬虫框架之WebMagic的基本使用

最后，大功告成，启动运行后，数据库中存储的数据如下：

怎么样，是不是很简单？大家一起试着写写，从网上爬点要的数据吧。

不能空想理论和架构，搞软件研发相关工作的同学们，该动手时就要动手！学习编程开发没有捷径，一定要动手来写！

推荐阅读

spring
解决Spring Cloud Eureka自定义端口时连接错误的问题

在尝试通过自定义端口部署Spring Cloud Eureka时遇到了连接失败的问题。本文详细描述了问题的现象，并提供了有效的解决方案，以帮助遇到类似情况的开发者。 ... [详细]

蜡笔小新 2024-11-20 13:05:47
web
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
spring
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
get
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
window
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
ip
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
spring
Spring与Quartz结合实现周期性任务调度

本文介绍了一个使用Spring框架和Quartz调度器实现每周定时调用Web服务获取数据的小项目。通过详细配置Spring XML文件，展示了如何设置定时任务以及解决可能遇到的自动注入问题。 ... [详细]

蜡笔小新 2024-11-19 19:14:50
tree
利用ChkBugReport工具分析Android Bugreport

本文介绍了如何使用开源工具ChkBugReport来解析和分析Android设备的Bugreport。ChkBugReport能够将复杂的Bugreport转换为易于阅读的HTML报告，并提供详细的图表和分析结论。 ... [详细]

蜡笔小新 2024-11-16 19:02:02
get
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
get
获取Jenkins任务构建队列长度

Jenkins API当前未直接提供获取任务构建队列长度的功能，因此需要通过解析HTML页面来间接实现这一需求。 ... [详细]

蜡笔小新 2024-11-20 19:18:04
window
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
web
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
get
Elasticsearch 分页查询策略详解

本文详细介绍了Elasticsearch中的分页查询机制，包括基本的分页查询流程、'from-size'浅分页与'scroll'深分页的区别及应用场景，以及两者在性能上的对比。 ... [详细]

蜡笔小新 2024-11-20 10:33:23
get
2017年软件开发领域的七大变革

随着技术的不断进步，2017年对软件开发人员而言将充满挑战与机遇。本文探讨了开发人员需要适应的七个关键变化，包括人工智能、聊天机器人、容器技术、应用程序版本控制、云测试环境、大众开发者崛起以及系统管理的云迁移。 ... [详细]

蜡笔小新 2024-11-19 20:17:20
get
深入理解RxJava操作符

根据官方定义，RxJava是一种用于异步编程和可观察数据流的API。其核心特性在于流式处理能力和丰富的操作符支持。 ... [详细]

蜡笔小新 2024-11-19 17:37:35

廖赞胜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章