首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

springboot+quartz+jsoup+kafka

作者：无心少年丶的诱惑 | 来源：互联网 | 2023-06-11 12:56

最近在学习springboot，光看官方文档比较枯燥，于是想用一个项目把各种框架和技术串联起来，思来想去觉得爬虫是一个不错的idea。大概思路是这样：固定频率去爬取新浪财经的头条新

最近在学习springboot，光看官方文档比较枯燥，于是想用一个项目把各种框架和技术串联起来，思来想去觉得爬虫是一个不错的idea。

大概思路是这样：固定频率去爬取新浪财经的头条新闻，爬到的标题和链接以json方式推到kafka的topic中，再通过ELK消费，在kibana中查看。

首先通过Spring Initializr下载一个demo工程，选择我们需要的依赖包，jsoup的包需要额外添加。

《springboot+quartz+jsoup+kafka》

引入到idea中，修改pom文件，加入jsoup依赖，由于习惯了使用jetty作为web容器，所以把tomcat踢掉，引入jetty的依赖，为了方便处理json，引入fastjson依赖。

《springboot+quartz+jsoup+kafka》

quartz的使用可以参考官网文档，这里我们通过mysql来持久化定时任务相关信息，涉及到mysql，顺便把mybatis和druid依赖也一起引入。

《springboot+quartz+jsoup+kafka》

quartz相关表的sql在官网的demo里可以找到，这里就略过，假设表已建好。springboot提供了很好的quartz支持，自动配置了一个Scheduler，直接Autowired就可以使用，我们新建一个Service，在系统启动的时候启动爬取新闻的定时任务，代码如下：

《springboot+quartz+jsoup+kafka》

假设每30分钟爬取一次，我们还需要一个Job实现类，来完成具体的爬取任务，也可以通过不同的job来分别爬取，这里就不展开了。Job实现类如下：

《springboot+quartz+jsoup+kafka》

在爬网页之前先看一下每个页面的结构，以新浪财经为例，地址：https://finance.sina.com.cn/，查看页面结构可以发现，我们需要的头条新闻都在“m-hdline”这个class的a标签下，jsoup的使用比较简单，根据需要查找对应的文档就可以了，直接上代码：

《springboot+quartz+jsoup+kafka》

接下来需要将获取到的数据发到kafka的topic中，我的win10是家庭版，天生不带docker，我又懒得折腾toolbox，于是搞了个自带的ubuntu虚拟机，直接下载kafka安装，然后创建一个topic:financenews。这时候可以将kafka的信息配置在我们的工程中，如下：

《springboot+quartz+jsoup+kafka》

springboot也贴心的为我们准备了KafkaTemplate，Autowired即可。这里我们还没有搭建好elk，可以使用直接监听定时任务发送到的topic中的消息是否正常。

《springboot+quartz+jsoup+kafka》

最后在job中添加发送消息到kafka的处理：

《springboot+quartz+jsoup+kafka》

代码到这里基本差不多了，下面我们启动应用看看效果：

《springboot+quartz+jsoup+kafka》

《springboot+quartz+jsoup+kafka》

成功。

推荐阅读

ip
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
spring
从CodeIgniter中提取图像处理组件

本指南旨在帮助开发者在未使用CodeIgniter框架的情况下，如何独立使用其强大的图像处理功能，包括图像尺寸调整、创建缩略图、裁剪、旋转及添加水印等。 ... [详细]

蜡笔小新 2024-11-20 19:57:35
python
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
python
Java毕业设计：在线办公工作流系统MyBatis+源码+调试部署+数据库+论文

本文介绍了基于Java的在线办公工作流系统的毕业设计方案，涵盖了MyBatis框架的应用、源代码分析、调试与部署流程、数据库设计以及相关论文撰写指导。 ... [详细]

蜡笔小新 2024-11-25 10:21:47
spring
Windows环境下Oracle数据库迁移实践

本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程，旨在为后续的集群环境部署做好准备。 ... [详细]

蜡笔小新 2024-11-23 19:57:51
char
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
python
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
spring
大厂Java研发岗位面试总结与资料分享

本文总结了一次针对大厂Java研发岗位的面试经历，探讨了面试中常见的问题及其背后的原因，并分享了一些实用的面试准备资料。 ... [详细]

蜡笔小新 2024-11-20 19:00:01
python
HTML前端开发：UINavigationController与页面间数据传递详解

本文详细介绍了如何在HTML前端开发中利用UINavigationController进行页面管理和数据传递，适合初学者和有一定基础的开发者学习。 ... [详细]

蜡笔小新 2024-11-20 09:46:39
hook
优化 EasyUI 中 DataGrid 的分页功能

本文详细介绍了如何在 EasyUI 框架中实现 DataGrid 组件的分页功能，包括配置方法和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-25 16:37:20
node.js
Node.js模块化的优势及实践

本文探讨Node.js模块化的重要性和具体实现方式，包括其带来的代码复用性增强、可维护性提升、以及如何有效避免命名冲突等问题。 ... [详细]

蜡笔小新 2024-11-25 16:16:46
input
SpringBoot底层注解用法及原理

2.1、组件添加1、Configuration基本使用Full模式与Lite模式示例最佳实战配置类组件之间无依赖关系用Lite模式加速容器启动过程，减少判断配置类组 ... [详细]

蜡笔小新 2024-11-25 09:48:01
input
解决ADODB连接Access时出现80004005错误的方法

本文详细介绍了如何解决在使用ADODB连接Access数据库时遇到的80004005错误，包括错误原因分析和具体的解决步骤。 ... [详细]

蜡笔小新 2024-11-22 19:27:04
request
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
python
最适合初学者的编程语言

本文探讨了适合编程新手的最佳语言选择，包括Python、JavaScript等易于上手且功能强大的语言，以及如何通过有效的学习方法提高编程技能。 ... [详细]

蜡笔小新 2024-11-22 16:17:04

无心少年丶的诱惑

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有