当前位置: 开发笔记 > 编程语言 > 正文

Spark项目实战企业级，源码深度剖析，机器学习，数据分析

作者：蜗牛的家 | 来源：互联网 | 2023-09-07 11:03

Spark项目实战企业级，源码深度剖析，机器

同学们在学习Spark Steaming的过程中，可能缺乏一个练手的项目，这次通过一个有实际背景的小项目，把学过的Spark Steaming、Hbase、Kafka都串起来。

1. 项目介绍

1.1 项目流程

Spark Streaming读取kafka数据源发来的json格式的数据流，在批次内完成数据的清洗和过滤，再从HBase读取补充数据，拼接成新的json字符串写进下游kafka。

1.2 项目详解

2. 环境准备

2.1 组件安装

首先需要安装必要的大数据组件，安装的版本信息如下：

Spark 2.1.2

kafka 0.10.0.1

HBase 1.2.0

Zookeeper 3.4.5

2.2 Hbase Table的创建

Hbase创建table student，列族名为cf，并存入两条数据

2.3 Kafka Topic的创建

创建kafka的两个topic，分别是kafka_streaming_topic、hello_topic。

3. Code

3.1 项目结构

简单解释一下：

Output、Score、Output三个是Java Bean

MsgHandler完成对数据流的操作，包括json格式判断、必备字段检查、成绩>=60筛选、json to Bean、合并Bean等操作

ConfigManager读取配置参数

conf.properties 配置信息

StreamingDemo是程序主函数

HBaseUtils Hbase工具类

StreamingDemoTest 测试类

3.2 主函数

初始化spark，和一些配置信息的读取，通过KafkaUtils.createDirectStream读取kafka数据。

接下来完成如下几个操作：

清洗和筛选数据，返回(id,ScoreBean)的RDD

构造id List集合，批量从Hbase查询结果，构造(id,studentJsonStr)的resMap集合,方便后续O(1)查询

遍历每条数据，从resMap查到结果，合并出新的Java Bean

Java Bean to Json String，并写入到kafka

4. 结果

开启kafka producer shell, 向kafka_streaming_topic写数据

开启kafka consumer shell, 消费hello_topic

5. 总结

通过这个小项目，希望大家可以掌握基本的Spark Streaming流处理操作，包括读写kafka，查询hbase，spark streaming Dstream操作。篇幅有限，全部代码就不一一列出了，完整代码在

Spark 项目实战企业级，源码深度剖析，机器学习，数据分析

推荐阅读

编程
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
编程
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
编程
Manacher算法详解：寻找最长回文子串

本文将详细介绍Manacher算法，该算法用于高效地找到字符串中的最长回文子串。通过在字符间插入特殊符号，Manacher算法能够同时处理奇数和偶数长度的回文子串问题。 ... [详细]

蜡笔小新 2024-11-14 13:54:45
编程
C++ 中的 malloc 函数详解

malloc 是 C 语言中的一个标准库函数，全称为 memory allocation，即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域，并返回该区域的起始地址。当无法预先确定内存的具体位置时，可以通过 malloc 动态分配内存。 ... [详细]

蜡笔小新 2024-11-14 13:38:03
编程
Python多线程详解与示例

本文介绍了Python中的多线程编程，包括僵尸进程和孤儿进程的概念，并提供了具体的代码示例。同时，详细解释了0号进程和1号进程在系统中的作用。 ... [详细]

蜡笔小新 2024-11-14 12:47:24
default
Linux常用命令解析：ipcs与ipcrm

本文详细介绍了Linux系统中用于管理IPC（Inter-Process Communication）资源的两个重要命令：ipcs和ipcrm。通过这些命令，用户可以查看和删除系统中的消息队列、共享内存和信号量。 ... [详细]

蜡笔小新 2024-11-14 11:42:14
default
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
default
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
function
AngularJS $compile 详解

本文介绍了 AngularJS 中的 $compile 服务及其用法，通过示例代码展示了如何使用 $compile 动态编译和链接 HTML 元素。 ... [详细]

蜡笔小新 2024-11-13 15:34:47
const
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
const
ZooKeeper 入门指南

本文将详细介绍ZooKeeper的工作机制、特点、数据结构以及常见的应用场景，包括统一命名服务、统一配置管理、统一集群管理、服务器动态上下线和软负载均衡。 ... [详细]

蜡笔小新 2024-11-13 13:11:46
const
自动验证时页面显示问题的解决方法

在使用自动验证功能时，页面未能正确显示错误信息。通过使用 `dump($info->getError())` 可以帮助诊断和解决问题。 ... [详细]

蜡笔小新 2024-11-13 12:30:21
const
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
const
解决DNS服务器配置转发无法解析的问题

本文详细介绍了如何解决DNS服务器配置转发无法解析的问题，包括编辑主配置文件和重启域名服务的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 02:41:19
const
数字资产交易平台量化交易系统开发

数字资产量化交易通过大数据分析，以客观的方式制定交易决策，有效减少人为的主观判断和情绪影响。本文介绍了几种常见的数字资产量化交易策略，包括搬砖套利和趋势交易，并探讨了量化交易软件的开发前景。 ... [详细]

蜡笔小新 2024-11-12 21:49:55

蜗牛的家

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章