当前位置: 开发笔记 > 编程语言 > 正文

关键七步，用ApacheSpark构建实时分析Dashboard

作者：致力于流浪动物救助量 | 来源：互联网 | 2023-08-23 10:31

问题描述电子商务门户希望构建一个实时分析仪表盘，对每分钟发货的订单数量做到可视化，从而优化物流的效率。解决方案解决方案之前，先快速看看我们将使用的工具：

问题描述

电子商务门户希望构建一个实时分析仪表盘，对每分钟发货的订单数量做到可视化，从而优化物流的效率。

解决方案

解决方案之前，先快速看看我们将使用的工具：

Apache Spark – 一个通用的大规模数据快速处理引擎。Spark的批处理速度比Hadoop MapReduce快近10倍，而内存中的数据分析速度则快近100倍。更多关于Apache Spark的信息。

Python – Python是一种广泛使用的高级，通用，解释，动态编程语言。更多关于Python的信息。

Kafka – 一个高吞吐量，分布式消息发布订阅系统。更多关于Kafka的信息。

Node.js – 基于事件驱动的I/O服务器端Javascript环境，运行在V8引擎上。更多关于Node.js的信息。

Socket.io – Socket.IO是一个构建实时Web应用程序的Javascript库。它支持Web客户端和服务器之间的实时、双向通信。

Highcharts – 网页上交互式Javascript图表。更多关于Highcharts的信息。

CloudxLab – 提供一个真实的基于云的环境，用于练习和学习各种工具。你可以通过在线注册立即开始练习。

如何构建数据Pipeline?

下面是数据Pipeline高层架构图

我们的实时分析Dashboard将如下所示

让我们从数据Pipeline中的每个阶段的描述开始，并完成解决方案的构建。

阶段1

当客户购买系统中的物品或订单管理系统中的订单状态变化时，相应的订单ID以及订单状态和时间将被推送到相应的Kafka主题中。

数据集

由于没有真实的在线电子商务门户网站，我们准备用CSV文件的数据集来模拟。让我们看看数据集：

数据集包含三列分别是：“DateTime”、“OrderId”和“Status”。数据集中的每一行表示特定时间时订单的状态。这里我们用“xxxxx-xxx”代表订单ID。我们只对每分钟发货的订单数感兴趣，所以不需要实际的订单ID。

可以从CloudxLab GitHub仓库克隆完整的解决方案的源代码和数据集。

数据集位于项目的spark-streaming/data/order_data文件夹中。

推送数据集到Kafka

shell脚本将从这些CSV文件中分别获取每一行并推送到Kafka。推送完一个CSV文件到Kafka之后，需要等待1分钟再推送下一个CSV文件，这样可以模拟实时电子商务门户环境，这个环境中的订单状态是以不同的时间间隔更新的。在现实世界的情况下，当订单状态改变时，相应的订单详细信息会被推送到Kafka。

运行我们的shell脚本将数据推送到Kafka主题中。登录到CloudxLab Web控制台并运行以下命令。

阶段2

在第1阶段后，Kafka“order-data”主题中的每个消息都将如下所示

阶段3

Spark streaming代码将在60秒的时间窗口中从“order-data”的Kafka主题获取数据并处理，这样就能在该60秒时间窗口中为每种状态的订单计数。处理后，每种状态订单的总计数被推送到“order-one-min-data”的Kafka主题中。

请在Web控制台中运行这些Spark streaming代码

阶段4

在这个阶段，Kafka主题“order-one-min-data”中的每个消息都将类似于以下JSON字符串

查看全部内容>>>>>>>>

推荐阅读

cmd
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
filter
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
char
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
ip
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
ip
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
ip
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
input
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15
input
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
input
开发笔记:Hadoop Mapreduce

代码如下： ... [详细]

蜡笔小新 2023-10-15 08:41:08
ip
2018深入java目标计划及学习内容

本文介绍了作者在2018年的深入java目标计划，包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中，作者对jvm的学习有一定了解，并计划通读《jvm》一书。此外，作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]

蜡笔小新 2023-12-11 20:00:32
ip
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
js
ReadDataFromCheckpoint

packagecom.bjsxt.spark.others;importorg.apache.spark.SparkConf;importorg.apache.spark.api. ... [详细]

蜡笔小新 2023-10-15 12:29:43
ip
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
ip
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56

致力于流浪动物救助量

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章