一、概述
基于Docker搭建的环境:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),运行项目后,各个数据正常,根据架构图,最后一步,进行数据可视化。
二、数据可视化
数据可视化代码:https://github.com/Simple-Coder/log-demo
用户通过点击页面,JS收集信息发送至日志服务器,日志服务器将日志转发至Flume,flume落地至HDFS(离线分析)、Kafka(实时分析),Hive进行离线分析(之前已经实现:网站日志流量分析系统之数据清洗处理(离线分析)),Spark Streaming消费Kafka消息(),HBase做中间存储历史数据,最终写入Mysql,进行可视化展示。
至此、网站日志流量分析系统离线分析、实时分析模块完成。
如有问题,欢迎指正~