来电科技：基于Flink+Hologres的实时数仓演进之路

作者：a52713849_937 | 来源：互联网 | 2023-08-07 16:40

深圳来电科技有限公司（以下简称“来电科技”）是共享充电宝行业开创企业，主要业务覆盖充电宝自助租赁、定制商场导航机开发、广告展示设备及广告传

深圳来电科技有限公司&＃xff08;以下简称“来电科技”&＃xff09;是共享充电宝行业开创企业&＃xff0c;主要业务覆盖充电宝自助租赁、定制商场导航机开发、广告展示设备及广告传播等服务。来电科技拥有业内立体化产品线&＃xff0c;大中小机柜以及桌面型&＃xff0c;目前全国超过90%的城市实现业务服务落地&＃xff0c;注册用户超2亿人&＃xff0c;实现全场景用户需求。

一、大数据平台介绍

&＃xff08;一&＃xff09;发展历程

来电科技大数据平台的发展历程主要分为以下三个阶段&＃xff1a;

1.离散0.X Greenplum

为什么说离散&＃xff1f;因为之前没有一个统一的大数据平台来支持数据服务&＃xff0c;而是由每个业务开发线自行取数或者做一些计算&＃xff0c;并用一个低配版的Greenplum离线服务来维持日常的数据需求。

2.离线1.0 EMR

之后架构升级为离线1.0 EMR&＃xff0c;这里的EMR指的是阿里云由大数据组成的弹性分布式混合集群服务&＃xff0c;包括Hadoop、HiveSpark离线计算等常见组件。

阿里云EMR主要解决我们三个痛点&＃xff1a;一是存储计算资源的水平可扩展&＃xff1b;二是解决了前面各个业务线异构数据带来的开发维护问题&＃xff0c;由平台统一清洗入仓&＃xff1b;三是我们可以建立自己的数仓分层体系&＃xff0c;划分一个主题域&＃xff0c;为我们的指标系统打好基础。

3.实时、统一 2.0 Flink&＃43;Hologres

当前正经历的“Flink&＃43;Hologres”实时数仓&＃xff0c;这也是本文分享的核心。它为我们大数据平台带来了两个质的改变&＃xff0c;一是实时计算&＃xff0c;二是统一数据服务。基于这两点&＃xff0c;我们加速知识数据探索&＃xff0c;促进业务快速发展。

&＃xff08;二&＃xff09;平台能力

总的概括来说&＃xff0c;2.0版本的大数据平台提供了以下能力&＃xff1a;

1&＃xff09;数据集成

平台现在支持使用实时或者离线的方式集成业务数据库或业务数据的日志。

2&＃xff09;数据开发

平台现已支持基于Spark的离线计算以及基于Flink的实时计算。

3&＃xff09;数据服务

数据服务主要由两部分组成&＃xff1a;一部分是由Impala提供的分析服务和即席分析的能力&＃xff0c;另一部分是Hologres提供的针对业务数据的交互式分析能力。

4&＃xff09;数据应用

同时平台可以直接对接常见的BI工具&＃xff0c;业务系统也能快速地集成对接。

&＃xff08;三&＃xff09;取得成就

大数据平台提供的能力给我们带来了不少成就&＃xff0c;总结为以下五点&＃xff1a;

1&＃xff09;横向扩展

大数据平台的核心就是分布式架构&＃xff0c;这样我们能够低成本地水平扩展存储或者计算资源。

2&＃xff09;资源共享

可以整合所有服务器可用的资源。以前的架构是每个业务部门自己维护一套集群&＃xff0c;这样会造成一些浪费&＃xff0c;难以保证可靠性&＃xff0c;而且运费成本较高&＃xff0c;现在由平台统一调度。

3&＃xff09;数据共享

整合了业务部门所有的业务数据以及业务日志等其他异构数据源数据&＃xff0c;由平台统一清洗对接。

4&＃xff09;服务共享

数据共享之后就由平台统一对外输出服务&＃xff0c;各个业务线无需自行重复开发&＃xff0c;就能快速得到平台提供的数据支撑。

5&＃xff09;安全保障

由平台提供统一的安全认证等授权机制&＃xff0c;可以做到对不同人进行不同程度的细粒度授权&＃xff0c;保证数据安全。

二、企业业务对数据方面的需求

随着业务的快速发展&＃xff0c;构建统一的实时数仓迫在眉睫&＃xff0c;综合0.x、1.0版本的平台架构&＃xff0c;综合业务的现在发展和未来趋势判断&＃xff0c;构建2.x版本数据平台的需求主要集中在以下几个方面&＃xff1a;

1&＃xff09;实时大屏

实时大屏需要替换旧的准实时大屏&＃xff0c;采用更可靠、低延迟的技术方案。

2&＃xff09;统一数据服务

高性能、高并发和高可用的数据服务成为企业数字化转型统一数据门户的关键&＃xff0c;需要构建一个统一的数据门户&＃xff0c;统一对外输出。

3&＃xff09;实时数仓

数据时效性在企业运营中的重要性日益凸现&＃xff0c;需要响应更快更及时。

三、实时数仓和统一数据服务技术方案

&＃xff08;一&＃xff09;整体技术架构

技术架构主要分为四个部分&＃xff0c;分别是数据ETL、实时数仓、离线数仓和数据应用。

数据ETL是对业务数据库和业务日志进行实时处理&＃xff0c;统一使用Flink实时计算&＃xff0c;
实时数仓中数据实时处理后进入Hologres存储与分析
业务冷数据存储在Hive离线数仓&＃xff0c;并同步到Hologres做进一步的数据分析处理
由Hologres统一对接常用的 BI工具&＃xff0c;如Tableau、Quick BI、DataV和业务系统等。

&＃xff08;二&＃xff09;实时数仓数据模型

如上所示&＃xff0c;实时数仓和离线数仓有一些相似的地方&＃xff0c;只不过少一些其它层的链路。

第一层是原始数据层&＃xff0c;数据来源有两种类型&＃xff0c;一种是业务库的Binlog&＃xff0c;第二种是服务器的业务日志&＃xff0c;统一用Kafka作为存储介质。
第二层是数据明细层&＃xff0c;将原始数据层Kafka里面的信息进行ETL提取&＃xff0c;作为实时明细存储至Kafka。这样做的目的是为了方便下游不同消费者同时订阅&＃xff0c;同时方便后续应用层的使用。维表数据也是通过Hologres存储&＃xff0c;来满足下面的数据关联或者条件过滤。
第三是数据应用层&＃xff0c;这里除了打通Hologres&＃xff0c;还使用了Hologres对接了Hive&＃xff0c;由Hologres统一提供上层应用服务。

&＃xff08;三&＃xff09;整体技术架构数据流

下面的数据流图可以具象加深整体架构的规划和数仓模型整体的数据流向。

从图中可以看出&＃xff0c;主要分为三个模块&＃xff0c;第一个是集成处理&＃xff0c;第二个是实时数仓&＃xff0c;第三块是数据应用。

从数据的流入流出看到主要的核心有两点&＃xff1a;

第一个核心是Flink的实时计算&＃xff1a;可以从Kafka获取&＃xff0c;或者直接Flink cdt读取MySQL Binlog数据&＃xff0c;或者直接再写回Kafka集群&＃xff0c;这是一个核心。
第二个核心是统一数据服务&＃xff1a;现在统一数据服务是由Hologres完成&＃xff0c;避免数据孤岛产生的问题&＃xff0c;或者一致性难以维护等&＃xff0c;也加速了离线数据的分析。

四、具体实践细节

&＃xff08;一&＃xff09;大数据技术选型

方案执行分为两个部分&＃xff1a;实时与服务分析。实时方面我们选择了阿里云Flink全托管的方式&＃xff0c;它主要有以下几方面优点&＃xff1a;

1&＃xff09;状态管理与容错机制&＃xff1b;

2&＃xff09;Table API和Flink SQL支持&＃xff1b;

3&＃xff09;高吞吐低延迟&＃xff1b;

4&＃xff09;Exactly Once语义支持&＃xff1b;

5&＃xff09;流批一体&＃xff1b;

6&＃xff09;全托管等增值服务。

服务分析方面我们选择了阿里云Hologres交互式分析&＃xff0c;它带来了几点好处&＃xff1a;

1&＃xff09;极速响应分析&＃xff1b;

2&＃xff09;高并发读写&＃xff1b;

3&＃xff09;计算存储分离&＃xff1b;

4&＃xff09;简单易用。

&＃xff08;二&＃xff09;实时大屏业务实践落地

上图为业务实时大屏新旧方案对比。

以订单为例&＃xff0c;旧方案中的订单是从订单从库通过DTS同步到另一个数据库&＃xff0c;这虽然是实时的&＃xff0c;但是在计算与处理这方面&＃xff0c;主要是通过定时任务&＃xff0c;比如调度间隔时间设为1分钟或者5分钟来完成数据的实时更新&＃xff0c;而销售层、管理层需要更实时地掌握业务动态&＃xff0c;&＃xff0c;因此并不能算真正意义上的实时。除此之外&＃xff0c;响应慢且不稳定也是很大的问题。

新方案采用的是Flink实时计算&＃43;Hologres架构。

开发方式完全是可以利用Flink的SQL支持&＃xff0c;对于我们之前的MySQL计算开发方式&＃xff0c;可以说是一个无缝的迁移&＃xff0c;实现快速落地。数据分析和服务统一使用Hologres。还是以订单为例&＃xff0c;比如今日订单营收额&＃xff0c;今日订单用户数或者今日订单用户量&＃xff0c;随着业务多样性的增加&＃xff0c;可能需要增加城市维度。通过Hologres的分析能力&＃xff0c;可以完美支撑营收额、订单量、订单用户数以及城市维度的一些指标做快速展示。

&＃xff08;三&＃xff09;实时数仓和统一数据服务实践落地

以某块业务场景为例&＃xff0c;比如量级比较大的业务日志&＃xff0c;日均数据量在TB级别。下面先来分析一下旧方案的痛点&＃xff1a;

数据时效性差&＃xff1a;由于数据量较大&＃xff0c;所以在旧方案中使用了每小时离线调度的策略进行数据计算。但是该方案时效性较差&＃xff0c;无法满足众多业务产品的实时需求&＃xff0c;例如硬件系统需要实时知道设备当前状态&＃xff0c;如告警、错误、空仓等&＃xff0c;以及时做出相应的决策行动。
数据孤岛&＃xff1a;旧方案使用Tableau对接大量业务报表&＃xff0c;报表用于分析过去一个小时或者过去一天&＃xff0c;设备上报有多少数量&＃xff0c;哪些设备上报出现异常等。针对不同的场景&＃xff0c;会将之前通过Spark离线计算的数据&＃xff0c;再备份存储到MySQL或者Redis上。这样就多套系统&＃xff0c;形成数据孤岛&＃xff0c;这些数据孤岛对平台维护是一个巨大的挑战。

现在通过2.0 Flink&＃43;Hologres架构&＃xff0c;可以将业务日志进行改造。

以前TB级别的日志量在Flink高分子低延迟的计算框架下完全没有压力。例如之前的flume HDFS到Spark的一个链路直接被废弃&＃xff0c;取而代之的是Flink&＃xff0c;我们只需要维护一个Flink的计算框架即可。
设备状态数据采集的时候都是一些非结构的数据&＃xff0c;需要对数据进行清洗&＃xff0c;之后再返回Kafka&＃xff0c;因为消费者可能是多样化的&＃xff0c;这样可以方便下游的多个消费者同时订阅。
在刚才的场景中&＃xff0c;硬件系统需要高并发、实时查询上千万的设备&＃xff08;充电宝&＃xff09;状态&＃xff0c;对服务能力的要求较高。通过Hologres提供高并发读写能力&＃xff0c;关联状态设备建立主键表&＃xff0c;可以实时更新状态&＃xff0c;满足CRM系统对设备&＃xff08;充电宝&＃xff09;的实时查询。
同时在Hologres还会存最近的热点明细数据&＃xff0c;直接提供对外服务。

&＃xff08;四&＃xff09;业务支撑效果

通过Flink&＃43;Hologres的新方案&＃xff0c;我们支撑了三大场景&＃xff1a;

1&＃xff09;实时大屏

业务层面更高效地迭代多样化需求&＃xff0c;同时降低了开发、运维维护开销。

2&＃xff09;统一数据服务

通过一个HSAP系统来实现服务/分析一体化&＃xff0c;避免数据孤岛以及一致性、安全性等问题。

3&＃xff09;实时数仓

满足企业运营中对于数据时效性越来越高的要求&＃xff0c;秒级响应。

五、未来规划

伴随着业务的迭代&＃xff0c;我们未来在大数据平台的规划主要有两点&＃xff1a;流批一体和完善实时数仓。

现在的大数据平台总的来说还是离线架构和实时架构混合&＃xff0c;后续会废弃冗余的离线代码架构&＃xff0c;借助Flink的流批一体统一计算引擎。
另外&＃xff0c;我们目前只迁移了部分业务&＃xff0c;所以会参考之前已经完善的离线数仓指标系统体系&＃xff0c;来满足我们现在的实时数仓建设&＃xff0c;全面迁移到2.0 Flink&＃43;Hologres架构上。

通过未来的规划&＃xff0c;我们希望同Flink全托管和Hologres一起共建更加完善的实时数仓&＃xff0c;但也在此对其有着更近一步的需求&＃xff1a;

&＃xff08;一&＃xff09;对Flink全托管的需求

Flink全托管中的SQL编辑器编写FlinkSQL作业很高效方便&＃xff0c;并且也提供了很多常见的SQL上下游 Connector满足开发需求。但是仍有一些需求希望Flink全托管在后续的迭代中支持&＃xff1a;

SQL作业版本控制和兼容性监测&＃xff1b;
SQL作业支持Hive3.X集成&＃xff1b;
DataStream作业打包更方便、资源包上传速度更快&＃xff1b;
Session集群模式部署的任务支持自动调优功能。

&＃xff08;二&＃xff09;对Hologres交互式分析的需求

Hologres不仅能够支持高并发地实时写入和查询&＃xff0c;并且兼容PostgreSQL生态&＃xff0c;方便接入使用统一数据服务。但是仍有一些需求希望Hologres能在后期迭代中支持&＃xff1a;

支持热升级操作&＃xff0c;减少对业务的影响&＃xff1b;
支持数据表备份、支持读写分离&＃xff1b;
支持加速查询阿里云EMR-Hive数仓&＃xff1b;
支持对用户组进行计算资源管理。

作者&＃xff1a;陈健新&＃xff0c;来电科技数据仓库开发工程师&＃xff0c;目前专注于负责来电科技大数据平台离线和实时架构的整合。

原文链接

本文为阿里云原创内容&＃xff0c;未经允许不得转载。

推荐阅读

sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
ip
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
ip
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
go
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
sum
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
sum
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
php
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
php
上海市地理位置解析：纬度详细分析

9月10日，ShanghaiApacheSparkMeetup聚会在上海通茂大酒店成功举办。本次活动邀请到运营商和高校讲师来分享经验，主题覆盖了从Spark研发到应用的各种不同视角 ... [详细]

蜡笔小新 2024-10-22 20:30:31
go
FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL：【案例】三度关系推荐V1.0版本11：每周一计算最近一月主播视频评级

一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步：历史粉丝关注数据初始化第二步：实时维护粉丝关注数据第三步：每天定 ... [详细]

蜡笔小新 2024-10-17 15:50:44
go
触发器的稳态数量分析及其应用价值

本文对数据库中的SQL触发器进行了稳态数量的详细分析，探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现，揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外，还介绍了如何在Ubuntu 22.04环境下配置和使用触发器，以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]

蜡笔小新 2024-11-08 18:09:54
go
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
ip
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
ip
优化后的标题：利用Hive分析用户最长连续登录天数

本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序，然后计算相邻日期之间的差值，接着按用户ID分组并累加连续登录天数，最后求出每个用户的最大连续登录天数。此外，还探讨了该方法在其他领域的应用，如股票市场中最大连续涨停天数的分析。 ... [详细]

蜡笔小新 2024-10-27 21:47:17
go
深入解析Spring Boot源码的序章

本系列文章旨在深入解析Spring Boot的源代码，分享笔者在学习过程中的心得与体会。内容涵盖核心源码分析，可能会对初学者造成一定理解难度，建议读者结合笔者提供的详细注释进行阅读，以获得更好的学习体验。 ... [详细]

蜡笔小新 2024-10-27 12:36:14

a52713849_937

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章