作者:福州精诚小家电 | 来源:互联网 | 2023-08-16 08:29
离线数据仓库项目:需求来自二个方面流量域需求:业务域需求:整体方案:数据收集:主要收集了用户行为数据和业务数据用户行为数据1,日志前端埋点,生成日志数据2,数据采集
离线数据仓库项目:
需求来自二个方面
流量域需求:
业务域需求:
整体方案:
数据收集:主要收集了用户行为数据和业务数据
用户行为数据
1,日志前端埋点,生成日志数据
2,数据采集
3,kafka缓存
4,Flume采集落地hdfs
5,日志预处理
6,落hive数仓明细层
业务数据
1,业务系统增删改数据库,形成数据
2,Sqoop/DataX数据抽取
3,落hive数仓明细层
4,增量合并处理
数据仓库
A.项目中主要涉及技术:
数据采集:FLUME
存储平台:HDFS
基础设施:HIVE
运算引擎:SPARK SQL
资源调度:YARN
任务调度:AZKABAN
元数据管理:ATLAS
B.模型设计:维度建模
事实表:记录事实的表;比如,订单表,注册表,购物车,退货表,浏览日志表
维度表:对维度的详细描述信息;比如,地域维表,产品维表,品类维表,栏目维表,时间维表;
C.数仓分层运算
ODS层:对应着外部数据源ETL到数仓体系之后的表
数据内容:存放flume采集过来的原始日志
存储格式:以json格式文本文件存储
存储周期:3个月
数据来源于PC,APP,小程序端产生的各类日志
1.将日志服务器的数据通过kafka采集到HDFS中.将数据加载到Hive表中.
2.数据来源于业务系统中的数据库mysql,使用sqoop抽取工具将数据从mysql导入到hdfs中,再将数据加载到Hive表中
DWD层:数仓明细层;一般是对ODS层的表按主题进行加工和划分;本层中表记录的还是明细数据;
数据内容:对ODS层数据做ETL处理后的扁平化明细数据
存储格式:以orc / parquet文件格式存储
存储周期:6个月
流量域:对ODS层的数据进行数据清洗过滤,SESSION分割,数据规范处理,维度集成,新老访客标记等,再保存到DWD层
业务域:抽取ODS层的增量数据,与DWD层的全量数据合并,再次写入DWD层.如订单数据,红包活动明细等
DWS层:数仓汇总层;
数据内容:根据主题分析需求,从DWD中轻度聚合后的数据
存储格式:以ORC/PARQUET文件格式存储
存储周期:1年
对DWD层数据进行轻度聚合,主要为用户行为分析,新用户留存,用户活跃度,订单金额表等
ADS层: 应用层,主要是一些结果报表!
数据内容:根据业务人员需求,从DWS计算出来的报表
存储格式:以ORC/PARQUET文件格式存储
存储周期:3年
在公司实际需求的基础上,通过DWS层聚合得到的报表