热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

参与的项目

离线数据仓库项目:需求来自二个方面流量域需求:业务域需求:整体方案:数据收集:主要收集了用户行为数据和业务数据用户行为数据1,日志前端埋点,生成日志数据2,数据采集

离线数据仓库项目:
需求来自二个方面
流量域需求:
业务域需求:

整体方案:
数据收集:主要收集了用户行为数据和业务数据
用户行为数据
1,日志前端埋点,生成日志数据
2,数据采集
3,kafka缓存
4,Flume采集落地hdfs
5,日志预处理
6,落hive数仓明细层
业务数据
1,业务系统增删改数据库,形成数据
2,Sqoop/DataX数据抽取
3,落hive数仓明细层
4,增量合并处理

数据仓库
A.项目中主要涉及技术:
数据采集:FLUME
存储平台:HDFS
基础设施:HIVE
运算引擎:SPARK SQL
资源调度:YARN
任务调度:AZKABAN
元数据管理:ATLAS

B.模型设计:维度建模
事实表:记录事实的表;比如,订单表,注册表,购物车,退货表,浏览日志表
维度表:对维度的详细描述信息;比如,地域维表,产品维表,品类维表,栏目维表,时间维表;

C.数仓分层运算
ODS层:对应着外部数据源ETL到数仓体系之后的表
数据内容:存放flume采集过来的原始日志
存储格式:以json格式文本文件存储
存储周期:3个月
数据来源于PC,APP,小程序端产生的各类日志
1.将日志服务器的数据通过kafka采集到HDFS中.将数据加载到Hive表中.
2.数据来源于业务系统中的数据库mysql,使用sqoop抽取工具将数据从mysql导入到hdfs中,再将数据加载到Hive表中

DWD层:数仓明细层;一般是对ODS层的表按主题进行加工和划分;本层中表记录的还是明细数据;
数据内容:对ODS层数据做ETL处理后的扁平化明细数据
存储格式:以orc / parquet文件格式存储
存储周期:6个月
流量域:对ODS层的数据进行数据清洗过滤,SESSION分割,数据规范处理,维度集成,新老访客标记等,再保存到DWD层
业务域:抽取ODS层的增量数据,与DWD层的全量数据合并,再次写入DWD层.如订单数据,红包活动明细等

DWS层:数仓汇总层;
数据内容:根据主题分析需求,从DWD中轻度聚合后的数据
存储格式:以ORC/PARQUET文件格式存储
存储周期:1年
对DWD层数据进行轻度聚合,主要为用户行为分析,新用户留存,用户活跃度,订单金额表等

ADS层: 应用层,主要是一些结果报表!
数据内容:根据业务人员需求,从DWS计算出来的报表
存储格式:以ORC/PARQUET文件格式存储
存储周期:3年
在公司实际需求的基础上,通过DWS层聚合得到的报表


推荐阅读
author-avatar
福州精诚小家电
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有