核心点:了解互联网仓库是做什么的,数仓生态体系,数仓人员接触的产品。
数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。
首先当一个公司业务体系可以实现商业化变现,需要通过数据来精细化运营,通过数据科学来指导商业决策,需要一套敏捷的数据来决策公司的业务策略,而数据仓库是整个公司体系的中间层,上对接产品分析,下对接平台开发,左对接业财一体,右对接审计工作。
存储系统:HBase、Kudu、Hdfs
即时查询:Impala、Presto
计算引擎:Hive、Tez、Spark
实时计算:Sparkstreaming、Flink
Olap: Druid、ClickHouse、Kylin、Doris
建模工具: Erwin、powerdesigner、visio、PDMan
消息队列MQ:Kafka、ActiveMQ、RabbitMQ、RocketMQ
离线数仓和实时数仓最大的区别在实时性和逻辑复杂性差异,在架构层次上离线数仓需要有层级关系而实时数仓不需要遵循层级关系。
如:实时数据架构
Lambda架构:在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算
Kappa架构:实时事件处理为核心,统一数据处理
离线数据架构:ODS-DW-DMD-DMS-ADS
离线数仓处理的数据最低H+10分钟级别,可以处理更加复杂的业务逻辑,而实时数仓作为流处理,无法处理复杂的业务逻辑(如:数据漂移、数据回刷等问题) 大家一直都在说流批一体,但是有多少公司真的做到了呢?
推荐架构
离线数仓:
Hadoop+Presto+tez/Spark+ClickHouse/Doris
实时数仓:
Kafka+Flink+ClickHouse
数仓(离线+实时)
数据分析 (a/b实验分析、漏斗转化、分类统计、业务功能问题等)
数据挖掘(基础算法模型和主流算法模型)
数据产品(用户画像/指标体系/数据资产体系)
语言(Java、Python、sql、Go、shell等)
今天就先到这里吧......