热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

大数据教育平台数据仓库系统搭建附安装包与脚本

一、数仓项目需求及架构设计数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业

一、数仓项目需求架构设计

数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。

1、项需求分析


  1. 数据采集平台搭建;
  2. 实现数据仓库分层的搭建;
  3. 实现数据清洗、聚合、计算等操作;
  4. 统计各指标,如统计通过各地址跳转注册的用户人数、统计各平台的用户人数、统计支付金额topN的用户; 


2、项目框架

1)技术选型

  1. 数据存储:Hdfs
  2. 数据处理:Hive、Spark
  3. 任务调度:Azkaban

2)流程设计

框架版本选型: 

如何选择Apache/CDH/HDP版本?

Apache∶运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)。

CDH∶国内使用最多的版本,但CM不开源,但其实对中、小公司使用来说没有影响(建议使用)。


推荐阅读
author-avatar
mobiledu2502873187
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有