作者:NHHermit | 来源:互联网 | 2023-08-04 11:32
目录1.项目综述1.1.项目背景1.2.项目目标1.3.项目建设路线2需求分析2.1功能需求2.1.1统一数据接入2.1.2数据迁移2.1.3数据范围与ETL2
目 录
1. 项目综述
1.1. 项目背景
1.2. 项目目标
1.3. 项目建设路线
2 需求分析
2.1功能需求
2.1.1 统一数据接入
2.1.2 数据迁移
2.1.3 数据范围与ETL
2.1.4 报表平台
2.1.5 安全管理
2.1.6 数据治理
2.2非功能需求
2.2.1运维保障需求
2.2.2可用性需求
2.2.3可靠性需求
2.2.4性能需求
2.3需求总结
3 整体解决方案
3.1 数据湖整体方案
3.1.1硬件部署方式
3.1.2基于CDH的数据湖软件部署
3.1.3数据ETL及数据接口开发方案
3.1.4沙盒管理
3.1.5多租户管理
3.2报表平台整体方案
3.2.1系统设计原则
3.2.2数据分析场景
3.2.3业务需求建议
3.2.4系统逻辑架构
3.2.5技术方案特点
3.2.6其它特性
3.2.7 报表平台具体实施步骤:
3.3数据仓库整体方案
3.3.1数仓的定义
3.3.2 数据仓库的特点
3.3.2 数据仓库具体实施步骤
3.4数据治理整体方案
3.4.1主数据管理实施
3.4.2元数据管理实施
4 企业版功能和特性
4.1 CDH核心套件
4.1.1 分布式文件系统HDFS
4.1.2 分布式数据库HBase
4.1.3 统一资源管理和调度框架YARN
4.1.4 分布式批处理引擎MapReduce
4.1.5 分布式内存计算框架Spark
4.1.6 数据仓库组件Hive
4.1.7 安全管理组件 Sentry
4.1.8 隐私保护
4.1.9 统一用户体验工具 HUE
4.1.10 元数据管理Metastore&HCatalog
4.1.11 高性能数据分析MPP引擎 Impala
4.1.12 数据导入导出工作Sqoop
4.1.13 消息处理总线Kafka
4.2 Manager集群管理组件
4.3 Navigator数据管理组件
5 项目建设
5.1项目实施计划
5.1.1项目实施服务
5.1.2人员构成
5.2验收说明
5.2.1验收依据
5.2.2验收内容和方式
5.3项目风险评估
6 6项目培训
6.1 培训服务简介
在线学习资源
6.2 标准课程简介
Hadoop集群管理课程
Hadoop技术开发课程
Hadoop数据分析课程
培训课程优势
培训质量保障
培训计划定义
6.3智慧企业大数据应用、管控、展示一体化云数据湖维护培训
7售后技术支持服务
7.1提供全程技术支持
7.2全周期技术支持
7.3协调原厂支持
7.3.1全周期的技术支持
7.3.2技术支持种类
7.3.3远程支持
7.3.4服务支持策略
7.4主动技术支持
7.5预测技术支持
7.6知识库
1.1. 项目目标
平台层通过对各业务板块各种数据的采集、整理、汇聚,建立一个基于“互联网+”、云计算技术和人工智能技术的数据湖,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台。
业务层公司数据湖融合实时数据库、关系数据库,实现数据资产管理,提供大数据应用和数据分析计算模型。其中,实时数据是主要的数据形式,实时数据库集群承担高通量数据接入的任务同时,为总部实时业务应用系统提供高实时性的数据查询、计算、组态数据源服务,同时完成数据的标准化、格式化、清洗和整理,将整齐的数据通过Kafka或其他适配器等方式输出到Hadoop数据湖,并负责提供从Hadoop平台到实时库等其他所需数据应用的输入输出组件。数据集中、挖掘,对实现与下属单位互联互通、智能处理、智能协同的目标,使用标准化、自动化、数字化、信息化、智能化等手段,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台,形成具有“自分析、自诊断、自管理、自趋优、自恢复、自学习、自提升”为特征的智慧企业生态系统。
展示层随着数据湖数据存储、分析、挖掘的深入应用,将极大的激发各部门、各层级对于业务数据的分析和探索,在此之上的数据报表展示需求也将呈现复杂性、综合性、多终端性、个性化等特点。本平台主要目标是建立一个快速的可视化报表平台,无缝化对接数据湖,提供丰富的报表展示功能,面对各层次人员提供对应的数据报表及分析服务。
基于此平台,我们不仅可以在报表开发过程中,加快开发速度,提高数据应用的及时性,还可以在业务需求变更、调整后,大大的降低维护难度,实现可视化做到随需应变。最终在深入完善复杂报表、打印导出、图形化分析、移动决策、大屏监控、自助分析等多个可视化分析领域的支撑。
1.2. 项目建设路线
第一期:建设企业数据湖,梳理企业应用系统内部的业务数据类型,数据量;将结构化、非结构化数据打标签导入数据湖中心湖中,构建视频池、文本池和应用池分类。对某些应用场景构建BI报表分析。
第二期:建立主数据管理和数仓,ETL规范和流程,数据安全管理,数据可视化管理,数据监控的管理。梳理数据湖使用人员的角色和权限,对数据湖进行基于业务需求场景的多租户管理。根据业务的微服务化,逐步构建企业大数据微服务平台,细粒度的平台资源管理。
第三期:数据的深化应用,一体化管控数据标准和数据治理,深化主数据消费和应用。逐步将应用的数据来源迁移至数据湖中,形成数据应用平台、数据挖掘和BI报表平台,人工智能和机器学习平台。
2 需求分析
2.1功能需求
数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业BI报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。
文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。