热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

101页4万字XX大数据湖项目建设方案

目录1.项目综述1.1.项目背景1.2.项目目标1.3.项目建设路线2需求分析2.1功能需求2.1.1统一数据接入2.1.2数据迁移2.1.3数据范围与ETL2

目  录

1. 项目综述

1.1. 项目背景

1.2. 项目目标

1.3. 项目建设路线

2 需求分析

2.1功能需求

2.1.1 统一数据接入

2.1.2 数据迁移

2.1.3 数据范围与ETL

2.1.4 报表平台

2.1.5 安全管理

2.1.6 数据治理

2.2非功能需求

2.2.1运维保障需求

2.2.2可用性需求

2.2.3可靠性需求

2.2.4性能需求

2.3需求总结

3 整体解决方案

3.1 数据湖整体方案

3.1.1硬件部署方式

3.1.2基于CDH的数据湖软件部署

3.1.3数据ETL及数据接口开发方案

3.1.4沙盒管理

3.1.5多租户管理

3.2报表平台整体方案

3.2.1系统设计原则

3.2.2数据分析场景

3.2.3业务需求建议

3.2.4系统逻辑架构

3.2.5技术方案特点

3.2.6其它特性

3.2.7  报表平台具体实施步骤:

3.3数据仓库整体方案

3.3.1数仓的定义

3.3.2 数据仓库的特点

3.3.2 数据仓库具体实施步骤

3.4数据治理整体方案

3.4.1主数据管理实施

3.4.2元数据管理实施

4  企业版功能和特性

4.1  CDH核心套件

4.1.1 分布式文件系统HDFS

4.1.2 分布式数据库HBase

4.1.3 统一资源管理和调度框架YARN

4.1.4 分布式批处理引擎MapReduce

4.1.5 分布式内存计算框架Spark

4.1.6 数据仓库组件Hive

4.1.7 安全管理组件 Sentry

4.1.8 隐私保护

4.1.9 统一用户体验工具 HUE

4.1.10 元数据管理Metastore&HCatalog

4.1.11 高性能数据分析MPP引擎 Impala

4.1.12 数据导入导出工作Sqoop

4.1.13 消息处理总线Kafka

4.2  Manager集群管理组件

4.3  Navigator数据管理组件

5 项目建设

5.1项目实施计划

5.1.1项目实施服务

5.1.2人员构成

5.2验收说明

5.2.1验收依据

5.2.2验收内容和方式

5.3项目风险评估

6 6项目培训

6.1   培训服务简介

在线学习资源

6.2  标准课程简介

Hadoop集群管理课程

Hadoop技术开发课程

Hadoop数据分析课程

培训课程优势

培训质量保障

培训计划定义

6.3智慧企业大数据应用、管控、展示一体化云数据湖维护培训

7售后技术支持服务

7.1提供全程技术支持

7.2全周期技术支持

7.3协调原厂支持

7.3.1全周期的技术支持

7.3.2技术支持种类

7.3.3远程支持

7.3.4服务支持策略

7.4主动技术支持

7.5预测技术支持

7.6知识库3395887101a1c058ac2692003c9f1106.jpeg


1.1. 项目目标

平台层通过对各业务板块各种数据的采集、整理、汇聚,建立一个基于“互联网+”、云计算技术和人工智能技术的数据湖,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台。

业务层公司数据湖融合实时数据库、关系数据库,实现数据资产管理,提供大数据应用和数据分析计算模型。其中,实时数据是主要的数据形式,实时数据库集群承担高通量数据接入的任务同时,为总部实时业务应用系统提供高实时性的数据查询、计算、组态数据源服务,同时完成数据的标准化、格式化、清洗和整理,将整齐的数据通过Kafka或其他适配器等方式输出到Hadoop数据湖,并负责提供从Hadoop平台到实时库等其他所需数据应用的输入输出组件。数据集中、挖掘,对实现与下属单位互联互通、智能处理、智能协同的目标,使用标准化、自动化、数字化、信息化、智能化等手段,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台,形成具有“自分析、自诊断、自管理、自趋优、自恢复、自学习、自提升”为特征的智慧企业生态系统。

展示层随着数据湖数据存储、分析、挖掘的深入应用,将极大的激发各部门、各层级对于业务数据的分析和探索,在此之上的数据报表展示需求也将呈现复杂性、综合性、多终端性、个性化等特点。本平台主要目标是建立一个快速的可视化报表平台,无缝化对接数据湖,提供丰富的报表展示功能,面对各层次人员提供对应的数据报表及分析服务。

基于此平台,我们不仅可以在报表开发过程中,加快开发速度,提高数据应用的及时性,还可以在业务需求变更、调整后,大大的降低维护难度,实现可视化做到随需应变。最终在深入完善复杂报表、打印导出、图形化分析、移动决策、大屏监控、自助分析等多个可视化分析领域的支撑。


1.2. 项目建设路线

第一期:建设企业数据湖,梳理企业应用系统内部的业务数据类型,数据量;将结构化、非结构化数据打标签导入数据湖中心湖中,构建视频池、文本池和应用池分类。对某些应用场景构建BI报表分析。

第二期:建立主数据管理和数仓,ETL规范和流程,数据安全管理,数据可视化管理,数据监控的管理。梳理数据湖使用人员的角色和权限,对数据湖进行基于业务需求场景的多租户管理。根据业务的微服务化,逐步构建企业大数据微服务平台,细粒度的平台资源管理。

第三期:数据的深化应用,一体化管控数据标准和数据治理,深化主数据消费和应用。逐步将应用的数据来源迁移至数据湖中,形成数据应用平台、数据挖掘和BI报表平台,人工智能和机器学习平台。


2 需求分析


2.1功能需求

数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业BI报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。

3059aebb14d2dd9285ce2b7528bd31c5.jpeg

文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。


推荐阅读
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文来自微信公众号:界面新闻(ID:wowjiemian),作者:席菁华,头图来自:视觉中国海底打桩,安装基座,吊装塔筒、机舱、叶片……北至山东,南至广东,在中国东部广袤的海域上, ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文详细介绍了Java代码分层的基本概念和常见分层模式,特别是MVC模式。同时探讨了不同项目需求下的分层策略,帮助读者更好地理解和应用Java分层思想。 ... [详细]
  • PTArchiver工作原理详解与应用分析
    PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制,探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略,实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例,为用户提供了实用的操作建议和技术支持。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • 本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序,然后计算相邻日期之间的差值,接着按用户ID分组并累加连续登录天数,最后求出每个用户的最大连续登录天数。此外,还探讨了该方法在其他领域的应用,如股票市场中最大连续涨停天数的分析。 ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • 【漫画解析】数据已删,存储空间为何未减?揭秘背后真相
    在数据迁移过程中,即使删除了原有数据,存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说,使用 `mysqldump` 命令进行数据导出时,该工具作为 MySQL 的逻辑备份工具,通过连接数据库并查询所需数据,将其转换为 SQL 语句。然而,这种操作并不会立即释放存储空间,因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理,以确保数据删除后能够有效回收存储空间。 ... [详细]
  • Phoenix 使用体验分享与深度解析
    闲来无事看了下hbase方面的东西,发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作:启动hadoop集群启动zookkeeper启动hba ... [详细]
author-avatar
NHHermit
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有