热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

简单概述企业级大数据云平台该如何规划

一、大数据云平台应当具备Realtime实时海量实时计算数据实时录入动态实时标签平台实时监控数据实时应用Efficient高效一键高

一、大数据云平台应当具备

Real time 实时

  • 海量实时计算

  • 数据实时录入

  • 动态实时标签

  • 平台实时监控

  • 数据实时应用

Efficient 高效

  • 一键高效部署

  • 数据高效整合

  • 资源高效分配

  • 模型高效计算

Control 监控

  • 硬件监控

  • 系统监控

  • 数据监控

  • 安全监控

  • 权限监控

Value 价值

  • 数据安全高

  • 软硬件成本低

  • 执行时间少

  • 数据价值大

二、分布式数据系统

以数据价值和平台服务为导向,集成数据接入、整合、存储、计算和监控的分布式数据系统。

三、体现核心优势

数据接入

  • 快速地整合同步存储在不同类型数据库中的数据,解决生产环境中ORACLE、MYSQL、文本、日志等主流数据库的结构化数据和非结构化数据的同步问题。

数据存储

  • 建立分布式存储、分布式内存计算、分布式索引等技术,解决传统数据库面临的数据增长问题,可不停机情况下动态扩容。所有数据自动备份,不再需要混合架构,不再需要多数据库集群。

平台管理

  • 为了更好地让开发及业务人员操作方便,提供数据查询、算法仓库、数据脱敏、监控预警、系统管理等可视化配置界面。

计算平台

  • 集成交互式SQL、实时数据检索、机器学习、内存计算、流式计算、全文检索等技术,实现多数据源、多数据场景及多数据模型的联合计算平台,比传统型数据仓库和开源版分布式架构计算效率提升5-10倍。

四、技术提升点

批量数据导入效率

  1. 多线程并发抽取,缩短抽取时间,抽取效率提升约100%。如:400张表(5G数据容量),单线程串行抽取耗时约2个小时,8-16线程并发抽取耗时约1小时10分钟;

  2. 数据库整库抽取,数据源统一配置修改,提升部署效率(五分钟即可完成整库的数据抽取任务与定时调度任务的部署)。

流数据效率

支持按时间与按大小分隔当前输出日志,实现准实时的读写分离,提升日志提取实时率。可将日志实时同步率由T+1提升至毫秒级。

数据同步

  1. 支持Oracle数据库到Hdfs、Hbase的实时数据同步,同步时间可达到毫秒级,对Oracle源系统性能影响在0.01%以下;

  2. 支持Mysql数据库到Hdfs、Hbase的实时数据同步,同步时间可达到毫秒级,对Mysql源系统性能不受任何影响;

  3. 支持Nosql、内存数据库、网络爬虫、文件数据、第三方数据的同步及导入功能。

SQOOP功能

  1. 处理原sqoop组件无法抽取的oracle含有clob与blob字段的数据表的问题。抽取数据覆盖率提升至98%;

  2. 自动化重启因为jobFailed引起的抽取报错的数据表的抽取进程。数据抽取容错率提升10%;

  3. 同时支持Hive与hbase两种导入格式,可配置具体抽取方案。抽取数据的准确率提升至97%。

Flume功能

  1. 支持多台服务器日志,以及同台服务器多份日志的同时收集功能;

  2. 提供小文件的自动合并功能。优化HDFS文件存储,与任务执行效率,存储优化约节约90%的文件存储空间,降低90%的mapReduce任务数。

Hcinload功能

  1. 支持Oracle、Mysql、MongoDB、DB2、Txt、Csv、Http等多数据源批量、实时同步功能,并实现多数据源、多数据格式同时并发的实时导入;

  2. 支持百度统计、GA、微信等第三发平台的数据对接和导入;

  3. 支持WEB、APP端采集的网页数据、网站行为数据、APP数据的采集、实时同步功能。

Yarn

  1. 提升mapReduce运行效率;

  2. 提升资源调度效率;

  3. 提高磁盘容错率;

  4. 提升metadata的稳定性。

HDFS

  1. 提升hadoop原生系统稳定性,有连续有效运行时间超过700天的实施案例。

  2. 优化HDFS中文件块的存储规则,系统整体容错性提升10%、任务运行效率约提升15%、网络传输消耗约降低15%。

HIVE

  1. 提供稳定的hive-jdbc程序调用接口,解决原hive-jdbc接口12次调用约有一次失败的问题,容错率提升8%;

  2. 与Hbase进行整合,hive-sql的数据结果准确度提升至95%;

  3. 根据不同情况分配不同的mapReduce设置参数,提升hive-sql运行效率,运行效率约提升20%。

Hbase

  1. 提升高效的key-value形式的数据调用效率,支撑大并发的前台应用。可支持每秒十万并发调用下的毫秒级数据返回;

  2. 提供较高数据完整性与一致性的数据存放,与hive整合,提供hive调用hbase数据功能,数据准确率提升至97%,hive-sql的数据结果准确度提升至95%;

  3. 根据需求提供高效的hbase二级索引功能。提高复杂查询需求的查询效率。约提升查询效率40%。

Hcupload

  1. 支持60M/S的HDFS、HIVE、Hbase、Mysql、Redis等多数据载体的数据写入效率;

  2. 按时间、大小、行业及职能等不同方式分隔当前数据,实现实时数据分类后上传;

  3. 提供小文件的自动合并功能。

ZooKeeper

  1. 优化zookeeper主从选举机制;

  2. 提升分布式数据更新效率与一致性。

Gum

  1. 适用所有类型样本分布规律,包括非高斯分布、不均匀密度、复杂高维空间的模型支持;

  2. 提升算法在不同类型样本下的鲁棒性、抗噪音和异常值,算法适用性和稳定性提升10倍;

  3. 算法准确率提升85%;

  4. 算法运行时间平均缩短46%。

五、核心能力目标
  • 日均10亿条数据实时处理能力;

  • 累计5PB数据存储与计算能力;

  • 上千台分布式集群连续3年不间断运行能力

更 多 精 彩 内 容 请 关 注 公 众 号(weikefangan),谢谢!



推荐阅读
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • Redis:缓存与内存数据库详解
    本文介绍了数据库的基本分类,重点探讨了关系型与非关系型数据库的区别,并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]
  • 对象存储与块存储、文件存储等对比
    看到一篇文档,讲对象存储,好奇,搜索文章,摘抄,学习记录!背景:传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 分布式计算助力链力实现毫秒级安全响应,确保100%数据准确性
    随着分布式计算技术的发展,其在数据存储、文件传输、在线视频、社交平台及去中心化金融等多个领域的应用日益广泛。国际知名企业如Firefox、Google、Opera、Netflix、OpenBazaar等均已采用该技术,推动了技术创新和服务升级。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • 从理想主义者的内心深处萌发的技术信仰,推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]
  • 本文探讨了一种统一的语义数据模型,旨在支持物联网、建筑及企业环境下的数据转换。该模型强调简洁性和可扩展性,以促进不同行业间的插件化和互操作性。对于智能硬件开发者而言,这一模型提供了重要的参考价值。 ... [详细]
  • 8个IDC大数据基础定义解析丨IDC
    本文针对IDC数据行业相关名词术语进行解析,分为4组相关概念,希望大家读完 ... [详细]
  • Java EE 平台集成了多种服务、API 和协议,旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • MongoDB核心概念详解
    本文介绍了NoSQL数据库的概念及其应用场景,重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]
author-avatar
ccsv0601604
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有