热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

sqlserver大数据量update_大数据管理:构建数据自己的“独门独院”

摘要:海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然。随着社会各行各业的数字化进程
摘要:海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然。

随着社会各行各业的数字化进程,未来几年,数据将指数级增长。据预测,2025年移动终端设备将达到400亿部,IoT设备将达到25万亿个。全球每天产生的数据量更将从2018年的33ZB快速增长到2025年的180ZB。例如,每辆自动驾驶汽车每天产生的数据量约为64TB,按照每台服务器存储120T有效数据来计算,意味着每辆汽车每天产生的数据就需要消耗0.5台服务器存储空间;再比如,某城市200万摄像头,每天产生的数据量为80PB,意味着每天需要消耗的服务器数量为130台。

7aedb32863c7f2898f2561515dde6281.png

这些变化都为数据存储、计算、分析和安全等带来全新的挑战和需求:

第一点:数据量的快速增长,意味着Hadoop原生态2000节点的集群规模已经无法满足数据存储需求,更大规模的集群节点,更大的存储容量,以及与之匹配的计算性能,成为大数据发展的趋势之一;

第二点:数据的多样性含义也得到了扩展,从最初的数据类型的多样性,扩大到数据分布的多样性、数据使用方式的多样性,批处理、流处理、实时检索、交互式分析多种数据使用方式融合,才能满足用户业务场景的需求;

第三点:虽然大数据强调快速,但并不意味着时效性就好。把数据从数据源集成到大数据集群通常都需要经历几个步骤,包括:通过工具把数据库的数据转化为文件,通过数据集成工具把文件批量加载到大数据集群,从数据的产生到数据消费,时效性通常是T+1,这对“反欺诈”、“实时预警”等时效性要求高的业务,带来了风险。

华为云FusionInsight MRS大数据就是在不断理解客户场景需求,感受客户使用痛点,积累丰富经验,打造领先的解决方案。

baa99c0ed694ca9c3c46e8651b4393ad.png

华为云FusionInsight解决方案首席架构师洪福成

大集群:支持单集群2万节点,树立行业新标杆

海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然,其需求主要表现在被动、主动、自我驱动三个方面。

  • 被动因数:数据量爆发式增长,存储空间需求急剧增长;
  • 主动因数:多数据融合在一个数据湖内,消除数据孤岛;
  • 自我驱动:跨部门、跨业务融合分析,业务创新。
8ac01a2ae0c858ef4c72b6081519f319.png

面对政企对大集群的需求,华为云FusionInsight给出了完美解决方案,华为云FusionInsight MRS通过以下四个关键要素实现单集群突破2万节点,树立行业新标杆:

首先,华为自研Superior超级调度器,性能相比开源提升20+倍,可以调度2万+节点规模;

其次,FusionInsight MRS支持数据跨机房、跨DC分布,并且计算任务和数据采用NDP原则就近计算,尽量避免数据跨DC流动,解决机房空间不足问题;

再次,FusionInsight MRS支持滚动升级,运用Hadoop多数据备份,多服务器分布的特点,在升级软件时,分批次、小规模地进行升级和重启,直到整个集群完成升级,业务也不会出现中断。

最后,在HDFS文件目录、元数据缓存、管理信息等方面也做了大量的优化和实践,2020年6月,MRS 2万节点大集群通过信通院测试,性能和稳定性均表现优良,树立了行业新标杆。

湖仓一体:批处理和交互式查询融合, “0”数据搬移

在分析型场景,大数据擅长做批处理加工和离线分析,对时延存在较大的容忍空间。数据仓库擅长做交互式分析,在数据存储容量和数据加工方面存在成本高的问题。因此,传统的做法是把大数据和数据仓库组合起来,大数据存储大量的明细数据,并执行批处理加工任务;然后把加工的结果数据(专题数据),通过工具加载到另外一个数据仓库集群,对外进行高性能交互式分析。这种方案存在查询慢、效率低、成本高等三大难题。

64c0d61b70dbdf57b14d26a070b77655.png

FusionInsight MRS通过湖仓一体的解决方案完美解决上述问题。在湖仓一体解决方案中,数据在同一HDFS存储层内部闭环,数据加工和分析不出湖,数据“0”搬迁;Hive批加工引擎和HetuEngine交互式查询引擎基于YARN进行统一资源调度,资源利用率高,成本更低;MRS构建了多租户体系,可以为Hive加工、HetuEngine交互式分析配置不同的租户,实现多部门业务并行处理,安全性和可扩展性较好。

实时数据湖:数据T+0实时入库、消费、分析

面对传统大数据平台在数据存储中遇到的时延问题,华为云FusionInsight MRS提供了实时数据湖解决方案,支持数据T+0实时入库、消费、分析。

引入CarbonData作为新的存储引擎,CarbonData具备2大特点:查询加速和数据更新。

1.通过增加索引提升数据查询效率,通过支持ACID事务,保障数据的Update和数据一致性;通过高性能查询引擎HetuEngine,对CarbonData的数据和索引进行高性能分析;

2.通过Flink或DAYU-CDM来对数据进行实时获取,实时insert或update到CarbonData中。

数据从入库到查询,都采用了最好的方式,确保时延、性能达到最佳。1TB数据从更新到查询,可以在30秒内完成。

一个企业一个湖:集约高效、易管理

部分客户在使用大数据时,还是采用一个业务一个集群的方式来构建,这里既有缺乏统一数据湖规划的因素,也有开源Hadoop单集群无法满足多种业务场景以及安全隔离的因素。在面对海量数据浪涌时,这种独立式集群建设方式暴露出严重的问题,如资源利用率低、分析效率低、运维管理困难等。

accba94627b8e7a3f7c98951925818d8.png

华为云FusionInsight MRS领先的解决方案,包括:大集群、湖仓一体、实时数据湖等,使一个企业一个湖成为可能。

数据湖内部全量数据批处理、流处理、交互式多引擎融合,采用YARN做统一资源调度,资源利用率可以提升至90%。同时,采用多租户为不同业务分配不同资源和数据权限隔离,支撑不同的业务需求。

分析效率也极大提升,数据在统一数据湖内,无需跨集群流转,数据流转链路最短,分析效率最高。

此外,作为统一数据湖,软件版本只有一个,也容易进行统一管理。

点击关注,第一时间了解华为云新鲜技术~



推荐阅读
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • BPM是什么软件?1、BPM是BusinessProcessManagement的简称,译为业务流程管理,它是一种以规范化的构造端到端的卓越业务流程为中心以持续的提高组织业务绩效为 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • 分享2款网站程序源码/主题等后门检测工具
    本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具,分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具,采用多重检测引擎和智能检测模型,能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎,能够分析更为隐藏的WebShell后门行为。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
author-avatar
zhoujielcl_767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有