热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

sqlserver大数据量update_大数据管理:构建数据自己的“独门独院”

摘要:海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然。随着社会各行各业的数字化进程
摘要:海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然。

随着社会各行各业的数字化进程,未来几年,数据将指数级增长。据预测,2025年移动终端设备将达到400亿部,IoT设备将达到25万亿个。全球每天产生的数据量更将从2018年的33ZB快速增长到2025年的180ZB。例如,每辆自动驾驶汽车每天产生的数据量约为64TB,按照每台服务器存储120T有效数据来计算,意味着每辆汽车每天产生的数据就需要消耗0.5台服务器存储空间;再比如,某城市200万摄像头,每天产生的数据量为80PB,意味着每天需要消耗的服务器数量为130台。

7aedb32863c7f2898f2561515dde6281.png

这些变化都为数据存储、计算、分析和安全等带来全新的挑战和需求:

第一点:数据量的快速增长,意味着Hadoop原生态2000节点的集群规模已经无法满足数据存储需求,更大规模的集群节点,更大的存储容量,以及与之匹配的计算性能,成为大数据发展的趋势之一;

第二点:数据的多样性含义也得到了扩展,从最初的数据类型的多样性,扩大到数据分布的多样性、数据使用方式的多样性,批处理、流处理、实时检索、交互式分析多种数据使用方式融合,才能满足用户业务场景的需求;

第三点:虽然大数据强调快速,但并不意味着时效性就好。把数据从数据源集成到大数据集群通常都需要经历几个步骤,包括:通过工具把数据库的数据转化为文件,通过数据集成工具把文件批量加载到大数据集群,从数据的产生到数据消费,时效性通常是T+1,这对“反欺诈”、“实时预警”等时效性要求高的业务,带来了风险。

华为云FusionInsight MRS大数据就是在不断理解客户场景需求,感受客户使用痛点,积累丰富经验,打造领先的解决方案。

baa99c0ed694ca9c3c46e8651b4393ad.png

华为云FusionInsight解决方案首席架构师洪福成

大集群:支持单集群2万节点,树立行业新标杆

海量数据浪涌促成大数据集群不断升级扩容,为减少数据搬迁、避免跨集群用数,大集群出现是发展的必然,其需求主要表现在被动、主动、自我驱动三个方面。

  • 被动因数:数据量爆发式增长,存储空间需求急剧增长;
  • 主动因数:多数据融合在一个数据湖内,消除数据孤岛;
  • 自我驱动:跨部门、跨业务融合分析,业务创新。
8ac01a2ae0c858ef4c72b6081519f319.png

面对政企对大集群的需求,华为云FusionInsight给出了完美解决方案,华为云FusionInsight MRS通过以下四个关键要素实现单集群突破2万节点,树立行业新标杆:

首先,华为自研Superior超级调度器,性能相比开源提升20+倍,可以调度2万+节点规模;

其次,FusionInsight MRS支持数据跨机房、跨DC分布,并且计算任务和数据采用NDP原则就近计算,尽量避免数据跨DC流动,解决机房空间不足问题;

再次,FusionInsight MRS支持滚动升级,运用Hadoop多数据备份,多服务器分布的特点,在升级软件时,分批次、小规模地进行升级和重启,直到整个集群完成升级,业务也不会出现中断。

最后,在HDFS文件目录、元数据缓存、管理信息等方面也做了大量的优化和实践,2020年6月,MRS 2万节点大集群通过信通院测试,性能和稳定性均表现优良,树立了行业新标杆。

湖仓一体:批处理和交互式查询融合, “0”数据搬移

在分析型场景,大数据擅长做批处理加工和离线分析,对时延存在较大的容忍空间。数据仓库擅长做交互式分析,在数据存储容量和数据加工方面存在成本高的问题。因此,传统的做法是把大数据和数据仓库组合起来,大数据存储大量的明细数据,并执行批处理加工任务;然后把加工的结果数据(专题数据),通过工具加载到另外一个数据仓库集群,对外进行高性能交互式分析。这种方案存在查询慢、效率低、成本高等三大难题。

64c0d61b70dbdf57b14d26a070b77655.png

FusionInsight MRS通过湖仓一体的解决方案完美解决上述问题。在湖仓一体解决方案中,数据在同一HDFS存储层内部闭环,数据加工和分析不出湖,数据“0”搬迁;Hive批加工引擎和HetuEngine交互式查询引擎基于YARN进行统一资源调度,资源利用率高,成本更低;MRS构建了多租户体系,可以为Hive加工、HetuEngine交互式分析配置不同的租户,实现多部门业务并行处理,安全性和可扩展性较好。

实时数据湖:数据T+0实时入库、消费、分析

面对传统大数据平台在数据存储中遇到的时延问题,华为云FusionInsight MRS提供了实时数据湖解决方案,支持数据T+0实时入库、消费、分析。

引入CarbonData作为新的存储引擎,CarbonData具备2大特点:查询加速和数据更新。

1.通过增加索引提升数据查询效率,通过支持ACID事务,保障数据的Update和数据一致性;通过高性能查询引擎HetuEngine,对CarbonData的数据和索引进行高性能分析;

2.通过Flink或DAYU-CDM来对数据进行实时获取,实时insert或update到CarbonData中。

数据从入库到查询,都采用了最好的方式,确保时延、性能达到最佳。1TB数据从更新到查询,可以在30秒内完成。

一个企业一个湖:集约高效、易管理

部分客户在使用大数据时,还是采用一个业务一个集群的方式来构建,这里既有缺乏统一数据湖规划的因素,也有开源Hadoop单集群无法满足多种业务场景以及安全隔离的因素。在面对海量数据浪涌时,这种独立式集群建设方式暴露出严重的问题,如资源利用率低、分析效率低、运维管理困难等。

accba94627b8e7a3f7c98951925818d8.png

华为云FusionInsight MRS领先的解决方案,包括:大集群、湖仓一体、实时数据湖等,使一个企业一个湖成为可能。

数据湖内部全量数据批处理、流处理、交互式多引擎融合,采用YARN做统一资源调度,资源利用率可以提升至90%。同时,采用多租户为不同业务分配不同资源和数据权限隔离,支撑不同的业务需求。

分析效率也极大提升,数据在统一数据湖内,无需跨集群流转,数据流转链路最短,分析效率最高。

此外,作为统一数据湖,软件版本只有一个,也容易进行统一管理。

点击关注,第一时间了解华为云新鲜技术~



推荐阅读
  • 在Linux系统中,MySQL的用户权限管理是运维人员必须掌握的关键技能之一。本文详细介绍了MySQL用户和权限管理的相关概念,包括MySQL用户的概念及其与VSFTPD虚拟用户的相似性,以及密码管理的重要性。此外,还深入探讨了如何通过命令行工具和配置文件进行用户权限的设置和调整,确保系统的安全性和稳定性。 ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • PTArchiver工作原理详解与应用分析
    PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制,探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略,实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例,为用户提供了实用的操作建议和技术支持。 ... [详细]
  • 如何正确获取Oracle TNS_ADMIN环境变量的值
    如何正确获取Oracle TNS_ADMIN环境变量的值?TNS_ADMIN 是 Oracle 客户端配置中的一个重要环境变量,用于指定网络配置文件(如 tnsnames.ora)的路径。本文将详细介绍如何在不同操作系统中准确获取该变量的值,并提供实用的命令和步骤,帮助用户确保 Oracle 客户端的网络连接配置正确无误。 ... [详细]
  • 智能制造数据综合分析与应用解决方案
    在智能制造领域,生产数据通过先进的采集设备收集,并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后,通过可视化数据大屏呈现,为生产车间、生产控制中心以及管理层提供实时、精准的信息支持,助力不同应用场景下的决策优化和效率提升。 ... [详细]
  • ManageEngine与华为强强联合,推动运维安全的数字化革新进程
    7月9日,由北京兴益鸿程信息技术有限公司主办,ManageEngine与华为携手举办的“运维安全数字化转型”IT运维技术交流会成功举行。此次活动汇聚了行业专家,共同探讨如何通过技术创新提升运维安全性和效率,推动企业数字化转型的深入发展。 ... [详细]
  • 本研究聚焦于利用Java、PHP和Python开发的汽车销售管理系统,旨在为计算机科学专业学生的毕业设计提供参考。项目采用BS架构,结合多种编程语言的优势,实现高效的数据管理和用户交互。该系统不仅涵盖了汽车销售的核心功能,还通过集成先进的技术栈,提升了系统的稳定性和扩展性。 ... [详细]
  • HDFS是什么?HDFS全称HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]
  • 单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样 ... [详细]
  • 触发器的稳态数量分析及其应用价值
    本文对数据库中的SQL触发器进行了稳态数量的详细分析,探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现,揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外,还介绍了如何在Ubuntu 22.04环境下配置和使用触发器,以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]
  • 如何有效防御网站中的SQL注入攻击
    本期文章将深入探讨网站如何有效防御SQL注入攻击。我们将从技术层面详细解析防范措施,并结合实际案例进行阐述,旨在帮助读者全面了解并掌握有效的防护策略。希望本文能为您的网络安全提供有益参考。 ... [详细]
  • 大数据深度解读系列官网资源分享 ... [详细]
  • hive和mysql的区别是什么[mysql教程]
    hive和mysql的区别有:1、查询语言不同,hive是hql语言,MySQL是sql语句;2、数据存储位置不同,hive把数据存储在hdfs上,MySQL把数据存储在自己的系统 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
author-avatar
zhoujielcl_767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有