热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

MPPDB/分布式数据库NoSQL/HDFS笔记

1、MPPDB架构大规模并行处理(MPP)架构Master进行集群的管理及数据分布式处理一般会有一个CoordinatorNode,客户端直接与CN交互,CN与Master交互获得

1、MPPDB架构

大规模并行处理(MPP)架构

《MPPDB/分布式数据库NoSQL/HDFS笔记》
《MPPDB/分布式数据库NoSQL/HDFS笔记》

Master进行集群的管理及数据分布式处理

一般会有一个Coordinator Node,客户端直接与CN交互,CN与Master交互获得全局事务和数据分布信息,下发任务到DataNode,执行真正的数据处理,CN可以针对处理结果进行汇2聚等,并返回最终的结果

2、NoSQL分布式数据库

key-value方式,分布式集群管理,集群节点数一般能达到上百个(mongodb有商用的实践不超过1000),集群节点数越大,集群管理(元数据、节点状态、故障/扩缩容等)会变复杂,

HDFS的分布式节点数能达到几千台

3、HDFS

分布式文件系统,将单机无法存储/处理的文件,分布到N台机器上存储,上层应用通过路径文件名即可写入读取

HDFS上的数据,一般存储的是原始的,并不经过预处理(maybe存储数据的时候,还不知道该如何预处理)

4、SQL-on-Hadoop

sparksql、hive、hive on spark、impala等等,与mppdb类似,基于sql的交互,前三个实际处理时会将sql转换成MR或者RDD/DS进行处理,impala是直接基于HDFS提供sql能力的

5、对比

1)MPPDB一般在load阶段,会把数据存储成合适的格式;SQL-on-Hadoop相当于是数据湖,存储的是原始的,在分析阶段根据具体的业务场景再处理;

2)MPPDB对SQL的支持比SQL-on-Hadoop好,后面这个差距可能会越来越小

3)MPPDB一般都是基于列的存储,以Scan为基础,适合做交互的实时查询;Hadoop类适合对海量数据做批处理或者自定义UDF的场景

4)MPPDB的可扩展性比Hadoop类要差

5)MPPDB/SQL-on-Hadoop更适用于一次写,多次读,NoSql支持频繁的写入/更新/删除等

6)NoSql在大数据的场景下,可配合其他技术栈使用,比如HDFS存储原始数据,MR/SPARK等根据数据分析的具体场景,scan全量数据(长时间)进行数据处理/预处理,将处理的结果,存储到NoSql中,可供外部交互式查询


推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射,详细解释了两者的创建、加载及删除操作,并提供了查看表详细信息的方法。通过对比这两种表类型,帮助读者理解如何更好地管理和保护数据。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • 本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 深入理解一致性哈希算法及其应用
    本文详细介绍了分布式系统中的一致性哈希算法,探讨其原理、优势及应用场景,帮助读者全面掌握这一关键技术。 ... [详细]
  • 本文探讨了Java编程的核心要素,特别是其面向对象的特性,并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]
author-avatar
深深i
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有