热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

MPPDB/分布式数据库NoSQL/HDFS笔记

1、MPPDB架构大规模并行处理(MPP)架构Master进行集群的管理及数据分布式处理一般会有一个CoordinatorNode,客户端直接与CN交互,CN与Master交互获得

1、MPPDB架构

大规模并行处理(MPP)架构

《MPPDB/分布式数据库NoSQL/HDFS笔记》
《MPPDB/分布式数据库NoSQL/HDFS笔记》

Master进行集群的管理及数据分布式处理

一般会有一个Coordinator Node,客户端直接与CN交互,CN与Master交互获得全局事务和数据分布信息,下发任务到DataNode,执行真正的数据处理,CN可以针对处理结果进行汇2聚等,并返回最终的结果

2、NoSQL分布式数据库

key-value方式,分布式集群管理,集群节点数一般能达到上百个(mongodb有商用的实践不超过1000),集群节点数越大,集群管理(元数据、节点状态、故障/扩缩容等)会变复杂,

HDFS的分布式节点数能达到几千台

3、HDFS

分布式文件系统,将单机无法存储/处理的文件,分布到N台机器上存储,上层应用通过路径文件名即可写入读取

HDFS上的数据,一般存储的是原始的,并不经过预处理(maybe存储数据的时候,还不知道该如何预处理)

4、SQL-on-Hadoop

sparksql、hive、hive on spark、impala等等,与mppdb类似,基于sql的交互,前三个实际处理时会将sql转换成MR或者RDD/DS进行处理,impala是直接基于HDFS提供sql能力的

5、对比

1)MPPDB一般在load阶段,会把数据存储成合适的格式;SQL-on-Hadoop相当于是数据湖,存储的是原始的,在分析阶段根据具体的业务场景再处理;

2)MPPDB对SQL的支持比SQL-on-Hadoop好,后面这个差距可能会越来越小

3)MPPDB一般都是基于列的存储,以Scan为基础,适合做交互的实时查询;Hadoop类适合对海量数据做批处理或者自定义UDF的场景

4)MPPDB的可扩展性比Hadoop类要差

5)MPPDB/SQL-on-Hadoop更适用于一次写,多次读,NoSql支持频繁的写入/更新/删除等

6)NoSql在大数据的场景下,可配合其他技术栈使用,比如HDFS存储原始数据,MR/SPARK等根据数据分析的具体场景,scan全量数据(长时间)进行数据处理/预处理,将处理的结果,存储到NoSql中,可供外部交互式查询


推荐阅读
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 本文详细介绍了Python编程语言的学习路径,涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划,帮助初学者快速掌握Python的核心技能。 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 本文旨在探讨机器学习与数据分析之间的差异,不仅在于它们处理的数据类型,还包括技术背景、业务应用场景以及参与者的不同。通过深入分析,希望能为读者提供清晰的理解。 ... [详细]
  • ODBC介绍:开放式数据库连接详解
    本文详细介绍了ODBC(开放式数据库连接),这是一种允许应用程序访问多种数据库系统的标准API。自1992年由微软与Simba合作推出以来,ODBC已成为跨平台数据访问的重要标准。 ... [详细]
  • ArchSummit深圳2014将于7月18日拉开帷幕,所有讲师已确认,涵盖9个热门话题,共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]
  • 构建高性能Feed流系统的设计指南
    随着移动互联网的发展,Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统,涵盖从基础架构到高级特性的各个方面。 ... [详细]
  • Redis:缓存与内存数据库详解
    本文介绍了数据库的基本分类,重点探讨了关系型与非关系型数据库的区别,并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文探讨了2019年前端技术的发展趋势,包括工具化、配置化和泛前端化等方面,并提供了详细的学习路线和职业规划建议。 ... [详细]
  • 本文深入探讨了分布式文件系统的核心概念及其在现代数据存储解决方案中的应用,特别是针对大规模数据处理的需求。文章不仅介绍了多种流行的分布式文件系统和NoSQL数据库,还提供了选择合适系统的指导原则。 ... [详细]
  • MySQL 8.0 新特性详解:免费视频教程上线
    本文介绍了一套在慕课网上发布的免费视频教程,深入解析 MySQL 8.0 的核心新功能,包括增强的安全性、用户管理、新的索引类型、CTE 和窗口函数等。 ... [详细]
  • 本文回顾了作者在求职阿里和腾讯实习生过程中,从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历,还提供了宝贵的面试准备建议和技巧。 ... [详细]
  • MongoDB核心概念详解
    本文介绍了NoSQL数据库的概念及其应用场景,重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]
author-avatar
深深i
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有