热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hbase系列(一)基本概念

Hbase系列(一)基本概念HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC服务器上搭建起大规模的存储化集群。使用H
Hbase 系列(一)基本概念

HBase 是 Apache 旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用 HBase 技术可在廉价 PC 服务器上搭建起大规模的存储化集群。使用 HBase 可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。

一、HBase 基本概念

大数据具有以下特征:volume(体量大)、variety(样式多)、velocity(速度快)、valueless(价值密度低)

Hbase(Hadoop Database)是一个高可靠、高性能、面向列、可伸缩的分布式数据库,利用 Hbase 技术可在廉价 PC 上搭建起大规模结构化存储集群。 Hbase 参考 Google 的 Big Table 建模,使用类似 GFS 的 HDFS 作为底层文件存储系统,在其上可以运行 Mapreduce 批量处理数据,使用 Zookeeper 作为协同服务组件。

二、HBase 与 Hadoop

《Hbase 系列(一)基本概念》

HBase 底层依赖 Hadoop,所以选择 Hadoop 版本对 HBase 部署很关键(https://blog.csdn.net/sunny05296/article/details/54089194)

三、HBase 四大核心组件

Hadoop 框架包含两个核心组件: HDFS 和 Mapreduce,其中 HDFS 是文件存储系统,负责数据存储; Mapreduce 是计算框架,负责数据计算。它们之间分工明确、低度耦合、相关关联。对于 Hbase 数据库的核心组件,即核心功能模块共有 4 个,它们分别是:客户端 Client、协调服务模块 Zookeeper、主节点 Master 和 Region 节点 Region Server,这些组件的描述和相互之间的关联关系如图所示。

《Hbase 系列(一)基本概念》

3.1 客户端

Client 客户端 C1ient 是整个 Hbase 系统的入口。使用者直接通过客户端操作 Hbase。客户端使用 Hbase 的 RPC 机制与 Master 和 Region Server 进行通信。对于管理类操作, Client 与 Master 进进行 RPC 通信;对于数据读写类操作, Client 与 Regionserver 进行 RPC 交互。这里客户端可以是多个, 并不限定是原生 Java 接口,还有 Thrift、Avro、Rest 等客户端模式,甚至 Mapreduce 也可以算作一种客户端。

3.2 客户端协调服务组件 Zookeeper

Zookeeper Quorum(队列)负责管理 Hbase 中多 Master 的选举、服务器之间状态同步等。再具体一些就是, Hbase 中 Zookeeper 实例负责的协调工作有:存储 Hbase 元数据信息、实时监控 Region Server、存储所有 Region 的寻址入口,当然还有最常见的功能就是保证 Hbase 集群中只有一个 Master 节点。

3.3 主节点 HMaster

HMaster 没有单点问题,在 Hbase 中可以启动多个 HMaster,通过 Zookeeper 的 Master 选举机制保证总有一个 Master 正常运行并提供服务,其他 HMaster 作为备选时刻准备(当目前 HMaster 出现问题时)提供服务。 HMaster 主要负责 Table 和 Region 的管理工作。

  • 管理用户对 Table 的增、删、改、査操作。
  • 管理 Region Server 的负载均衡,调整 Region 分布。
  • 在 Region 分裂后,负责新 Region 的分配。
  • 在 Region Server 死机后,负责失效 Region Server 上的 Region 迁移。

3.4 Region 节点 HRegionServer

HRegionServer 主要负责响应用户 I/O 请求,向 HDFS 文件系统中读写数据,是 Hbase 中最核心的模块。 HRegionServer 内部管理了一系列 HRegion 对象,每个 HRegion 对应了 Table 中的一个 Region。 HRegion 由多个 HStore 组成,每个 HStore 对应了 Table 中的一个 Column Family 的存储。可以看出每个 Column Family 其实就是一个集中的存储单元,因此最好将具备共同 I/O 特性的列放在一个 Column Family 中,这样能保证读写的高效性。HRegionServer 的组成结构如图2所示。

如图2所示, Hstore 存储是 Hbase 存储的核心,由两部分组成: MemStore 和 StoreFile。 MemStore 是 Sorted Memory Buffer,用户写入的数据首先会放入 MemStore 中,当 MemStore 满了以后会缓冲(flush)成一个 StoreFile(底层实现是 HFile),当 StoreFile 文件数量增长到一定阈值,会触发 Compact 操作,将多个 StoreFiles 合并成一个 StoreFile,在合并过程中会进行版本合并和数据删除,因此可以看出 HBase 其实只有增加数据,所有的更新和删除操作都是在后续的 Compact 过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了 HBase I/O 的高性能。

《Hbase 系列(一)基本概念》

StoreFiles 在触发 Compact 操作后,会逐步形成越来越大的 StoreFile,当单个 StoreFile 大小超过一定阈值后,会触发 Split 操作,同时把当前 Region 分裂成 2 个 Region,父 Region 会下线,新分裂的 2 个子 Region 会被 Master 分配到相应的 HRegionServer 上,使得原先 1 个 Region 的压力得以分流到 2 个 Region 上。

每个 HRegionServer 中都有一个 HLog 对象,HLog是一个实现 Write Ahead Log 的类,在每次用户操作写入 MemStore 的同时,也会写一份数据到 HLog 文件中,HLog 文件定期会滚动出新,并删除旧的文件(已持久化到 StoreFile 中的数据)。在 HRegionServer 意外终止后, Master 会通过 Zookeeper 感知到,首先处理遗留的 HLog 文件,将其中不同 Region 的 Log 数据进行拆分,分别放到相应 Region 的目录下,然后再将失效的 Region 重新分配,领取到这些 Region 的 HRegionServer 在加载 Region 的过程中,会发现有历史 HLog 需要处理,因此会将 HLog 中的数据回放到 MemStore 中,然后缓冲(flush)到 StoreFiles,完成数据恢复。

每天用心记录一点点。内容也许不重要,但习惯很重要!


推荐阅读
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ... [详细]
  • python zookeeeper 学习和操作
    1.zookeeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • 2018深入java目标计划及学习内容
    本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
  • Android日历提醒软件开源项目分享及使用教程
    本文介绍了一款名为Android日历提醒软件的开源项目,作者分享了该项目的代码和使用教程,并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能,以及添加日程提醒和查看详情的界面。同时,作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题,并提供了解决方法。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 开发笔记:读《分布式一致性原理》JAVA客户端API操作2
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了读《分布式一致性原理》JAVA客户端API操作2相关的知识,希望对你有一定的参考价值。创 ... [详细]
  • 我正在使用sql-serverkafka-connect和debezium监视sqlserver数据库,但是当我发布并运行我的wo ... [详细]
  • Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]
  • Hbase1.2.0cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常
    Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compactionqueue持续升高,甚至影响fl ... [详细]
  • HBase系列之hbase2.2.3安装
    1.下载地址hbase-2.2.3下载地址2.解压安装1)解压tarzxvfhbase-2.2.3-bin.tar.gz2)环境变量配置vim ... [详细]
author-avatar
阳光而灿烂61
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有