热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hbase架构与基本概念

1、HBase简介Hbase是一个分布式的、多版本的、面向列的开源KeyValue数据库。多版本:每列值或单元格的值都具有时间戳,通过不同的时间戳来区分不同
1、 HBase简介
Hbase是一个分布式的、多版本的、面向列的开源KeyValue数据库。
  • 多版本:每列值或单元格的值都具有时间戳,通过不同的时间戳来区分不同版本的值,一个单元格不同版本的值按照降序排列在一起,访问时优先读取最新的值。
  • 面向列:Hbase是面向列存储的,RDBMS在表定义时,列属性是固定的,不能动态扩展,而Hbase可以动态的插入列,列的数量没有限制(可以有数百万个列)。
2、HBase中重要的概念
  • Row Key(行键):HBase是根据RowKey来检索数据的,不支持条件查询和Order by等查询,读取记录只能按Row key(及其range)或全表扫描。HBase存储时,根据RowKey的字典序排序。
  • Column Family(列族):在创建表时预先声明,不能修改的太频繁。Hbase中列的数量可能没有限制,但是列族的数量是有限制的,不超过几十个。
  • Column(列):Hbase中每个列属于一个列族,一般以列族名为前缀进行表示,ColumnFamily:Column Name,可以动态的新增(或删除),列的数量没有限制。
  • Timestamp(时间戳):每列值或单元格都有时间戳, Hbase中以时间戳来区分版本,每列值以时间戳进行降序排列,访问时优先读取最新的值。
  • Value(值):Hbase中的值是由Table,RowKey,Column Family,Column,Timestamp来唯一确定的,数据存储模式如下:(Table,RowKey,Column Family,Column,Timestamp)——>Value。
3、Hbase架构
(1)架构初识
在分布式的生产环境中,HBase 需要运行在 HDFS 之上。HBase 上层提供了访问数据的 Java API 层,供应用访问存储在 HBase 的数据。在 HBase 的集群中主要由 Master 和 Region Server 以及 Zookeeper组成,具体模块如下图所示:
  • Client API
访问Hbase数据的客户端接口。并缓存region的位置信息。
  •  Master

HBase Master用于协调多个Region Server,负责RegionServer之间的负载均衡,将繁忙服务器中的region移到负载较轻的服务器中。HBase允许多个Master节点共存,不过当多个Master节点共存时,只有一个Master是提供服务的,其他的Master节点处于待命的状态。当正在工作的Master节点宕机时,其他的Master则会接管HBase的集群。HBase Master还负责建表和创建列簇。

  • Region Server
对于一个Region Server而言,其包括了多个Region。RegionServer负责为他们服务的Region提供读写请求,并负责拆分超过配置大小的Region。Client直接与RegionServer通信,处理所有数据相关的操作。
  • Region
一个Region对应一个表,Region信息中包括此Region存储的StartKey。一个Region超过了配置中Region大小的最大值,Region就需要拆分,形成两个新Region,每个Region是原始Region的一半。在拆分完成后,Master被告知拆分情况,并可以根据负载均衡,将新Region分配到其他Region Server上。
  • ZooKeeper
ZooKeeper为HBase集群提供协调服务,它管理着Master和RegionServer的状态,并且Zookeeper负责Region和Region Server的注册。并存储所有Region的寻址入口(含有-ROOT-表的region服务器信息)。
  • HDFS
HDFS(Hadoop Distribute File System,hadoop分布式文件系统),由NameNode和DataNode组成。
——NameNode负责控制和管理整个分布式文件系统的主控节点。保存分布式文件系统的目录结构,以及数据的位置信息。
——DataNode负责具体的数据存储的从节点。
访问Hbase数据时,一个基本流程如下:
客户端要查找行健时,首先联系ZooKeeper子集群,通过ZooKeeper获取含有-ROOT-表的 Region Server名,通过含有-ROOT-表的Region Server可以查询到哪个.META. Region包含此行健信息;通过查询.META.表来获取客户端查询的行健数据所在Region Server名,在客户端知道了数据的实际位置后,会缓存这次查询的Region位置信息,并直接与管理实际数据的Region Server通信,获取行健信息。当再次查询时,由于已经缓存了Region的位置信息,就不再查询.META.表,直接定位数据位置。
-ROOT-:记录.META.表的Region信息。
.META.:记录用户表的Region信息。
参考《-ROOT-表和.META.表结构详解》 中的数据访问流程图,访问数据基本流程,如下所示(2)HBase存储与详细组件上文中给出了HBase架构的基本组成模块,下图显示的是HBase的详细组件。
 上图给出了HBase包含的详细组件,如下:
  • HReigon
一个Region由多个Store组成,一个Store对应一个Column Family(列族);
Store包括位于内存中的MemStore和位于磁盘的StoreFile,写操作先写入MemStore,当MemStore达到某个阈值时,将MemStore中的数据写入StoreFile。每个Store又由一个MemStore和多个StoreFile组成;
当一个region中所有StoreFile的大小和超过一定阈值后,Region 会进行拆分,由Master分配拆分后的Region到相应的 Region Server服务器上,实现负载均衡;
StoreFile以HFile格式保存在HDFS上。
  • KeyValue格式
HBase中实际的存储文件功能由HFile负责,由DATA块组成,每个DATA块都包含了一定数量的序列化的KeyValue实例,HFile中KeyValue格式如下

Key Lengh和Value Length分别表示键长度和值长度,此信息可以在查找数据时,进行跳跃,忽略键直接访问值。
存储文件中所有的KeyValue都被有序的存储,有助于把类似的键放在一起。
  • WAL(Write-Ahead Log)机制
预写日志机制。Store在保存数据时,先将数据保存在内存中,达到某阈值时,再将数据刷写到硬盘上。但存储在内存中的数据是不稳定的,例如在服务器断电的情况下,数据就有可能丢失。而解决此问题的方法就是预写日志机制:每次更新都会先写入日志,然后再写入内存中。WAL存储了对数据的所有更改。如果服务器崩溃,它可以有效地回访日志,回复数据。
Hlog即保存了预写的日志,存储在HDFS上。同一个Region 服务器共享同一个Hlog文件。
  • DFSClient
分布式文件系统的客户端,与DataNode通信,写入或获取需要的文件信息。
4、与传统数据库区别
根据Hbase架构和存储原理,总结下与传统数据库区别。
(1)Hbase是基于列模式的映射数据库,它只能表示简单的key-value的映射关系。
  • 数据类型:Hbase只有简单的字符串类型,而RDBMS类型选择比较丰富
  • 数据操作:Hbase操作只有简单的CRUD等操作,表与表之间没有关系是分离的;而RDBMS有各种各样的表连接操作
  • 存储模式:Hbase是基于列存储的,RDBMS是基于表结构和行模式存储的。
  • 数据维护:Hbase中的更新并不是真正意义上的更新,因为它的旧值仍然存在,实际上是插入了新数据。
  • 可伸缩性:Hbase能很轻易的增加或减少硬件数量。
Hbase基于列模式的分布式数据库更适合海量存储和互联网应用。
(2)表设计比较参考《Hbase总结(五)-hbase常识及habse适合什么场景》,我们进行表设计对比(更详细介绍请参考原文)。以记录博客内容为例1)传统数据库表设计我们创建两张表,一张为Article Table,另外一张为Author Table。
在两张表中各插入一条数据后,如下所示
2)、HBase可以按以下方式设计
如上图所示,RDBMS中的两张表可以分别用两个列族来标示,每个列族中的列保存了对应的Value信息,插入一条数据后,如下所示
上图中,可以看出HBase中是按RowKey的字典序进行排序的;两个版本的author:nickname,则体现了HBase多版本的特点;列族中多列是根据Column Key来排序的。

以上内容为HBase架构和基本概念的学习总结,如有不正确之处,请指出,大家共同学习进步。
参考文章:
《HBase权威指南中文版》
《Hadoop实战》
《Apache HBase ™ Reference Guide》
《Hbase总结(四)- Hbase与传统数据库的区别》
《Hbase总结(五)-hbase常识及habse适合什么场景》
《Hadoop相关知识整理系列之一:HBase基本架构及原理》
《Hbase原理、基本概念、基本架构》
《-ROOT-表和.META.表结构详解》




推荐阅读
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 基于分布式锁的防止重复请求解决方案
    一、前言关于重复请求,指的是我们服务端接收到很短的时间内的多个相同内容的重复请求。而这样的重复请求如果是幂等的(每次请求的结果都相同,如查 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • [翻译]微服务设计模式5. 服务发现服务端服务发现
    服务之间需要互相调用,在单体架构中,服务之间的互相调用直接通过编程语言层面的方法调用就搞定了。在传统的分布式应用的部署中,服务地 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 十大经典排序算法动图演示+Python实现
    本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序,常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念,并提供了相关的名词解释。 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 浅析对象 VO、DTO、DO、PO 概念
    作者|CatQi链接|cnblogs.comqixuejiap4390086.html前言由于此订阅号换了个皮肤,导致用户接受文章不及时。读者可以打开订阅号「Web项 ... [详细]
author-avatar
twinklezai750
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有