一.物理结构图
二.关键概念
1.存储单元Cell
(1)存储单元cell:rowkey+列簇+timestamp+version,确定一个单元格的值
(2)数据无类型,以字节码的形式进行存储
2.Region
(1)列分割:table中所有的行都是按照字典序进行排列,可以在行的方向分割为多个region
(2)region是hbase中分布式存储和负载均衡的最小单元,存储的最小单元是cell
(3)原来表只有一个region,当数据量非常大达到一定的条件后。会进行等分操作,划分为两个新的region,之后会越来越多。
(4)Region分布式存储的结构
-》region由一个或者多个store组成,每个store保存一个columns family列簇
-》store又由一个memstore和0至多个storefile组成
memstore是内存中划分的空间,存储在内存中
storefile指的是底层的存储文件(存储在hdfs上的文件),又叫hfile
3.对应hdfs的目录结构
/hbase/data /nstest/student/ 86ad8bcce944a691868684916456eb8b /info /2c9baee3f6464a0c9f8b79bf2a8ef3c7
rootdir属性设置 namespace/table region 列簇 storefile
4.Write Ahead Log预写日志
(1)用户每次写入数据到Hlog文件中,然后再写入memstore
(2)写入成功后才会通知客户端该操作成功
(3)每个regionserver只有一个Hlog文件
(4)Hlog文件定期的刷新,删除旧的文件
(5)避免内存中丢失数据,可以在日志文件中恢复