首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

原理解析_HBase高性能随机查询之道–HFile原理解析

作者：晰mine | 来源：互联网 | 2023-09-16 19:21

假设一个LeafIndexBlock可以容纳的DataBlock的数量为x：

假设一个Leaf Index Block可以容纳的Data Block的数量为x：

4 + 4 * (x + 1) + x * (12 + firstKey.length)

进一步假设，firstKey.length为50bytes。而一个Leaf Index Block的默认最大大小为128KB：

4 + 4 * (x + 1) + x * (12 + 50) = 128 * 1024

x ≈1986

也就是说，在假设firstKey.length为50Bytes时，一个128KB的Leaf Index Block所能容纳的Data Block数量约为1986个。

我们再来看看Root Index Chunk大小的计算方法：

HBase高性能随机查询之道 – HFile原理解析

基于firstKey为50 Bytes的假设，每往Root Index Chunk中新增一个Entry(关联一个Leaf Index Block)，那么，curTotalRootSize的累加值为：

12 + 1 + 50 = 63

因此，一个128KB的Root Index Chunk可以至少存储2080个Entries，即可存储2080个Leaf Index Block。

这样，一个Root Index Chunk所关联的Data Blocks的总量应该为：

1986 * 2080 = 4,130,880

而每一个Data Block默认大小为64KB，那么，这个HFile的总大小至少为：

4,130,880 * 64 * 1024 ≈ 252 GB

即，基于每一个Block中的FirstKey为50bytes的假设，一个128KB的Root Index Block可容纳的HFile文件总大小约为252GB。

如果实际的RowKey小于50 Bytes，或者将Data Block的Size调大，一个128KB的Root Index Chunk所关联的HFile文件将会更大。因此，在大多数场景中，Intermediate Index Block并不会存在。

附录2 关于HFile数据查看工具

HBase中提供了一个名为HFilePrettyPrinter的工具，可以以一种直观的方式查看HFile中的数据，关于该工具的帮助信息，可通过如下命令查看：

hbase org.apache.hadoop.hbase.io.hfile.HFile

References

HBase Architecture 101 – Storage

HBASE-3857: Change the HFile Format

HBase Document: Appendix H: HFile format

HADOOP-3315: New Binary file format

SSTable and Log Structured Storage: LevelDB

点击"阅读原文"链接，可了解华为云上的全托管式HBase服务CloudTable，集成了时序数据库OpenTSDB与时空数据库GeoMesa，目前已正式商用。

关于"NoSQL漫谈"

NoSQL主要泛指一些分布式的非关系型数据存储技术，这其实是一个非常广泛的定义，可以说涉及到分布式系统技术的方方面面。随着人工智能、物联网、大数据、云计算以及区块链技术的不断普及，NoSQL技术将会发挥越来越大的价值。

更多NoSQL技术分享，敬请期待！

【1】

【2】

【3】

【4】

【5】

【6】

【7】

推荐阅读

io
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
io
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
sum
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
io
java filesystem 追加_Java DistributedFileSystem.append方法代码示例

importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]

蜡笔小新 2023-10-17 17:01:46
io
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
io
Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法

本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系，V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词，通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时，还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]

蜡笔小新 2023-12-12 17:57:15
char
Oracle存储过程写法小例子及已命名的异常

本文介绍了Oracle存储过程的基本语法和写法示例，同时还介绍了已命名的系统异常的产生原因。 ... [详细]

蜡笔小新 2023-12-11 15:10:15
io
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27
list
C++Builder实现获取USB优盘序列号的方法

本文介绍了使用C++Builder实现获取USB优盘序列号的方法，包括相关的代码和说明。通过该方法，可以获取指定盘符的USB优盘序列号，并将其存放在缓冲中。该方法可以在Windows系统中有效地获取USB优盘序列号，并且适用于C++Builder开发环境。 ... [详细]

蜡笔小新 2023-12-09 08:17:53
io
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
char
浅析Mysql数据回滚错误的解决方法_PHP教程

浅析Mysql数据回滚错误的解决方法_PHP教程:MYSQL的事务处理主要有两种方法。1、用begin,rollback,commit来实现begin开始一个事务rollback事 ... [详细]

蜡笔小新 2023-10-17 19:07:22
list
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
list
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
list
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
list
org.apache.hadoop.hbase.client.Increment.getDurability()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hbase.client.Increment.getDurability()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-10-17 12:30:05

晰mine

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有