热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【HBase运维】利用HFile的元数据快速统计表的KV数量

在运维HBase的过程中,经常会遇到用户有统计表的行数的需求,如果表的数量比较小,那么在shell里面采用count就可以解决问题,一般1-2个region的都可以采用这个方式,而

在运维HBase的过程中,经常会遇到用户有统计表的行数的需求,如果表的数量比较小,那么在shell 里面采用count 就可以解决问题,一般1-2个region的都可以采用这个方式,而一旦是几十region , 甚至是上百个region 的时候,这个时候用count就不现实了,那么还有没有什么其他方式呢?

通过查看HBase的代码,发现了HFile在FixedFileTrailer有一个变量

/**
* The number of key/value pairs in the file. This field was int in version 1,
* but is now long.
*/
private long entryCount;

解释里面说,这个指代表HFile里面kv数量,但是这个跟行数是有区别的。

《【HBase运维】利用HFile的元数据快速统计表的KV数量》 image.png

上图中,Table 7 如果用count的话,只有1行,但是KV数量,如果只写了1次的话,那么就只有2个,如果写了多次,那就另算。

基于这个前提,如果知道表没有重复写,或者表经过了compaction , 只保留了一个版本的数据,那么可以通过统计HFile里面的entries来统计表的行数:

hbase org.apache.hadoop.hbase.io.hfile.HFile

《【HBase运维】利用HFile的元数据快速统计表的KV数量》 image.png

采用–printmeta -f /HFile的路径

得到如下内容:

《【HBase运维】利用HFile的元数据快速统计表的KV数量》 image.png

拿到我们需要的信息,后面通过脚本处理就可以。

如果你有其他更好的方式,欢迎评论和我交流。


推荐阅读
author-avatar
不想与你见面_637
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有