HbaseforJavaAPI

作者：手机用户2502913853 | 来源：互联网 | 2023-08-23 10:52

HBase是Hadoop的数据库，能够对大数据提供随机、实时读写访问。他是开源的，分布式的，多版本的，面向列的，

HBase是Hadoop的数据库&＃xff0c;能够对大数据提供随机、实时读写访问。他是开源的&＃xff0c;分布式的&＃xff0c;多版本的&＃xff0c;面向列的&＃xff0c;存储模型。

在讲解的时候我首先给大家讲解一下HBase的整体结构&＃xff0c;如下图&＃xff1a;

HBase Java API详解

HBase Master是服务器负责管理所有的HRegion服务器&＃xff0c;HBase Master并不存储HBase服务器的任何数据&＃xff0c;HBase逻辑上的表可能会划分为多个HRegion&＃xff0c;然后存储在HRegion Server群中&＃xff0c;HBase Master Server中存储的是从数据到HRegion Server的映射。

一台机器只能运行一个HRegion服务器&＃xff0c;数据的操作会记录在Hlog中&＃xff0c;在读取数据时候&＃xff0c;HRegion会先访问Hmemcache缓存&＃xff0c;如果缓存中没有数据才回到Hstore中上找&＃xff0c;没一个列都会有一个Hstore集合&＃xff0c;每个Hstore集合包含了很多具体的HstoreFile文件&＃xff0c;这些文件是B树结构的&＃xff0c;方便快速读取。

再看下HBase数据物理视图如下&＃xff1a;

Row Key	Timestamp	Column Family
Row Key	Timestamp	URI	Parser
r1	t3	url&＃61;http://www.taobao.com	title&＃61;天天特价
	t2	host&＃61;taobao.com
	t1
r2	t5	url&＃61;http://www.alibaba.com	content&＃61;每天…
r2	t4	host&＃61;alibaba.com

Ø Row Key: 行键&＃xff0c;Table的主键&＃xff0c;Table中的记录按照Row Key排序

Ø Timestamp: 时间戳&＃xff0c;每次数据操作对应的时间戳&＃xff0c;可以看作是数据的version number

Ø Column Family&＃xff1a;列簇&＃xff0c;Table在水平方向有一个或者多个Column Family组成&＃xff0c;一个Column Family中可以由任意多个Column组成&＃xff0c;即Column Family支持动态扩展&＃xff0c;无需预先定义Column的数量以及类型&＃xff0c;所有Column均以二进制格式存储&＃xff0c;用户需要自行进行类型转换。

了解了HBase的体系结构和HBase数据视图够&＃xff0c;现在让我们一起看看怎样通过Java来操作HBase数据吧&＃xff01;

先说说具体的API先&＃xff0c;如下

HBaseConfiguration是每一个hbase client都会使用到的对象&＃xff0c;它代表的是HBase配置信息。它有两种构造方式&＃xff1a;

public HBaseConfiguration()

public HBaseConfiguration(final Configuration c)

默认的构造方式会尝试从hbase-default.xml和hbase-site.xml中读取配置。如果classpath没有这两个文件&＃xff0c;就需要你自己设置配置。

Configuration HBASE_CONFIG &＃61; new Configuration();

HBASE_CONFIG.set(“hbase.zookeeper.quorum”, “zkServer”);

HBASE_CONFIG.set(“hbase.zookeeper.property.clientPort”, “2181″);

HBaseConfiguration cfg &＃61; new HBaseConfiguration(HBASE_CONFIG);

创建表

创建表是通过HBaseAdmin对象来操作的。HBaseAdmin负责表的META信息处理。HBaseAdmin提供了createTable这个方法&＃xff1a;

public void createTable(HTableDescriptor desc)

HTableDescriptor 代表的是表的schema, 提供的方法中比较有用的有

setMaxFileSize&＃xff0c;指定最大的region size

setMemStoreFlushSize 指定memstore flush到HDFS上的文件大小

增加family通过 addFamily方法

public void addFamily(final HColumnDescriptor family)

HColumnDescriptor 代表的是column的schema&＃xff0c;提供的方法比较常用的有

setTimeToLive:指定最大的TTL,单位是ms,过期数据会被自动删除。

setInMemory:指定是否放在内存中&＃xff0c;对小表有用&＃xff0c;可用于提高效率。默认关闭

setBloomFilter:指定是否使用BloomFilter,可提高随机查询效率。默认关闭

setCompressionType:设定数据压缩类型。默认无压缩。

setMaxVersions:指定数据最大保存的版本个数。默认为3。

一个简单的例子&＃xff0c;创建了4个family的表&＃xff1a;

HBaseAdmin hAdmin &＃61; new HBaseAdmin(hbaseConfig);

HTableDescriptor t &＃61; new HTableDescriptor(tableName);

t.addFamily(new HColumnDescriptor(“f1″));

t.addFamily(new HColumnDescriptor(“f2″));

t.addFamily(new HColumnDescriptor(“f3″));

t.addFamily(new HColumnDescriptor(“f4″));

hAdmin.createTable(t);

删除表

删除表也是通过HBaseAdmin来操作&＃xff0c;删除表之前首先要disable表。这是一个非常耗时的操作&＃xff0c;所以不建议频繁删除表。

disableTable和deleteTable分别用来disable和delete表。

Example:

HBaseAdmin hAdmin &＃61; new HBaseAdmin(hbaseConfig);

if (hAdmin.tableExists(tableName)) {

hAdmin.disableTable(tableName);

hAdmin.deleteTable(tableName);

}

查询数据

查询分为单条随机查询和批量查询。

单条查询是通过rowkey在table中查询某一行的数据。HTable提供了get方法来完成单条查询。

批量查询是通过制定一段rowkey的范围来查询。HTable提供了个getScanner方法来完成批量查询。

public Result get(final Get get)

public ResultScanner getScanner(final Scan scan)

Get对象包含了一个Get查询需要的信息。它的构造方法有两种&＃xff1a;

public Get(byte [] row)

public Get(byte [] row, RowLock rowLock)

Rowlock是为了保证读写的原子性&＃xff0c;你可以传递一个已经存在Rowlock&＃xff0c;否则HBase会自动生成一个新的rowlock。

Scan对象提供了默认构造函数&＃xff0c;一般使用默认构造函数。

Get/Scan的常用方法有&＃xff1a;

addFamily/addColumn:指定需要的family或者column,如果没有调用任何addFamily或者Column,会返回所有的columns.

setMaxVersions:指定最大的版本个数。如果不带任何参数调用setMaxVersions,表示取所有的版本。如果不掉用setMaxVersions,只会取到最新的版本。

setTimeRange:指定最大的时间戳和最小的时间戳&＃xff0c;只有在此范围内的cell才能被获取。

setTimeStamp:指定时间戳。

setFilter:指定Filter来过滤掉不需要的信息

Scan特有的方法&＃xff1a;

setStartRow:指定开始的行。如果不调用&＃xff0c;则从表头开始。

setStopRow:指定结束的行&＃xff08;不含此行&＃xff09;。

setBatch:指定最多返回的Cell数目。用于防止一行中有过多的数据&＃xff0c;导致OutofMemory错误。

ResultScanner是Result的一个容器&＃xff0c;每次调用ResultScanner的next方法&＃xff0c;会返回Result.

public Result next() throws IOException;

public Result [] next(int nbRows) throws IOException;

Result代表是一行的数据。常用方法有&＃xff1a;

getRow:返回rowkey

raw:返回所有的key value数组。

getValue:按照column来获取cell的值

Example:

Scan s &＃61; new Scan();

s.setMaxVersions();

ResultScanner ss &＃61; table.getScanner(s);

for(Result r:ss){

System.out.println(new String(r.getRow()));

for(KeyValue kv:r.raw()){

System.out.println(new String(kv.getColumn()));

}

插入数据

HTable通过put方法来插入数据。

public void put(final Put put) throws IOException

public void put(final List puts) throws IOException

可以传递单个批Put对象或者List put对象来分别实现单条插入和批量插入。

Put提供了3种构造方式&＃xff1a;

public Put(byte [] row)

public Put(byte [] row, RowLock rowLock)

public Put(Put putToCopy)

Put常用的方法有&＃xff1a;

add:增加一个Cell

setTimeStamp:指定所有cell默认的timestamp,如果一个Cell没有指定timestamp,就会用到这个值。如果没有调用&＃xff0c;HBase会将当前时间作为未指定timestamp的cell的timestamp.

setWriteToWAL: WAL是Write Ahead Log的缩写&＃xff0c;指的是HBase在插入操作前是否写Log。默认是打开&＃xff0c;关掉会提高性能&＃xff0c;但是如果系统出现故障(负责插入的Region Server挂掉)&＃xff0c;数据可能会丢失。

另外HTable也有两个方法也会影响插入的性能

setAutoFlash: AutoFlush指的是在每次调用HBase的Put操作&＃xff0c;是否提交到HBase Server。默认是true,每次会提交。如果此时是单条插入&＃xff0c;就会有更多的IO,从而降低性能.

setWriteBufferSize: Write Buffer Size在AutoFlush为false的时候起作用&＃xff0c;默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server

Example:

HTable table &＃61; new HTable(hbaseConfig, tableName);

table.setAutoFlush(autoFlush);

List lp &＃61; new ArrayList();

int count &＃61; 10000;

byte[] buffer &＃61; new byte[1024];

Random r &＃61; new Random();

for (int i &＃61; 1; i <&＃61; count; &＃43;&＃43;i) {

Put p &＃61; new Put(String.format(“row%09d”,i).getBytes());

r.nextBytes(buffer);

p.add(“f1″.getBytes(), null, buffer);

p.add(“f2″.getBytes(), null, buffer);

p.add(“f3″.getBytes(), null, buffer);

p.add(“f4″.getBytes(), null, buffer);

p.setWriteToWAL(wal);

lp.add(p);

if(i%1000&＃61;&＃61;0){

table.put(lp);

lp.clear();

}

删除数据

HTable 通过delete方法来删除数据。

public void delete(final Delete delete)

Delete构造方法有&＃xff1a;

public Delete(byte [] row)

public Delete(byte [] row, long timestamp, RowLock rowLock)

public Delete(final Delete d)

Delete常用方法有

deleteFamily/deleteColumns:指定要删除的family或者column的数据。如果不调用任何这样的方法&＃xff0c;将会删除整行。

注意&＃xff1a;如果某个Cell的timestamp高于当前时间&＃xff0c;这个Cell将不会被删除&＃xff0c;仍然可以查出来。

Example:

HTable table &＃61; new HTable(hbaseConfig, “mytest”);

Delete d &＃61; new Delete(“row1″.getBytes());

table.delete(d)

切分表

HBaseAdmin提供split方法来将table 进行split.

public void split(final String tableNameOrRegionName)

如果提供的tableName&＃xff0c;那么会将table所有region进行split ;如果提供的region Name&＃xff0c;那么只会split这个region.

由于split是一个异步操作&＃xff0c;我们并不能确切的控制region的个数。

Example:

public void split(String tableName,int number,int timeout) throws Exception {

Configuration HBASE_CONFIG &＃61; new Configuration();

HBASE_CONFIG.set(“hbase.zookeeper.quorum”, GlobalConf.ZOOKEEPER_QUORUM);

HBASE_CONFIG.set(“hbase.zookeeper.property.clientPort”, GlobalConf.ZOOKEEPER_PORT);

HBaseConfiguration cfg &＃61; new HBaseConfiguration(HBASE_CONFIG);

HBaseAdmin hAdmin &＃61; new HBaseAdmin(cfg);

HTable hTable &＃61; new HTable(cfg,tableName);

int oldsize &＃61; 0;

t &＃61; System.currentTimeMillis();

while(true){

int size &＃61; hTable.getRegionsInfo().size();

logger.info(“the region number&＃61;”&＃43;size);

if(size>&＃61;number ) break;

if(size!&＃61;oldsize){

hAdmin.split(hTable.getTableName());

oldsize &＃61; size;

} else if(System.currentTimeMillis()-t>timeout){

break;

}

Thread.sleep(1000*10);

}

出自&＃xff1a;http://www.open-open.com/lib/view/open1342514370807.html

推荐阅读

controller
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
copy
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
rsa
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
tree
使用Netzob逆向未知协议的技术指南

本文详细介绍如何使用Netzob工具逆向未知通信协议，涵盖从基本安装到高级模糊测试的全过程。通过实例演示，帮助读者掌握Netzob的核心功能。 ... [详细]

蜡笔小新 2024-11-14 18:24:15
match
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
match
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
match
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
export
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
tree
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
cookie
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
process
CentOS 7 中 MySQL 5.6 启动时遇到权限问题

在 CentOS 7 环境中使用 MySQL 5.6 镜像启动数据库时遇到权限问题，本文将详细探讨并提供解决方案。 ... [详细]

蜡笔小新 2024-11-14 10:49:29
process
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
jar
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
jar
在Linux系统上彻底卸载Zimbra邮件系统

本文详细介绍了如何在Linux系统（以CentOS为例）上彻底卸载Zimbra邮件系统，包括停止服务、删除文件和用户等步骤。 ... [详细]

蜡笔小新 2024-11-13 14:32:16
rsa
Linux下MySQL 8.0.28安装指南

本文详细介绍了在Linux系统上安装MySQL 8.0.28的步骤，包括下载数据库、解压数据包、安装必要组件和启动MySQL服务。 ... [详细]

蜡笔小新 2024-11-13 14:13:59

手机用户2502913853

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章