热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hbase的数据备份策略

摘自:http:qindongliang.iteye.comblog2366547Hbase的数据备份策略有:DistcpCopyTableExportImportReplicat

摘自:http://qindongliang.iteye.com/blog/2366547
Hbase的数据备份策略有:

  • Distcp
  • CopyTable
  • Export/Import
  • Replication
  • Snapshot

下面介绍这几种方式:
一、Distcp(离线备份)
直接备份HDFS数据,备份前需要disable表,在备份完成之前 服务不可用对在线服务类业务不友好

二、CopyTable(热备)
执行命令前,需要创建表,支持时间区间、row区间,改变表名称,改变列簇名称,指定是否copy删除数据等功能,例如:

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -starttime=1265875194289 --endtime=1265878794289 --peer.adr= dstClusterZK:2181:/hbase --families=myOldCf:myNewCf,cf2,cf3 TestTable

1、同一个集群不同表名称

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=tableCopy srcTable

2、跨集群copy表

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=dstClusterZK:2181:/hbase srcTable

三、Export/Import(热备+离线)
通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份。

四、Replication(实时)
通过Hbase的replication机制实现Hbase集群的主从模式实时同步

五、Snapshot(备份实时,恢复需要disable) 个人觉得这是备份里面最经济划算的一个,可以每天在固定时间点对hbase表数据进行快照备份,然后如果出现问题了,可以直接恢复到某个时间点上的数据,适合修复指标计算错误的场景,然后从某个时间点上重新修复。 下面详细说下使用方式:

(1)先建立一个测试表 Java代码
create 'test','cf'
(2)添加数据 Java代码

> put 'test','a','cf:c1',1
> put 'test','a','cf:c2',2
> put 'test','b','cf:c1',3
> put 'test','b','cf:c2',4
> put 'test','c','cf:c1',5
> put 'test','c','cf:c2',6

(3)创建快照
hbase snapshot create -n test_snapshot -t test
(4)查看快照
list_snapshots
(5)导出到HDFS Java代码

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snapshot -copy-to hdfs://user/back/xxx

(6)从快照恢复数据到原表中
restore _snapshot 'test_snapshot'
(7)从快照中恢复到一个新表中
clone_snapshot 'test_snapshot','test_2'


推荐阅读
author-avatar
fuchen201101
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有