HBase数据导入方法总结（第一部分）

作者：瑞正可樺7991 | 来源：互联网 | 2023-05-19 10:15

引言HBase作为Apache软件基金会的一个顶级项目，目前在业界有着广泛的使用。HBase是GoogleBigTable的开源实现，运行在HDFS文件系统之上，为Hadoop提供类似

引言

HBase作为Apache软件基金会的一个顶级项目，目前在业界有着广泛的使用。HBase是Google BigTable的开源实现，运行在HDFS文件系统之上，为Hadoop提供类似于BigTable的分布式数据存放服务。在Eric Brewer的CAP理论中，HBase属于CP类型的系统，即保证了系统的一致性和对分区容忍性，具体可以自行google CAP理论。

最近在做一个大数据项目，需要将原本oracle数据库中的数据导入到HBase中，所以做了一个简单的HBase数据导入总结。目前我已知的并且实验可行的方法有一下几种：
1. JDBC & HBase Client API
2. MapReduce Job/TableReducer
3. Importtsv(unbulk load)
4. bulk load(importtsv | MapReduce Job)
5. Sqoop

先简要介绍下每种方法：
方法1：最基本的数据导入方法。首先通过JDBC将原本关系型数据库中的数据读出到内存中，然后在使用HBase自带的客户端API将数据put到相应的表中。这种方法通用性强，只要写好接口就可以用，但是效率并不高。
方法2：使用这种方法之前其实是需要先将数据导出到本地，以文本的形式保存，然后使用TableReudcer类编写MapReduce job。这种方法需要频繁的I/O操作，所以效率不高，容易导致HBase节点的不稳定。
方法3：importtsv是HBase内置的数据导入工具，目的是将tsv格式的文件加载到HBase中，本质上它是通过调用MapReudce Job实现数据导入的。注意:使用该方法，需要提前将数据导出到本地，以tsv格式存储。unbulk load模式的importtsv效果一般，适用于小型的数据。
方法4：bulk load是一个快速大量数据高效导入工具，相比于importtsv效率更高。
方法5：Sqoop是apache软件基金会的一个项目，可以用来实现关系型数据库和hdfs,hbase,hive之间的数据高效传输。只需要做一些简单的配置，通过Sqoop命令行指令就可以方便的实现数据导入和导出。

下面具体介绍每种方法的做法：

JDBC & HBase Client API

此处以MySql为例。首先在MySql数据库中创建database ‘test’,然后创建一张表’Info’，这里可以使用可视化软件（例如workbench），也可以直接在命令行输入相应指令：

:~$mysql -u root -p #root用户登录mysql
#创建Info表
CREATE TABLE Info (`ID` INT NOT NULL,
                   `Name` VARCHAR(45) NOT NULL,
                   `Number` INT NOT NULL,
                   `Time` VARCHAR(45) NOT NULL,
                   PRIMARY KEY (`ID`));

然后使用load指令将准备好的数据导入到Info中。数据格式与Info各字段的一致即可。

load data local infile '/home/lvyang/Desktop/test.csv' into table Info fields terminated by ','

到此数据已经准备好了。下面就可以进行数据导出导入过程了。
由于需要使用MySql的数据读取接口，所以我们需要到官网下载相应的connector,并将其中包含的mysql-connector-java-版本号-bin.jar文件取出，添加到自己Project的依赖库中。如果对maven比较熟的，就可以忽视这些配置过程，直接配置pom.xml文件即可完成项目依赖设置，方便快捷。
JDBC数据读取：

public class JDBCUtils {
    Connection cOnn=null;
    ResultSet rs=null;
    String databaseName=null;
    String userName=null;
    String password=null;
    String url=null;
    public JDBCUtils(String databaseName, String userName, String password, String url);
    public void connect();
    public ResultSet readData(String sql);
    public void writeToConsole(ResultSet rs,String[] keys);
    public boolean writeToLocal(ResultSet rs,String path);
    public void close();
}

上面是JDBC工具类定义，可以根据自己的需求，自行添加或者删除方法。部分方法的实现如下，仅做参考：

public void connect(){
    try {
        Class.forName("com.mysql.jdbc.Driver");   //注册驱动
        System.out.println("load mysql driver successfully!");
        cOnn= (Connection) DriverManager.getConnection(url); //获得connection对象，完成数据库连接
    } catch (ClassNotFoundException e) {
        e.printStackTrace();
    } catch (SQLException e) {
        e.printStackTrace();
    }
} 
public ResultSet readData(String sql){
    try {
        Statement stmt= (Statement) conn.createStatement(); //创建statement对象
        rs=stmt.executeQuery(sql);                          //执行query命令，获取ResultSet
    } catch (SQLException e) {
        e.printStackTrace();
    }
    return rs;
}
public void close(){
    if(rs!=null){
        try {
            rs.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
    if(conn!=null){
        try {
            conn.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

到此JDBC读取数据部分已经完成，下面需要实现HBase数据导入功能：

public class HBaseUtils {
    private  static final Log LOG= LogFactory.getLog(HBaseUtils.class); //LOG用于输出部分关键信息
    //Here I choose construct func to init configuration instance
    //and then use connectionFactory to create init conn instance
    //at last,I use conn to get Hadmin instance
    //next I will use Hadmin to operate hbase tables
    private Configuration cOnf=null;
    private Admin Hadmin=null;
    private Connection cOnn=null;
    public HBaseUtils(Configuration conf);
    public void connect();
    public boolean isExist(String tableName);
    public boolean createTable(String tableName,String columnFamily);
    public boolean writeOne(HashMap data,String[] keys, String tableName,String columnFamily);
    public boolean writeMore(List> list,String[] keys,String tableName,String columnFamily);
    public boolean deleteTable(String tableName);
    public void close();
}

部分方法的实现如下，仅做参考：

public void connect(){
    try {
        //create connection  to hbase
        cOnn= ConnectionFactory.createConnection(conf);
        //get Hadmin which is the database manager
        Hadmin=conn.getAdmin();
    } catch (IOException e) {
        e.printStackTrace();
        if(conn!=null){
            try {
                conn.close();
            } catch (IOException e1) {
                e1.printStackTrace();
            }
        }
        if(Hadmin!=null){
            try {
                Hadmin.close();
            } catch (IOException e1) {
                e1.printStackTrace();
            }
        }
    }
}
public boolean createTable(String tableName,String columnFamily){
    /**
     * create table
     * here I limit the number of column family to 1
     * So here only can create one column family's table
     * **/
    TableName table_name= TableName.valueOf(tableName);
    LOG.info("Create table:"+tableName+" now!");
    HTableDescriptor tableDesc=new HTableDescriptor(table_name);
    HColumnDescriptor columnDesc=new HColumnDescriptor(columnFamily);
    tableDesc.addFamily(columnDesc);
    try {
        this.Hadmin.createTable(tableDesc);
    } catch (IOException e) {
        e.printStackTrace();
        return false;
    }
    return true;
}
public boolean writeOne(HashMap data,String[] keys, String tableName,String columnFamily){
    /**
     * write one data to table at one time
     * here I choose the first key as the rowKey,because I think the first key usually is the primary key
     * **/
    boolean flag=false;
    TableName table_name=TableName.valueOf(tableName);
    byte[] column_family=columnFamily.getBytes();
    try {
        Table table=conn.getTable(table_name);
        byte[] rowKey=data.get(keys[0]).toString().getBytes(); //construct HBase table's rowKey
        Put put=new Put(rowKey);
        for(int i=0;i            byte[] key=keys[i].getBytes();
            byte[] value=data.get(keys[i]).toString().getBytes();
            put.addColumn(column_family,key,value);
        }
        table.put(put);
        table.close();
        flag=true;
    } catch (IOException e) {
        e.printStackTrace();
    }
    return flag;
}
public void close(){
    /**
     * close connection
     * **/
    LOG.info("Close connection to HBase!");
    if(Hadmin!=null){
        try {
            Hadmin.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    if(conn!=null){
        try {
            conn.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

到此，工具类已经基本完成，下面需要写一个主类：

public class deMain {
    public static void main(String[] args){
        //JDBC Init
        Connection cOnn=null;
        String sql="select * from Info";
        String databaseName="test";
        String userName="root";
        String password="****";
        String url="jdbc:mysql://localhost:3306/"+databaseName+"?user="+userName+"&password="
                +password+"&useUnicode=true&characterEncoding=utf-8";
        //HBase Client Init
        String tableName="test";
        String columnFamily="info";
        Configuration cOnf= HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum","127.0.0.1");
        conf.set("hbase.master","localhost:9000");
    }
    //JDBC connection and read data
    JDBCUtils ju=new JDBCUtils(databaseName,userName,password,url);
    ju.connect();
    ResultSet rs=ju.readData(sql);
    //HBase connect
    HBaseUtils hbu=new HBaseUtils(conf);
    hbu.connect();
    //依次读取rs中每条记录，并将其写入HBase相应表中即可
    .........
    //close all connection
    hbu.close();
    ju.close();
}

到此，大功告成！由于是通过IDE端运行hadoop程序，所以我们需要将需要用到的依赖库导入，而这个过程如果不借助maven的话，就会特别的痛苦。下图是我配置的项目依赖包，仅供参考。
这里写图片描述
注：hadoop2.7.2,hbase1.2.1,zookeeper3.4.6

结语

由于内容比较多，所有剩下的方法将会在下一篇博文中介绍。

推荐阅读

search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
search
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
search
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
search
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
text
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
java
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
copy
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
copy
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
object
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
object
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
object
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
java
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
java
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
text
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
java
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37

瑞正可樺7991

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章