简介
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。利用Sqoop可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop2的最新版本是1.99.7。请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署。
Sqoop将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
Sqoop官网:http://sqoop.apache.org/
安装
注意:前提是已经安装好Java和Hadoop环境。
1.下载上传解压
- 下载地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.7
- 上传安装包到虚拟机中
- 解压sqoop安装包到指定目录
2.修改配置文件
Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录中。
- 重命名配置文件
$ mv sqoop-env-template.sh sqoop-env.sh - 修改配置文件 sqoop-env.sh
export HADOOP_COMMON_HOME=/usr/local/hadoop3.1.2/hadoop-standalone
export HADOOP_MAPRED_HOME=/usr/local/hadoop3.1.2/hadoop-standalone
export HIVE_HOME=/usr/local/apache-hive-3.1.1
#export HBASE_HOME=/usr/local/hbase-2.1.3
#export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.13-standalone
#export ZOOCFGDIR=/usr/local/zookeeper-3.4.13-standalone
注:上面Hadoop是必需的,其它可以根据需要进行配置。
关联Hbase时,如果报错“找不到或无法加载类GetJavaProperty”,可以参考博客:HBase报错:找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty
3.拷贝JDBC驱动
拷贝jdbc驱动到sqoop的lib目录下:
4.验证Sqoop配置
我们可以通过bin/sqoop help来验证sqoop配置是否正确:
5.测试Sqoop是否能够成功连接数据库
$ bin/sqoop list-databases --connect jdbc:mysql://hcmaster:3306/ --username root --password root