SQOOP 官网:点击打开链接 http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html
文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据环境:
宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96 3台虚拟机操作系统为Ubuntu-12.04.1-32位 三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为: 192.168.66.91 masternode 192.168.66.92 slavenode1 192.168.66.93 slavenode2 /etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME 实验在masternode上进行,已成功连接mysql 步骤一,下载安装包: 我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。 下载相关文件:http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gzsqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。 另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。 步骤二,相关配置: 修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then # echo “Error: $HBASE_HOME does not exist!” # echo ‘Please set $HBASE_HOME to the root of your HBase installation.’ # exit 1 #fi #if [ ! -d "${ZOOKEEPER_HOME}" ]; then # echo “Error: $ZOOKEEPER_HOME does not exist!” # echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’ # exit 1 #fi 修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile): 添加 export SQOOP_HOME=/home/grid/sqoop 在原有PATH后添加 :$SQOOP_HOME/bin 步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql: 创建用户sqoop并授权: grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option; 创建表空间(schema)sqoop,并创建测试表: create table students (id int not null primary key,name varchar(20),age int) 插入测试数据: insert into students values('10001','liyang',29); insert into students values('10002','lion',28); insert into students values('10003','leon',26); 在masternode测试sqoop能否成功连接宿主机器上的mysql: sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop 如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql! 步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS: 启动hadoop: start-all.sh 用jps验证启动是否成功 显示正在运行以下进程即为启动成功: 2820 SecondaryNameNode 4539 Jps 2887 JobTracker 2595 NameNode 从mysql导入数据,运行如下命令: sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --passwordsqoop --table students -m 1 验证导入数据是否成功: 若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students 运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000 运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据: 10001,liyang,2910002,lion,2810003,leon,26 步骤五,将HDFS中的数据导入Mysql的students表中: 首先将mysql的students表数据清空: delete from students; 然后在masternode上执行导出数据命令: 1.[root@sdzn-cdh01 hive]# sqoop export --connect jdbc:mysql://192.168.0.197:3306/dac --username root --password root --table provice_age_group_total --export-dir 'hdfs://sdzn-cdh01:8020/user/hive/warehouse/zyb.db/provice_age_group_total/000000_0' --fields-terminated-by '\001' -m 1#Oracle的连接字符串,其中包含了URL,SID,和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw
#使用的用户名
USERNAME=szdw
#使用的密码
PASSWORD=szdw
#需要从Oracle中导入的表名
TableNAME=proc_resource_admin
#需要从Oracle中导入的表中的字段名 ,也可省略
COLUMNS=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径,系统自动创建该路径
HADFPATH=/home/hadoop/data/ proc_resource_admin
四、sqoop增量导入hive
1) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --username dss --password xxx123 --table bb_month --hive-import --incremental append --check-column ID --last-value 714
2) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --table bb_month --username dss -P --hive-import --incremental append --check-column ID --last-value 714 -- --default-character-set=utf-8
使用sqoop工具进行数据导入导出中可以进行并行导入的方法
例如 从mysql数据库中导入到hive中可以执行
sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1
其中-m 1 参数代表的含义是使用多少个并行,这个参数的值是1,说明没有开启并行功能。
将m参数的数值调为5或者更大,Sqoop就会开启5个进程,同时进行数据的导入操作。
注意:mysql数据库的表中需要有个主键,如果没有主键的话需要手动选取一个合适的拆分字段。
sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 5 --split-by uid --where "rdate='2012-03-39'"
如果不能满足需求的话,则使用
sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1 --where 'logtime<10:00:00'
sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1 --where 'logtime>=10:00:00'
从而达到并行导入的目的