热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sqoop工具实现,hive、Hbase、HDFS与mysql、oracle数据导入

SQOOP官网:点击打开链接http:sqoop.apache.orgdocs1.4.4SqoopUserGuide.html文将重点说明通过Sqoop实现Mysql与HD

SQOOP 官网:点击打开链接        http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html

文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。

一、Mysql与HDFS互导数据

环境:

宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96 3台虚拟机操作系统为Ubuntu-12.04.1-32位 三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为: 192.168.66.91 masternode 192.168.66.92 slavenode1 192.168.66.93 slavenode2 /etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME 实验在masternode上进行,已成功连接mysql   步骤一,下载安装包: 我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。 下载相关文件:http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gzsqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。 另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。   步骤二,相关配置: 修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then # echo “Error: $HBASE_HOME does not exist!” # echo ‘Please set $HBASE_HOME to the root of your HBase installation.’ # exit 1 #fi #if [ ! -d "${ZOOKEEPER_HOME}" ]; then # echo “Error: $ZOOKEEPER_HOME does not exist!” # echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’ # exit 1 #fi   修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile): 添加 export SQOOP_HOME=/home/grid/sqoop 在原有PATH后添加 :$SQOOP_HOME/bin   步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql: 创建用户sqoop并授权: grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;   创建表空间(schema)sqoop,并创建测试表: create table students (id int not null primary key,name varchar(20),age int)   插入测试数据: insert into students values('10001','liyang',29); insert into students values('10002','lion',28); insert into students values('10003','leon',26);   在masternode测试sqoop能否成功连接宿主机器上的mysql: sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop 如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!   步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS: 启动hadoop start-all.sh 用jps验证启动是否成功 显示正在运行以下进程即为启动成功: 2820 SecondaryNameNode 4539 Jps 2887 JobTracker 2595 NameNode   从mysql导入数据,运行如下命令 sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --passwordsqoop --table students -m 1   验证导入数据是否成功: 若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students 运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000 运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据: 10001,liyang,2910002,lion,2810003,leon,26   步骤五,将HDFS中的数据导入Mysql的students表中: 首先将mysql的students表数据清空: delete from students;   然后在masternode上执行导出数据命令: 1.[root@sdzn-cdh01 hive]# sqoop export --connect jdbc:mysql://192.168.0.197:3306/dac  --username root --password root --table provice_age_group_total  --export-dir 'hdfs://sdzn-cdh01:8020/user/hive/warehouse/zyb.db/provice_age_group_total/000000_0'   --fields-terminated-by '\001' -m 1
  2.[root@sdzn-cdh01 hive]# sqoop export --connect jdbc:mysql://192.168.200.47:3306/test --username root --password root --table user_02  --export-dir 'hdfs://sdzn-cdh01:8020/sdzn_yhhx/user0/i' --fields-terminated-by '\t' -m 1

3.[root@sdzn-cdh01 etc]# sqoop export --connect "jdbc:mysql://192.168.0.197:3306/otherdb?useUnicode=true&characterEncoding=utf-8"  --username root --password root --table tourist_playnum  --export-dir '/user/hive/warehouse/zyb.db/tourist_tournums/'   --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001" --input-lines-terminated-by "\\n" -m 1

  二、Mysql与Hbase互导数据 将mysql的数据导入hbase的命令格式为:sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名   例如:可通过如下命令将Mysql中的students表导入到Hbase中: /home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id 成功执行后,可在hbase中用以下命令查看结果: hbase(main):011:0> scan 'students'ROW COLUMN+CELL10001 column=stuinfo:age, timestamp=1356759994058, value=2910001 column=stuinfo:name, timestamp=1356759994058, value=liyang10002 column=stuinfo:age, timestamp=1356760044478, value=2810002 column=stuinfo:name, timestamp=1356760044478, value=lion10003 column=stuinfo:age, timestamp=1356760044478, value=2610003 column=stuinfo:name, timestamp=1356760044478, value=leon3 row(s) in 0.0900 seconds   三、Oracle与Hbase互导数据 将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo) sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

四、Oracle数据导入到HDFS

./sqoop import --append --connect jdbc:oracle:thin:@192.168.0.197:1521:ORCL --username edw_src --password 123456  --target-dir /usr/home  --num-mappers 1 --table  ORDER_INFO_BAK  --fields-terminated-by  ','

sqoop导入递增数据:条件ID或者表字段必须为自增数据1.2.3.....  1992...
./sqoop import --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password  ZN2016Zggcd2016  --target-dir /rainbow/test  --num-mappers 1 --table DW_SRC.SYS_AREA --fields-terminated-by '\t' --incremental append  --check-column ID --last-value 1992 上语句表示:插入1992之后的所有数据即是ID大于1992的数据
方式一 以时间为增量字段 ./sqoop  import --append  --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password SDZN2016Zggcd2016  --target-dir /rainbow/oracle --num-mappers 1 --table DW_SRC.ORDER_DETAIL --fields-terminated-by '\t'  --where  "to_char(MODIFY_TIME,'yyyy/mm')='2015/04'";
方式二  ./sqoop  import --append  --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password SDZN2016Zggcd2016  --target-dir /rainbow/test --num-mappers 1  --fields-terminated-by '\t' --query  'select * from DW_SRC.SYS_AREA where ID > 5817 and $CONDITIONS' 


columns:表中的导入部分字段

*********sqoop  export------*************
更新"quantity,occ_date"字段其中occ_date为mysql的唯一主键)有的覆盖,没有的添加
sqoop export --connect "jdbc:mysql://192.168.0.197:3306/bigdata_lots?useUnicode=true&characterEncoding=utf-8"  --username root --password root 
--table sd_next_weeks_fee_quantitys  --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001"--columns="quantity,occ_date" --input-lines-terminated-by "\\n" -m 1 --export-dir /user/hive/warehouse/totallots.db/sd_next_weeks_quantity/--update-key occ_date --update-mode allowinsert 


更新表全部的字段
sqoop export --connect "jdbc:mysql://192.168.0.197:3306/bigdata_lots?useUnicode=true&characterEncoding=utf-8"  --username root --password root 
--table sd_next_weeks_fee_quantitys  --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001" ---input-lines-terminated-by "\\n" -m 1 --export-dir /user/hive/warehouse/totallots.db/sd_next_weeks_quantity/ --update-key occ_date --update-mode allowinsert  
*********************************************

#Oracle的连接字符串,其中包含了URL,SID,和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw

#使用的用户名
USERNAME=szdw
#使用的密码
PASSWORD=szdw
#需要从Oracle中导入的表名
TableNAME=proc_resource_admin
#需要从Oracle中导入的表中的字段名 ,也可省略
COLUMNS=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径,系统自动创建该路径
HADFPATH=/home/hadoop/data/ proc_resource_admin


四、sqoop增量导入hive

1) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --username dss --password xxx123 --table bb_month --hive-import --incremental append --check-column ID --last-value 714
2) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --table bb_month --username dss -P --hive-import --incremental append --check-column ID --last-value 714 -- --default-character-set=utf-8



使用sqoop工具进行数据导入导出中可以进行并行导入的方法

例如  从mysql数据库中导入到hive中可以执行

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1

其中-m 1 参数代表的含义是使用多少个并行,这个参数的值是1,说明没有开启并行功能。

将m参数的数值调为5或者更大,Sqoop就会开启5个进程,同时进行数据的导入操作。

注意:mysql数据库的表中需要有个主键,如果没有主键的话需要手动选取一个合适的拆分字段。

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 5  --split-by uid  --where "rdate='2012-03-39'"

如果不能满足需求的话,则使用

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1  --where 'logtime<10:00:00'

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1  --where 'logtime>=10:00:00'

从而达到并行导入的目的




推荐阅读
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
  • 阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
  • MySQL中的MVVC多版本并发控制机制的应用及实现
    本文介绍了MySQL中MVCC的应用及实现机制。MVCC是一种提高并发性能的技术,通过对事务内读取的内存进行处理,避免写操作堵塞读操作的并发问题。与其他数据库系统的MVCC实现机制不尽相同,MySQL的MVCC是在undolog中实现的。通过undolog可以找回数据的历史版本,提供给用户读取或在回滚时覆盖数据页上的数据。MySQL的大多数事务型存储引擎都实现了MVCC,但各自的实现机制有所不同。 ... [详细]
  • 本文详细介绍了使用 SQL Load 和 Excel 的 Concatenate 功能将数据导入 ORACLE 数据库的方法和步骤,同时介绍了使用 PL/SQL tools 将数据导入临时表的方法。此外,还提供了一个转链接,可参考更多相关内容。摘要共计XXX字。 ... [详细]
  • 使用clouderaquickstartvm无配置快速部署Hadoop应用
    http:zzj270919.blog.163.comblogstatic68997776201522561659999目录:通过CDH网站下载cloudera-vm ... [详细]
  • Flume 开源分布式日志收集系统
    为什么80%的码农都做不了架构师?Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]
  • 关于hadoop及相关模块的安装,自己下载模块安装的话较为麻烦,有配置、版本对应的些许问题,使用cloudera集成好的平台也不错 ... [详细]
  • Spark学习之路(一)Spark概述
    一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址:http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]
  • MySQL数据 实时同步到KafkaBinlog canal、Maxwell、Kafka Connect 实现MySQL增量同步
    一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析,使用过程中也带来了一些问题:虽然Sqoop支持增量同步但还属于粗粒度的离线同步,无法满 ... [详细]
  • hadoop常用操作命令https:www.cnblogs.comcerofangp10460494.htmlday3_day6https:www.cnblogs.comcerof ... [详细]
  • [root@cloud4conf]#sqoopexport--connectjdbc:mysql:192.168.56.1:3306hive--usernameroot--pas ... [详细]
  • 从接触DataX起就有一个疑问,它和Sqoop到底有什么区别,昨天部署好了DataX和Sqoop,就可以对两者进行更深入的了解了。两者从原理上看有点相似,都是解决异构环境的数据交换 ... [详细]
  • 本文目录一览:1、大数据培训课程大纲要学什么课程? ... [详细]
  • Kylin——CDH
    CDH:Cloudera‘sDistribution,includingApacheHadoop.Hadoop众多分支中的一种,可直接用于成产环境CM:Cloudera ... [详细]
author-avatar
手机用户2702933712
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有