Sqoop工具实现，hive、Hbase、HDFS与mysql、oracle数据导入

作者：手机用户2702933712 | 来源：互联网 | 2023-05-19 11:48

SQOOP官网：点击打开链接http:sqoop.apache.orgdocs1.4.4SqoopUserGuide.html文将重点说明通过Sqoop实现Mysql与HD

SQOOP 官网：点击打开链接 http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html

文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。

一、Mysql与HDFS互导数据

环境：

宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.96 3台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop，并实现免密钥互访，配hosts为： 192.168.66.91 masternode 192.168.66.92 slavenode1 192.168.66.93 slavenode2 /etc/profile已配置好必备环境变量HADOOP_HOME，JAVA_HOME 实验在masternode上进行，已成功连接mysql 步骤一，下载安装包： 我安装的Hadoop版本是原生hadoop-0.20.203.0，SQOOP不支持此版本，可使用CDH3版本hadoop，也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下，依然可以使用。下载相关文件：http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gzhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gzsqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz，解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。 另外，sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar，所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。 步骤二，相关配置： 修改SQOOP的文件configure-sqoop，注释掉hbase和zookeeper检查（除非你准备使用HABASE等HADOOP上的组件） #if [ ! -d "${HBASE_HOME}" ]; then # echo “Error: $HBASE_HOME does not exist!” # echo ‘Please set $HBASE_HOME to the root of your HBase installation.’ # exit 1 #fi #if [ ! -d "${ZOOKEEPER_HOME}" ]; then # echo “Error: $ZOOKEEPER_HOME does not exist!” # echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’ # exit 1 #fi 修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile)：添加 export SQOOP_HOME=/home/grid/sqoop 在原有PATH后添加 :$SQOOP_HOME/bin 步骤三，在mysql中建立测试用户，测试表和数据，并测试sqoop连接mysql： 创建用户sqoop并授权： grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option; 创建表空间（schema）sqoop，并创建测试表： create table students (id int not null primary key,name varchar(20),age int) 插入测试数据： insert into students values('10001','liyang',29); insert into students values('10002','lion',28); insert into students values('10003','leon',26); 在masternode测试sqoop能否成功连接宿主机器上的mysql： sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop 如果能正确显示出sqoop表空间中的students表，就说明sqoop已经可以成功连接mysql！ 步骤四，将mysql中sqoop表空间的students表的三行数据导入HDFS: 启动hadoop： start-all.sh 用jps验证启动是否成功显示正在运行以下进程即为启动成功： 2820 SecondaryNameNode 4539 Jps 2887 JobTracker 2595 NameNode 从mysql导入数据，运行如下命令： sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --passwordsqoop --table students -m 1 验证导入数据是否成功： 若导入成功，运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students 运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件：/user/grid/students/part-m-00000 运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据： 10001,liyang,2910002,lion,2810003,leon,26 步骤五，将HDFS中的数据导入Mysql的students表中: 首先将mysql的students表数据清空： delete from students；然后在masternode上执行导出数据命令： 1.[root@sdzn-cdh01 hive]# sqoop export --connect jdbc:mysql://192.168.0.197:3306/dac --username root --password root --table provice_age_group_total --export-dir 'hdfs://sdzn-cdh01:8020/user/hive/warehouse/zyb.db/provice_age_group_total/000000_0' --fields-terminated-by '\001' -m 1
2.[root@sdzn-cdh01 hive]# sqoop export --connect jdbc:mysql://192.168.200.47:3306/test --username root --password root --table user_02 --export-dir 'hdfs://sdzn-cdh01:8020/sdzn_yhhx/user0/i' --fields-terminated-by '\t' -m 1

3.[root@sdzn-cdh01 etc]# sqoop export --connect "jdbc:mysql://192.168.0.197:3306/otherdb?useUnicode=true&characterEncoding=utf-8" --username root --password root --table tourist_playnum --export-dir '/user/hive/warehouse/zyb.db/tourist_tournums/' --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001" --input-lines-terminated-by "\\n" -m 1

二、Mysql与Hbase互导数据 将mysql的数据导入hbase的命令格式为：sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name其中，databaseName 和datatable 是mysql的数据库和表名，hbase_tablename是要导成hbase的表名，key_col_name可以指定datatable中哪一列作为hbase新表的rowkey，col_fam_name是除rowkey之外的所有列的列族名例如：可通过如下命令将Mysql中的students表导入到Hbase中： /home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id 成功执行后，可在hbase中用以下命令查看结果： hbase(main):011:0> scan 'students'ROW COLUMN+CELL10001 column=stuinfo:age, timestamp=1356759994058, value=2910001 column=stuinfo:name, timestamp=1356759994058, value=liyang10002 column=stuinfo:age, timestamp=1356760044478, value=2810002 column=stuinfo:name, timestamp=1356760044478, value=lion10003 column=stuinfo:age, timestamp=1356760044478, value=2610003 column=stuinfo:name, timestamp=1356760044478, value=leon3 row(s) in 0.0900 seconds 三、Oracle与Hbase互导数据 将Oracle中的dept表（列为id，name，addr）导出至hbase中的dept表（行键为id，列族为deptinfo） sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

四、Oracle数据导入到HDFS

./sqoop import --append --connect jdbc:oracle:thin:@192.168.0.197:1521:ORCL --username edw_src --password 123456 --target-dir /usr/home --num-mappers 1 --table ORDER_INFO_BAK --fields-terminated-by ','
sqoop导入递增数据：条件ID或者表字段必须为自增数据1.2.3..... 1992...
./sqoop import --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password ZN2016Zggcd2016 --target-dir /rainbow/test --num-mappers 1 --table DW_SRC.SYS_AREA --fields-terminated-by '\t' --incremental append --check-column ID --last-value 1992 上语句表示：插入1992之后的所有数据即是ID大于1992的数据
方式一 以时间为增量字段 ./sqoop import --append --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password SDZN2016Zggcd2016 --target-dir /rainbow/oracle --num-mappers 1 --table DW_SRC.ORDER_DETAIL --fields-terminated-by '\t' --where "to_char(MODIFY_TIME,'yyyy/mm')='2015/04'";
方式二 ./sqoop import --append --connect jdbc:oracle:thin:@192.168.200.58:1521:ORCL --username r_dw_src --password SDZN2016Zggcd2016 --target-dir /rainbow/test --num-mappers 1 --fields-terminated-by '\t' --query 'select * from DW_SRC.SYS_AREA where ID > 5817 and $CONDITIONS'

columns:表中的导入部分字段

*********sqoop export------*************
更新"quantity,occ_date"字段其中occ_date为mysql的唯一主键）有的覆盖，没有的添加
sqoop export --connect "jdbc:mysql://192.168.0.197:3306/bigdata_lots?useUnicode=true&characterEncoding=utf-8" --username root --password root
--table sd_next_weeks_fee_quantitys --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001"--columns="quantity,occ_date" --input-lines-terminated-by "\\n" -m 1 --export-dir /user/hive/warehouse/totallots.db/sd_next_weeks_quantity/--update-key occ_date --update-mode allowinsert

更新表全部的字段
sqoop export --connect "jdbc:mysql://192.168.0.197:3306/bigdata_lots?useUnicode=true&characterEncoding=utf-8" --username root --password root
--table sd_next_weeks_fee_quantitys --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\001" ---input-lines-terminated-by "\\n" -m 1 --export-dir /user/hive/warehouse/totallots.db/sd_next_weeks_quantity/ --update-key occ_date --update-mode allowinsert *********************************************

#Oracle的连接字符串，其中包含了URL，SID，和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw

#使用的用户名
USERNAME=szdw
#使用的密码
PASSWORD=szdw
#需要从Oracle中导入的表名
TableNAME=proc_resource_admin
#需要从Oracle中导入的表中的字段名 ,也可省略
COLUMNS=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径，系统自动创建该路径
HADFPATH=/home/hadoop/data/ proc_resource_admin

四、sqoop增量导入hive

1) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --username dss --password xxx123 --table bb_month --hive-import --incremental append --check-column ID --last-value 714
2) bin/sqoop import --connect jdbc:mysql://10.X.X.X:3306/lir --table bb_month --username dss -P --hive-import --incremental append --check-column ID --last-value 714 -- --default-character-set=utf-8

使用sqoop工具进行数据导入导出中可以进行并行导入的方法

例如从mysql数据库中导入到hive中可以执行

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1

其中-m 1 参数代表的含义是使用多少个并行，这个参数的值是1，说明没有开启并行功能。

将m参数的数值调为5或者更大，Sqoop就会开启5个进程，同时进行数据的导入操作。

注意：mysql数据库的表中需要有个主键，如果没有主键的话需要手动选取一个合适的拆分字段。

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 5 --split-by uid --where "rdate='2012-03-39'"

如果不能满足需求的话，则使用

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1 --where 'logtime<10:00:00'

sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1 --where 'logtime>=10:00:00'

从而达到并行导入的目的

推荐阅读

ide
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
format
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
get
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
jar
ubuntu16.04 +Java8+ hadoop2.x单机安装

关于hadoop及相关模块的安装，自己下载模块安装的话较为麻烦，有配置、版本对应的些许问题，使用cloudera集成好的平台也不错 ... [详细]

蜡笔小新 2023-10-11 00:47:53
jar
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22
format
MySQL数据实时同步到KafkaBinlog canal、Maxwell、Kafka Connect 实现MySQL增量同步

一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析，使用过程中也带来了一些问题：虽然Sqoop支持增量同步但还属于粗粒度的离线同步，无法满 ... [详细]

蜡笔小新 2023-10-10 13:14:45
ip
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
jar
在CentOS 6.6 64位系统上部署Tomcat 8服务器环境配置指南

本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位，采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz，建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤，适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]

蜡笔小新 2024-11-08 21:38:15
function
Amoeba 优化 MySQL 读写分离性能

Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具，Amoeba 能够高效地处理应用程序的请求，并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例，从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力，还有效减少了主数据库的负担，确保了数据的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-08 19:19:47
format
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
format
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
format
ftp和文件服务器,ftp和文件服务器的区别

ftp和文件服务器的区别内容精选换一换obsftp工具于2021年2月9日正式下线，下线后OBS不再对此工具提供维护和客户支持服务，给您带来不便敬请谅解 ... [详细]

蜡笔小新 2023-10-11 19:18:33
format
【数据结构与算法】——快速排序

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,O ... [详细]

蜡笔小新 2023-10-11 18:06:17

手机用户2702933712

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章