Hadoop学习笔记—18.Sqoop框架学习

作者：博菡 | 来源：互联网 | 2023-05-19 08:24

一、Sqoop基础：连接关系型数据库与Hadoop的桥梁1.1Sqoop的基本概念Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。ApacheSqoop正

一、Sqoop基础：连接关系型数据库与Hadoop的桥梁

1.1 Sqoop的基本概念　　

　　Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程，云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程，降低编写自定义数据加载脚本的需求。

　　Apache Sqoop（SQL-to-Hadoop）项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中；同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。因此，可以说Sqoop就是一个桥梁，连接了关系型数据库与Hadoop。

1.2 Sqoop的基本机制

　　Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。Sqoop架构非常简单，其整合了Hive、Hbase和Oozie，通过map-reduce任务来传输数据，从而提供并发特性和容错。Sqoop的基本工作流程如下图所示：

　　Sqoop在import时，需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。每个map中再处理数据库中获取的一行一行的值，写入到HDFS中(由此也可知，导入导出的事务是以Mapper任务为单位)。同时split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分别为1000和1，而num-mappers为2的话，则会分成两个区域(1,500)和(501-100),同时也会分成2个sql给2个map去进行导入操作，分别为select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每个map各自获取各自SQL中的数据进行导入工作。

二、Sqoop实践：MySQL->HDFS/HDFS->MySQL

2.1 Sqoop的安装配置

　　（1）下载sqoop安装包：这里使用的是1.4.3版本，已经上传至网盘中（http://pan.baidu.com/s/1pJ7gfxh）

　　（2）解压sqoop安装包：tar -zvxf sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz

　　（3）设置环境变量：vim /etc/profile ，增加以下内容

export SQOOP_HOME=/usr/local/sqoop
export PATH=.:$HADOOP_HOME/bin:$SQOOP_HOME/bin:$HIVE_HOME/bin:$PIG_HOME/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATH

　　最后是环境变量生效：source /etc/profile

　　（4）将mysql的jdbc驱动mysql-connector-java-5.1.10.jar复制到sqoop项目的lib目录下：

cp mysql-connector-java-5.1.10.jar /usr/local/sqoop/lib

　　（5）重命名配置文件：在${SQOOP_HOME}/conf中执行命令

mv sqoop-env-template.sh sqoop-env.sh

　　（6）【可选】修改配置文件：vim sqoop-env.sh

#Set path to where bin/hadoop is available

export HADOOP_COMMON_HOME=/usr/local/hadoop/

#Set path to where hadoop-*-core.jar is available

export HADOOP_MAPRED_HOME=/usr/local/hadoop

#set the path to where bin/hbase is available export

HBASE_HOME=/usr/local/hbase

#Set the path to where bin/hive is available

export HIVE_HOME=/usr/local/hive

#Set the path for where zookeper config dir is

export ZOOCFGDIR=/usr/local/zookeeper

2.2 数据导入：MySQL->HDFS

　　这里假设我们已经在hadoop-master服务器中安装了MySQL数据库服务，并使用默认端口3306。需要注意的是，sqoop的数据库驱动driver默认只支持mysql和oracle，如果使用sqlserver的话，需要把sqlserver的驱动jar包放在sqoop的lib目录下，然后才能使用drive参数。

　　（1）MySQL数据源：mysql中的hive数据库的TBLS表，这里使用学习笔记17《Hive框架学习》里边Hive的数据库表。

　　（2）使用import命令将mysql中的数据导入HDFS：

　　首先看看import命令的基本格式：

  sqoop           ##sqoop命令

import           ##表示导入

--connect jdbc:mysql://ip:3306/sqoop    ##告诉jdbc，连接mysql的url

--username root                                     ##连接mysql的用户名

--password admin                               ##连接mysql的密码

--table mysql1                                        ##从mysql导出的表名称

--fields-terminated-by '\t'                        ##指定输出文件中的行的字段分隔符

-m 1                                                       ##复制过程使用1个map作业

--hive-import                                          ##把mysql表数据复制到hive空间中。如果不使用该选项，意味着复制到hdfs中

　　然后看看如何进行实战：这里将mysql中的TBLS表导入到hdfs中（默认导入目录是/user/）

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t'

　　最后看看是否成功导入了HDFS中：可以看到TBLS表存入了多个map任务所生成的文件中

　　（3）刚刚看到了默认是由多个map来进行处理生成，可以设置指定数量的map任务。又由于sqoop默认不是追加方式写入，还可以设置其为追加方式写入已有文件末尾：

sqoop import --connect jdbc:mysql://hadoop0:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t' --null-string '**' -m 1 --append

　　（4）还可以将MySQL中的数据导入Hive中（你设定的hive在hdfs中的存储位置，我这里是/hive/）：

首先得删掉刚刚导入到hdfs中的文件数据：

hadoop fs -rmr /user/root/*

然后再通过以下命令导入到hive中：

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t' -m 1 --append --hive-import

　　最后看看是否导入到了hive目录（/hive/）中：

　　（5）还可以对指定数据源进行增量导入：所谓增量打入，就是导入上一次导入后数据源新增的那部分数据，例如：上次导入的数据是id从1~100的数据，那么这次就只导入100以后新增的数据，而不必整体导入，节省了导入时间。下面的命令以TBL_ID字段作为判断标准采用增量导入，并记录上一次的最后一个记录是6，只导入6以后的数据即可。

sqoop import --connect jdbc:mysql://hadoop0:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t' --null-string '**' -m 1 --append --hive-import --check-column 'TBL_ID' --incremental append --last-value 6

2.3 数据导出：HDFS->MySQL

　　（1）既然要导出到MySQL，那么首先得要有一张接收从HDFS导出数据的表。这里为了示范，只创建一个最简单的数据表TEST_IDS，只有一个int类型的ID字段。

　　（2）使用export命令进行将数据从HDFS导出到MySQL中，可以看看export命令的基本格式：

sqoop

export                                       ##表示数据从hive复制到mysql中

--connect jdbc:mysql://ip:3306/sqoop   ##告诉jdbc，连接mysql的url

--username root    ##连接mysql的用户名

--password admin ##连接mysql的密码

--table mysql2                                       ##mysql中的表，即将被导入的表名称

--export-dir '/user/root/warehouse/mysql1' ##hive中被导出的文件目录

--fields-terminated-by '\t' ##hive中被导出的文件字段的分隔符

注意：导出的数据表必须是事先存在的　　

　　（3）准备一个符合数据表规范的文件ids并上传到HDFS中，作为导出到MySQL的数据源：这个ids里边只有10个数字

　　（4）export实战：将HDFS中的ids导出到mysql中的TEST_IDS数据表中

sqoop export --connect jdbc:mysql://hadoop-master:3306/hive --username root --password admin --table TEST_IDS --fields-terminated-by '\t' --export-dir '/testdir/input/ids'

　　最后查看是否导入到了mysql中的TEST_IDS数据表中：

2.4 创建job，运行job

　　刚刚我们使用了import和export命令进行了常规的导入导出操作，但是每次都要我们使用那么长的命令不太容易记忆。于是，我们可以将其创建为一个job，每次需要使用时只需要记住job名，运行job即可。

　　这里以导入为例，创建一个job名为myjob1的job：

sqoop job --create myjob1 -- import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t' -m 1 --append　　

　　可以通过命令查看是否存在job：sqoop job --list

　　执行刚刚创建的job：

sqoop job --exec myjob1

　　但是，我们发现上面的设置后还需要我们输入密码，这样便无法做到真正的自动执行job。

　　于是，我们做一点小小的配置（hive-site.xml）修改：将下面的xml配置的注释移除即可

  
  <property>
    <name>sqoop.metastore.client.record.passwordname>
    <value>truevalue>
    <description>If true, allow saved passwords in the metastore.
    description>
  property>

　　移除之后，还需要将刚刚那个job删除掉，重新创建job后才可以无密码自动执行。

sqoop job --delete myjob1

sqoop job --create myjob1 -- import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password admin --table TBLS --fields-terminated-by '\t' -m 1 --append

sqoop job --exec myjob1

参考资料
（1）吴超，《Sqoop的安装与使用》：http://www.superwu.cn/2013/08/12/444/
（2）谈翔，《Apache Sqoop：云端大数据分析的关键一环》：http://www.searchcloudcomputing.com.cn/showcontent_86735.htm
（3）标点符，《Hadoop数据传输工具：Sqoop》：http://www.biaodianfu.com/sqoop.html

推荐阅读

client
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
copy
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
copy
hive和mysql的区别是什么[mysql教程]

hive和mysql的区别有：1、查询语言不同，hive是hql语言，MySQL是sql语句；2、数据存储位置不同，hive把数据存储在hdfs上，MySQL把数据存储在自己的系统 ... [详细]

蜡笔小新 2024-10-17 05:28:28
main
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
web
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
case
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
web
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
main
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
web
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
main
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
client
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25

博菡

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章