安装sqoop

作者：手机用户2502922713 | 来源：互联网 | 2023-08-17 18:00

简介Sqoop是一个用来将Hadoop（Hive、HBase）和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的

简介

Sqoop是一个用来将Hadoop（Hive、HBase）和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中，但是不能将hbase、hive的数据导入到关系型数据库。

下载

因为官方并不建议在生产环境中使用sqoop2，即1.99.7，所以这里我用的是sqoop1,即1.4.7

点击下载：sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

安装

解压

#tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /data/hadoop/
#cd /data/hadoop
#mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop

配置环境变量~/.bashrc

export SQOOP_HOME=/data/hadoop/sqoop
export PATH=${SQOOP_HOME}/bin:$PATH

编辑完成后，执行命令： source /etc/profile

sqoop配置文件修改

进入 /data/hadoop/sqoop/conf 目录下,
# cd /data/hadoop/sqoop/conf

将sqoop-env-template.sh复制一份，并取名为sqoop-env.sh
# cp sqoop-env-template.sh sqoop-env.sh

在sqoop-env.sh文件最后添加如下参数

# Hadoop    
export HADOOP_HOME=/data/hadoop/hadoop 
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
export HADOOP_COMMON_HOME=${HADOOP_HOME}    
export HADOOP_HDFS_HOME=${HADOOP_HOME}    
export HADOOP_MAPRED_HOME=${HADOOP_HOME}  
export HADOOP_YARN_HOME=${HADOOP_HOME}    
# Native Path    
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native    
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"   
# Hadoop end  
   
#Hive  (如果存在)
export HIVE_HOME=/data/hadoop/hive
export PATH=$HIVE_HOME/bin:$PATH  
   
#HBase  (如果存在)
export HBASE_HOME=/data/hadoop/hbase
export PATH=$HBASE/bin:$PATH

mysql驱动包

下载地址：https://dev.mysql.com/downloads/connector/j/

解压与拷贝

# tar zxvf mysql-connector-java-8.0.13.tar.gz
# cd mysql-connector-java-8.0.13/
# cp mysql-connector-java-8.0.13.jar /data/hadoop/sqoop/lib/

sqoop使用

1、查看帮助


# sqoop help
Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version information

想要显示具体的参数用法，可以使用sqoop help options

# sqoop help import

2、显示mysql所有数据库（mysql的安装自行百度）

# sqoop list-databases --connect jdbc:mysql://192.168.1.91 --username root --password 123456  注意，url地址要写对，mysql权限要赋予。
如果报如下的错误：
19/07/20 18:23:16 ERROR tool.BaseSqoopTool: Got error creating database manager: java.io.IOException: No manager for connect string: jdbc.mysql://192.168.1.91
这种情况要么是mysql驱动程序拷贝，要么是url地址写错误了

上诉的这个错误就是url写错了，正常应该是 jdbc:mysql://192.168.1.91 这里写成了 jdbc.mysql://192.168.1.91

我在这里卡了好一会，，尴尬的一批。0.0

也可以使用如下的命令查询某一个数据库
# sqoop list-databases --connect jdbc:mysql://192.168.1.91:3306/test?characterEncoding=UTF-8 --username root --password ‘123456‘

3、显示数据库里面的所有表

# sqoop list-tables --connect jdbc:mysql://192.168.1.91:3306/hadoop?characterEncoding=UTF-8 --username root --password ‘123456‘

4、使用sqoop导入数据

　　sqoop利用Hadoop MapReduce（只是执行map阶段）来执行数据的导入和导出。

查看import帮助

# sqoop help import
usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS] 
....
sqoop import命令有两个基本部分，一个是GENERIC参数，另一个是TOOL参数

在导入前，首先在mysql里面创建一个hadoop数据库

create database hadoop;
use hadoop;
创建表
create table learn(id int,name char,age int); 
插入一条简单的数据
insert into  learn values(1,‘yjt‘,22);

导入数据到hdfs

# sqoop import --connect jdbc:mysql://192.168.1.91:3306/hadoop --username root --password ‘123456‘ --table learn --target-dir /test
报错了
ERROR tool.ImportTool: Import failed: No primary key could be found for table learn. Please specify one with --split-by or perform a sequential import with ‘-m 1‘.
说这个learn没有主键。报错的后面提示了解决办法，，--split-by   指定以什么字段分割  -m是指定map任务数

重新执行
# sqoop import --connect jdbc:mysql://192.168.1.91:3306/hadoop --username root --password ‘123456‘ --table learn --target-dir /test --split-by id

查看hdfs上的test目录存在的数据

# hadoop fs -cat /test/part-m-00000
1,y,22

说明成功把数据导入到了hdfs

　　当使用Sqoop导入命令时，Sqoop将数据集切分成多个分区，并启动map-only任务将数据块传输到hdfs，Sqoop从数据库的元数据中推断出数据类型。所以，sqoop导入可以分为两个过程：

（1） sqoop收集要导入的数据所需的元数据。

（2）Sqoop将map任务提交到Hadoop集群。

　　Sqoop是不直接连接到关系型数据库或者仓库来导入(导出)数据的。Sqoop通过运行MapReduce作业来连接到数据库，读取数据并将数据导入到hdfs。

在上诉的导入命令中，需要输入一大堆的参数，能不能把一些每次导入需要的选项保存下来呢，，答案是可以的，可以使用选项文件(--options-file)参数，如下：

创建文本文件，以保存参数

# cat sqoop-option-file.txt 
--connect 
jdbc:mysql://192.168.1.91/hadoop
--username 
root
--password 
123456

执行sqoop导入操作

# sqoop import --options-file sqoop-option-file.txt --table learn --target-dir /test1 --split-by id

5、Sqoop是如何导入数据的？？？

（1）Sqoop连接数据库。

（2）获取表的元数据

（3）生成一个Java类并进行编译

（4）连接到Hadoop集群

（5）在Hadoop集群执行MapReduce作业

（6）MapReduce使用在步骤2中生成的元数据执行map任务来完成导入过程

（7）MapReduce将输出作为hdfs中的一组文件生成

6、指定密码的几种方式

（1）使用--password password

（2）使用--p 以交互式方式输入密码

（3）使用--password-file password-file 从文件中读取密码

（4）保存到sqoop metastore中，可以通过在sqoop-site.xml文件设置sqoop.metastore.client.record.password属性来设置明文密码。

参考文章：

https://www.cnblogs.com/frankdeng/p/9132194.html

https://www.cnblogs.com/frankdeng/p/9067092.html

https://www.cnblogs.com/cenyuhai/p/3306037.html

官网

安装 sqoop

推荐阅读

utf-8
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
php
SPFA算法详解与应用

当图中包含负权边时，传统的最短路径算法如Dijkstra不再适用，而Bellman-Ford算法虽然能解决问题，但其时间复杂度过高。SPFA算法作为一种改进的Bellman-Ford算法，能够在多数情况下提供更高效的解决方案。本文将详细介绍SPFA算法的原理、实现步骤及其应用场景。 ... [详细]

蜡笔小新 2024-11-24 12:40:02
php
深入解析HashMap与HashTable的区别

本文详细对比了HashMap和HashTable在多线程环境下的安全性、对null值的支持、性能表现以及方法同步等方面的特点，帮助开发者根据具体需求选择合适的数据结构。 ... [详细]

蜡笔小新 2024-11-24 12:24:40
php
神策数据分析基础

本文介绍了基于用户行为的数据分析方法，包括业务问题的提出与定义、具体行为的识别及统计分析流程。同时，详细阐述了如何利用事件模型（Event Model）来描述用户行为，以及在实际应用中的案例分析。 ... [详细]

蜡笔小新 2024-11-24 11:18:50
php
Docker基础入门与环境配置指南

本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker，用户能够将应用及其依赖打包进容器内，实现高效、轻量级的虚拟化。容器之间采用沙箱机制，确保彼此隔离且资源消耗低。 ... [详细]

蜡笔小新 2024-11-24 09:54:53
php
Struts2 必备 JAR 包汇总

本文列举了构建和运行 Struts2 应用程序所需的核心 JAR 文件，包括文件上传、日志记录、模板引擎等关键组件。 ... [详细]

蜡笔小新 2024-11-24 04:42:19
php
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
php
AOJ1024 清洁机器人2.0

本文介绍了一个来自AIZU ONLINE JUDGE平台的问题，即清洁机器人2.0。该问题来源于某次编程竞赛，涉及复杂的算法逻辑与实现技巧。 ... [详细]

蜡笔小新 2024-11-23 17:16:33
function
egg实现登录鉴权（七）：权限管理

权限管理包含三部分：访问页面的权限，操作功能的权限和获取数据权限。页面权限：登录用户所属角色的可访问页面的权限功能权限：登录用户所属角色的可访问页面的操作权限数据权限：登录用户所属 ... [详细]

蜡笔小新 2024-11-23 16:30:15
php
iOS开发中的UIView及其子类应用

本文介绍了用户界面（User Interface, UI）的基本概念，以及在iOS应用程序中UIView及其子类的重要性和使用方式。文章详细探讨了UIView如何作为用户交互的核心组件，以及它与其他UI控件和业务逻辑的关系。 ... [详细]

蜡笔小新 2024-11-23 16:25:09
php
线性表中的元素删除算法

本文探讨了线性表中元素的删除方法，包括顺序表和链表的不同实现策略，以及这些策略在实际应用中的性能分析。 ... [详细]

蜡笔小新 2024-11-23 16:14:36
php
实现Win10与Linux服务器的SSH无密码登录

本文介绍了如何在Windows 10环境下使用Git工具，通过配置SSH密钥对，实现与Linux服务器的无密码登录。主要步骤包括生成本地公钥、上传至服务器以及配置服务器端的信任关系。 ... [详细]

蜡笔小新 2024-11-23 15:50:03
php
深入解析Apache Mina开发指南

本文由chszs撰写，详细介绍了Apache Mina框架的核心开发流程及自定义协议处理方法。文章涵盖从创建IoService实例到协议编解码的具体步骤，适合希望深入了解Mina框架应用的开发者。 ... [详细]

蜡笔小新 2024-11-23 15:02:21
php
P3796 AC自动机强化版题解 - Aho-Corasick Algorithm

本文提供了一个关于AC自动机（Aho-Corasick Algorithm）的详细解析与实现方法，特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念，还重点讲解了如何通过构建失败指针（fail pointer）来提高字符串匹配效率。 ... [详细]

蜡笔小新 2024-11-23 13:17:52
cmd
嵌入式系统实验：GPIO控制与按键响应

本报告记录了嵌入式软件设计课程中的第二次实验，主要探讨了使用KEIL V5开发环境和ST固件库进行GPIO控制及按键响应编程的方法。通过实际操作，加深了对嵌入式系统硬件接口编程的理解。 ... [详细]

蜡笔小新 2024-11-23 13:00:00

手机用户2502922713

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章