当前位置: 开发笔记 > 编程语言 > 正文

Sqoop相关

作者：皮H痞 | 来源：互联网 | 2023-08-16 20:27

#sqoop安装1.常规步骤由于sqoop2配置相对比较麻烦，此次使用的是sqoop1进行演示。上传sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.

# sqoop安装

1. 常规步骤

由于sqoop2配置相对比较麻烦，此次使用的是sqoop1进行演示。

上传sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz文件至/hadoop目录下，解压并重命名为sqoop-1.4.4，配置/etc/profile文件并source刷新。

2. 配置驱动

将数据库连接驱动mysql-connector-5.1.8.jar拷贝到$SQOOP_HOME/lib里。

3. 一些解释

注意：如果是集群环境，则sqoop可以安装在任意一台节点上就可以。如果此节点已经指定了RM和NN的位置，则可以直接运行sqoop。

## Name Node在文件core-site.xml和hdfs-site.xml中指定。
## Resource Manage在文件yarn-site.xml中指定。

子节点为什么知道在上述三个文件中寻找NM和NN的位置？这是因为sqoop会读取 $HADOOP_HOME的值。

sqoop也是将自己的指令转化成MR执行，不过它只有Mapper阶段。
sqoop执行结果产生的是part-m-00000文件，这是因为只有map阶段，生成的是map阶段的结果文件。
sqoop转换结果文件默认是以”，“作为分隔符。

# 导入到hdfs

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123 --table goods --target-dir ‘/sqoop‘ --fields-terminated-by ‘\t‘ –m 1

Sqoop //sqoop命令

Import //表示导入

--connect jdbc:mysql://192.168.8.100:3306/test //告诉jdbc，连接MySQL的url，即test数据库。3306是MySQL默认监听端口，192.168.8.100是MySQL的IP。

--username root //连接root的用户名

--password 123 //连接root的密码

--table goods //从goods导出的表名称

--fields-terminated-by ‘\t‘ //指定输出文件中的行的字段分隔符

--null-string ‘**‘ //NULL值转化成”**”保存，默认是NULL

-m 1 //使用1个map作业，则产生一个结果文件。默认是4个

--append //追加数据到hdfs源文件中

--target-dir ‘/sqoop‘ //结果保存在 “/sqoop/” 文件夹中，直接在文件夹下输出结果文件。如果不使用该选项，意味着复制到默认目录“/user/root/”文件夹下，并产生“/test/goods/”目录，并在此目录之下输出结果文件prat-m-00000。

# 使用案例

导入指定的列 --column

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test--username root --password 123  --table goods --columns ‘id, account, income, expenses‘

指定输出路径、指定数据分隔符

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123  --table goods --target-dir ‘/sqoop‘ --fields-terminated-by ‘\t‘

指定Map数量 -m

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123  --table goods --target-dir ‘/sqoop‘ --fields-terminated-by ‘\t‘ -m 2

增加where条件, (条件必须用引号引起来)

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123  --table goods --where ‘id>3‘ --target-dir ‘/sqoop‘

增加query语句(使用 \ 将语句换行)

sqoop import --connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123 \

--query ‘SELECT * FROM goods where id > 2 AND $CONDITIONS‘ --split-by goods.id --target-dir ‘/sqoop‘

注意：如果使用 --query 这个命令的时候，需要注意的是where后面的参数，AND $CONDITIONS这个参数必须加上，而且存在单引号与双引号的区别，如果--query后面使用的是双引号，那么需要在 $CONDITIONS 前加上 \(转义符) 即 \$CONDITIONS 。如果设置map数量为1个时即-m 1，不用加上--split-by ${tablename.column}，否则需要加上【表示不同的mapper任务，分割整体数据的依据，此处为good.id来分割数据。】

将HDFS上的数据导出到数据库中(不要忘记指定分隔符)

sqoop export --connect jdbc:mysql://192.168.8.101:3306/itcast --username root --password 123 --export-dir ‘/td3‘ --table td_bak -m 1 --fields-terminated-by ‘,‘

注意：sqoop导出到mysql，源文件是文件夹，而不是文件。
还有一点就是导出到mysql，这个指令可以重复执行，即，mysql数据重复增加。相对而言，导入hdfs操作则只能执行一次，不然会报错。

技术分享

如果在导入hdfs指令后面加上 –append 则会在同一目录下生成一相同文件，不能满足只导出增量部分的要求

技术分享

# 增量导入

sqoop import -connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123 --table goods -m 1 --fields-terminated-by ‘\t‘ --target-dir ‘/sqoop‘ --append --check-column ‘goods_id‘ --incremental append --last-value 32

说明：

--append //表示追加写入hdfs。没有此命令，则报目录已存在的错误

--check-column ‘goods_id’ //表示判断依据为”goods_id”这一列

--incremental append //如果有增量则追加写入操作

--last-value 32 //判断依据为上一次的”goods_id”的值 32

如果mysql中的数据确实有增加，使用上述命令则会产生一个新的文件，文件中保存增加的数据。

技术分享

# sqoop job

sqoop job --create myjob -- import -connect jdbc:mysql://192.168.8.100:3306/test --username root --password 123 --table goods -m 1 --fields-terminated-by ‘\t‘ --target-dir ‘/sqoop‘ --append --check-column ‘goods_id‘ --incremental append --last-value 32

技术分享

使用命令sqoop job --list查看可使用的sqoop job.
使用命令 sqoop job --exec myjob来执行job脚本

技术分享

此处要输入一次mysql用户root的密码，然后就可以自动执行job脚本了。

现在配置如何不用输入密码，直接执行job脚本：

在”/hadoop/sqoop-1.4.4/conf/sqoop-site-xml”文件中，打开是否允许保存密码的属性，即去掉圈中的部分。

技术分享

这样还是不可以自动执行的，必须得先把原有的job删掉，然后重新创建一个新的job，才能满足需求，然后就可以自动执行了。

技术分享

# Sqoop 事务

sqoop导入导出的事务是以Mapper任务为单位。启动了4个Mapper任务，则就表示有4个事务。

# 导入到Hbase

sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName –table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name

说明：

--hbase-create-table //导出到hbase上，如果没有目标表，则创建新表

--hbase-table hbase_tablename //指出要保存到hbase上的表名字

--column-family col_fam_name //col_fam_name是除rowkey之外的所有列的列族名

--hbase-row-key key_col_name //key_col_name指出datatable中哪一列作为hbase新表的Row Key

技术分享

# 从Oracle导入数据

sqoop从oracle导入，需要有ojdbc6.jar，放在$SQOOP_HOME/lib里，不用添加到classpath里，因为sqoop会自己遍历lib文件夹并添加里面的所有jar包
--connect与mysql的不一样，如下（shell脚本中的主要部分）
#Oracle的连接字符串，其中包含了Oracle的地址，SID，和端口：COnNECTURL=jdbc:oracle:thin:@172.7.10.16:1521:orcl
#使用的用户名：ORACLENAME=scott
#使用的密码：ORACLEPASSWORD=wang123456
#需要从Oracle中导入的表名：oralceTableName=test
#需要从Oracle中导入的表中的字段名：columns=ID,STATE
#将Oracle中的数据导入到HDFS后的存放路径：hdfsPath=/tmp/
#完整的命令：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oralceTableName –columns $columns --hbase-create-table --hbase-table or1 --hbase-row-key STATE --column-family or1

Sqoop相关

推荐阅读

dll
深入理解PHP中的超全局变量与AJAX技术

本文详细介绍了PHP中的几种超全局变量，包括$GLOBAL、$_SERVER、$_POST、$_GET等，并探讨了AJAX的工作原理及其优缺点。通过具体示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-24 16:35:09
audio
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
bash
GNU/Linux系统中动态库搜索路径的指定与管理

本文概述了在GNU/Linux系统中，动态库在链接和运行阶段的搜索路径及其指定方法，包括通过编译时参数、环境变量及系统配置文件等方式来控制动态库的查找路径。 ... [详细]

蜡笔小新 2024-11-24 15:56:16
bash
Python 计算两个时间戳之间的毫秒差

本文介绍如何使用 Python 计算两个时间戳之间的时间差，并将其转换为毫秒。示例代码展示了如何通过 `time` 和 `datetime` 模块实现这一功能。 ... [详细]

蜡笔小新 2024-11-24 15:15:36
bash
使用REM和媒体查询实现响应式布局

本文介绍如何利用REM单位和媒体查询（Media Queries）来创建适应不同屏幕尺寸的网页布局。通过具体示例，展示在不同屏幕宽度下如何调整页面元素的样式。 ... [详细]

蜡笔小新 2024-11-24 12:50:22
io
Docker基础入门与环境配置指南

本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker，用户能够将应用及其依赖打包进容器内，实现高效、轻量级的虚拟化。容器之间采用沙箱机制，确保彼此隔离且资源消耗低。 ... [详细]

蜡笔小新 2024-11-24 09:54:53
select
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
select
Windows环境下Oracle数据库迁移实践

本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程，旨在为后续的集群环境部署做好准备。 ... [详细]

蜡笔小新 2024-11-23 19:57:51
io
egg实现登录鉴权（七）：权限管理

权限管理包含三部分：访问页面的权限，操作功能的权限和获取数据权限。页面权限：登录用户所属角色的可访问页面的权限功能权限：登录用户所属角色的可访问页面的操作权限数据权限：登录用户所属 ... [详细]

蜡笔小新 2024-11-23 16:30:15
rsa
实现Win10与Linux服务器的SSH无密码登录

本文介绍了如何在Windows 10环境下使用Git工具，通过配置SSH密钥对，实现与Linux服务器的无密码登录。主要步骤包括生成本地公钥、上传至服务器以及配置服务器端的信任关系。 ... [详细]

蜡笔小新 2024-11-23 15:50:03
rsa
深入理解Awk文本处理工具

Awk是一款功能强大的文本分析与处理工具，尤其在数据解析和报告生成方面表现突出。它通过读取由换行符分隔的记录，并按照指定的字段分隔符来划分和处理这些记录，从而实现复杂的数据操作。 ... [详细]

蜡笔小新 2024-11-23 09:44:24
input
SSM框架实战：分页功能实现详解

本文详细介绍如何在SSM（Spring + Spring MVC + MyBatis）框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]

蜡笔小新 2024-11-23 11:40:33
io
Sqoop-1.99.7安装配置（详细图文）

环境：centos6.5，hadoop2.6.4集群1.解压安装sqoop从官网下载好安装包，发送到集群中任意一台主机即可。相信大家已经看到，1.99.7跟1.4.6是不兼容的，而 ... [详细]

蜡笔小新 2024-10-09 16:41:01
select
FileNotFoundException: File does not exist

ubuntu用sqoop将数据从hive导入mysql时，命令： ... [详细]

蜡笔小新 2023-12-12 18:56:13
client
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22

皮H痞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章