当前位置: 开发笔记 > 编程语言 > 正文

Sqoop语法

作者：同wr我握手 | 来源：互联网 | 2023-05-21 19:17

参数详细资料观看这个博客http:shiyanjun.cnarchives624.htmlSqoop可以在HDFSHive和关系型数据库之间进行数据的导入导出，其中主要使用了imp

http://shiyanjun.cn/archives/624.html

Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成数据的迁移和同步。比如，下面两个潜在的需求：

业务数据存放在关系数据库中，如果数据量达到一定规模后需要对其进行分析或同统计，单纯使用关系数据库可能会成为瓶颈，这时可以将数据从业务数据库数据导入（import）到Hadoop平台进行离线分析。

对大规模的数据在Hadoop平台上进行分析以后，可能需要将结果同步到关系数据库中作为业务的辅助数据，这时候需要将Hadoop平台分析后的数据导出（export）到关系数据库。

这里，我们介绍Sqoop完成上述基本应用场景所使用的import和export工具，通过一些简单的例子来说明这两个工具是如何做到的。

import和export工具有些通用的选项，如下表所示：

选项	含义说明
`--connect`	指定JDBC连接字符串
`--connection-manager`	指定要使用的连接管理器类
`--driver`	指定要使用的JDBC驱动类
`--hadoop-mapred-home`	指定$HADOOP_MAPRED_HOME路径
`--help`	打印用法帮助信息
`--password-file`	设置用于存放认证的密码信息文件的路径
`-P`	从控制台读取输入的密码
`--password`	设置认证密码
`--username`	设置认证用户名
`--verbose`	打印详细的运行信息
`--connection-param-file`	可选，指定存储数据库连接参数的属性文件

数据导入工具import

import工具，是将HDFS平台外部的结构化存储系统中的数据导入到Hadoop平台，便于后续分析。我们先看一下import工具的基本选项及其含义，如下表所示：

选项	含义说明
`--append`	将数据追加到HDFS上一个已存在的数据集上
`--as-avrodatafile`	将数据导入到Avro数据文件
`--as-sequencefile`	将数据导入到SequenceFile
`--as-textfile`	将数据导入到普通文本文件（默认）
`--boundary-query`	边界查询，用于创建分片（InputSplit）
`--columns`	从表中导出指定的一组列的数据
`--delete-target-dir`	如果指定目录存在，则先删除掉
`--direct`	使用直接导入模式（优化导入速度）
`--direct-split-size`	分割输入stream的字节大小（在直接导入模式下）
`--fetch-size`	从数据库中批量读取记录数
`--inline-lob-limit`	设置内联的LOB对象的大小
`-m,--num-mappers`	使用n个map任务并行导入数据
`-e,--query`	导入的查询语句
`--split-by`	指定按照哪个列去分割数据
`--table`	导入的源表表名
`--target-dir`	导入HDFS的目标路径
`--warehouse-dir`	HDFS存放表的根路径
`--where`	指定导出时所使用的查询条件
`-z,--compress`	启用压缩
`--compression-codec`	指定Hadoop的codec方式（默认gzip）
`--null-string`	果指定列为字符串类型，使用指定字符串替换值为null的该类列的值
`--null-non-string`	如果指定列为非字符串类型，使用指定字符串替换值为null的该类列的值

bin/sqoop help 可以查看出帮助文档英文的看不懂

1：sqoop查看mysql有多少个数据库

bin/sqoop list-databases \
--connect jdbc:mysql://172.16.71.27:3306 \
--username root \
--password root

技术分享图片

2：将mysql表中数据导入到hdfs中 imports

bin/sqoop import \
--connect jdbc:mysql://172.16.71.27:3306/babasport \
--username root \
--password root \
--table test_tb

ps：如果没有指定hdfs的目录默认会将数据存到系统当前登录用户下以表名称命名的文件夹下

技术分享图片

ps : 复制的时候一定要注意下 \ 的位置少个空格都会报错。。。默认会有4个MapReduce在执行这里测试数据只有2条 so。。。

技术分享图片

数据默认以逗号隔开可以根据需求进行指定

技术分享图片

导入数据至指定hdfs目录

bin/sqoop import \
--connect jdbc:mysql://hadoop-senior.ibeifeng.com:3306/test \
--username root \
--password 123456 \
--table my_user \
--target-dir /user/beifeng/sqoop/imp_my_user \
--num-mappers 1

ps： num-mappers 1 指定执行MapReduce的个数为1

target-dir 指定hdfs的目录

sqoop 底层的实现就是MapReduce,import来说，仅仅运行Map Task

数据存储文件
* textfile
* orcfile
* parquet

将数据按照parquet文件格式导出到hdfs指定目录

bin/sqoop import \
--connect jdbc:mysql://172.16.71.27:3306/babasport \
--username root \
--password root \
--table test_tb \
--target-dir /user/xuyou/sqoop/imp_my_user_parquet \
--fields-terminated-by ‘@‘ \
--num-mappers 1 \
--as-parquetfile

技术分享图片

ps fields-terminated-by ‘@‘ 数据已@隔开

　　 as-parquetfile 数据按照parquet文件格式存储

columns id,name 这个属性可以只导入id已经name 这两个列的值技术分享图片

　　　　技术分享图片

* 在实际的项目中，要处理的数据，需要进行初步清洗和过滤
* 某些字段过滤
* 条件
* join

bin/sqoop import \
--connect jdbc:mysql://hadoop-senior.ibeifeng.com:3306/test \
--username root \
--password 123456 \
--query ‘select id, account from my_user where $CONDITIONS‘ \
--target-dir /user/beifeng/sqoop/imp_my_user_query \
--num-mappers 1

ps： query 这个属性代替了 table 可以通过用sql 语句来导出数据
（where $CONDITIONS‘ 是固定写法如果需要条件查询可以 select id, account from my_user where $CONDITIONS‘ and id > 1）

压缩导入至hdfs的数据可以指定格式

bin/sqoop import \
--connect jdbc:mysql://hadoop-senior.ibeifeng.com:3306/test \
--username root \
--password 123456 \
--table my_user \
--target-dir /user/beifeng/sqoop/imp_my_sannpy \
--delete-target-dir \
--num-mappers 1 \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--fields-terminated-by ‘\t‘

ps：compress 这个属性是开启压缩功能

compression-codec 这个属性是指定压缩的压缩码本次是SnappyCodec

推荐阅读

ip
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
ip
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
install
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
text
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
ip
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
ip
安装hadoop2.9.2jdk1.8centos7

安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]

蜡笔小新 2024-10-16 12:02:42
int
Android 中的 exported 属性详解与应用

在 Android 开发中，`android:exported` 属性用于控制组件（如 Activity、Service、BroadcastReceiver 和 ContentProvider）是否可以被其他应用组件访问或与其交互。若将此属性设为 `true`，则允许外部应用调用或与之交互；反之，若设为 `false`，则仅限于同一应用内的组件进行访问。这一属性对于确保应用的安全性和隐私保护至关重要。 ... [详细]

蜡笔小新 2024-11-10 14:14:26
tags
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
js
Insufficient Memory Allocation: Unable to Reserve 1572864KB for Object Heap

该问题可能由守护进程配置不当引起，例如未识别的JVM选项或内存分配不足。建议检查并调整JVM参数，确保为对象堆预留足够的内存空间（至少1572864KB）。此外，还可以优化应用程序的内存使用，减少不必要的内存消耗。 ... [详细]

蜡笔小新 2024-11-08 20:06:16
install
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
install
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
install
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
install
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
format
pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]

蜡笔小新 2024-10-17 18:31:13
ip
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27

同wr我握手

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章