热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sqoop葵花宝典

Sqoop葵花宝典基于Sqoop1.x场景导入流程导出流程字段说明|字段|MySQL类型|Hive类型||||||id|int|int||name|varchar(100)|str

Sqoop葵花宝典

基于Sqoop1.x

场景

导入流程

graph LR A[RDBMS] -->|Sqoop| B(Hive)

导出流程

graph LR A[Hive] -->|Sqoop| B(RDBMS)

字段说明

字段 MySQL类型 Hive类型
id int int
name varchar(100) string
desc varchar(255) string

导入

普通表

三种表建表语句类似,只是文件格式变化。

CREATE TABLE user_parquet(
   id   int,
   name string,
   desc string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;

txt格式

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --hive-import \
 --delete-target-dir \
 --m 1 \
 --hive-database test \
 --hive-table user_text

注意:txt格式可以不需要使用hive-database,直接使用hive-table即可(database.tablename的形式)

parquet格式

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --hive-import \
 --delete-target-dir \
 --m 1 \
 --hive-database test \
 --hive-table user_parquet \
 --as-parquetfile

注意:如果是parquet格式,sqoop脚本需要使用hive-databaseas-parquetfile参数。

orc格式

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --delete-target-dir \
 --m 1 \
 --hcatalog-database test \
 --hcatalog-table user_orc \

注意:需要使用hcatalog-databasehcatalog-table参数来进行导入。

分区表

CREATE TABLE user_parquet_p(
   id   int,
   name string,
   desc string
)
PARTITIONED BY (part_dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;

txt格式

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --hive-import \
 --delete-target-dir \
 --m 1 \
 --hive-database test \
 --hive-table user_text_p \
 --hive-partition-key part_dt \
 --hive-partition-value '20190314'

注意:分区表需要增加hive-partition-keyhive-partition-value来指定导入的分区,但是不支持多分区

也可以通过orc这样方式使用hcatalog来进行导入。

parquet格式

暂时没有找到导入的方式。

orc格式

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --delete-target-dir \
 --m 1 \
 --hcatalog-database test \
 --hcatalog-table user_orc_p \
 --hive-partition-key 'part_dt' \
 --hive-partition-value '20190314'

或者通过如下的方式:

sqoop import \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --fields-terminated-by '\001' \
 --delete-target-dir \
 --m 1 \
 --hcatalog-database test \
 --hcatalog-table user_orc_p \
 --hcatalog-partition-keys 'part_dt' \
 --hcatalog-partition-values '20190314'

注意:通过hcatalog-databasehcatalog-tablehive-partition-keyhive-partition-value四个参数导入数据到单个分区。或者通过hcatalog-partition-keyshcatalog-partition-values参数指定多个分区(通过逗号分隔)

导出

普通表

txt格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --export-dir /apps/hive/warehouse/test.db/user_text \
 --input-fields-terminated-by '\001'

或者下面的方式:

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_text

注意export-dir为hive表在hdfs的存储路径。发现使hcatalog-databasehcatalog-table参数也可以。

parquet格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_parquet

**注意:**通export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-databasehcatalog-table参数。

orc格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_orc

**注意:**通export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-databasehcatalog-table参数。

分区表

txt格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --export-dir /apps/hive/warehouse/test.db/user_text_p/part_dt=20190314 \
 --input-fields-terminated-by '\001'

或者通过如下的方式导出所有分区的数据:

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_text_p

注意:export-dir指定hive表在hdfs的存储路径时需要包含分区目录,只能导出一个分区的数据。通过hcatalog-databasehcatalog-table参数可以导出所有分区的数据。

parquet格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_parquet_p

**注意:**通export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-databasehcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。

orc格式

sqoop export \
 --connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
 --username hdp \
 --password 'hdp!QAZxCDE#' \
 --table user1 \
 --hcatalog-database test \
 --hcatalog-table user_orc_p

**注意:**通export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-databasehcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。

其他

导出不像导入那么强大,不能指定querywhere,但可以通过columns参数限定导出的列。

问题

多字符分割

sqoop不支持多字符分割,如果指定多字符,则会默认按照第一个字符作为分割符。

导入多分区

sqoop导入只支持一个分区,不支持多分区导入。


推荐阅读
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法:首先我们来看官方文档中给出的几种方法:第一种:Da ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • springmvc学习笔记(十):控制器业务方法中通过注解实现封装Javabean接收表单提交的数据
    本文介绍了在springmvc学习笔记系列的第十篇中,控制器的业务方法中如何通过注解实现封装Javabean来接收表单提交的数据。同时还讨论了当有多个注册表单且字段完全相同时,如何将其交给同一个控制器处理。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • PDO MySQL
    PDOMySQL如果文章有成千上万篇,该怎样保存?数据保存有多种方式,比如单机文件、单机数据库(SQLite)、网络数据库(MySQL、MariaDB)等等。根据项目来选择,做We ... [详细]
  • 本文介绍了在iOS开发中使用UITextField实现字符限制的方法,包括利用代理方法和使用BNTextField-Limit库的实现策略。通过这些方法,开发者可以方便地限制UITextField的字符个数和输入规则。 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
author-avatar
DZ2017
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有