sqoop动态分区导入mysql,使用sqoopimport从mysql往hive含分区表中导入数据的一些注意事项...

作者：晋coder | 来源：互联网 | 2023-09-23 19:16

先看下面这条语句，它实现的功能是将特定日期的数据从mysql表中直接导入hive$sqoopimport\--connectjdbc:mysql:192.168.xx

先看下面这条语句&＃xff0c;它实现的功能是将特定日期的数据从mysql表中直接导入hive

$ sqoop import \

--connect jdbc:mysql://192.168.xx.xx:3306/db_name?useSSL&＃61;false \

--username xxx --password xxxxxx \

--query "select d.id, d.callsign, d.sobt from t_flight_baseinfo d where d.id is not null and d.sobt >&＃61; &＃39;2020-12-27&＃39; and \$CONDITIONS" \

--target-dir /user/hive/warehouse/datapros.db/t_flight_baseinfo/dt&＃61;2020-12-27 \

--delete-target-dir --fields-terminated-by &＃39;\t&＃39; --split-by d.id \

--hive-import --hive-overwrite --m 2 --direct \

--hive-database datapros --hive-table t_flight_baseinfo \

--hive-partition-key dt --hive-partition-value 2020-12-27

以下对命令中的参数作简单说明&＃xff1a;

--connect /--username / --password

很明显&＃xff0c;这是mysql数据库的连接字符串

--query

这是选取数据的查询语句。这里需要注意的是&＃xff1a;

每条查询语句必须要添加where条件&＃xff1b;

末尾还要加上&＃39;$CONDITIONS&＃39;这个占位符&＃xff1b;

当使用双引号包裹住这个查询语句时&＃xff0c;&＃39;$CONDITIONS&＃39;前要加上转义符变为&＃39;\$CONDITIONS&＃39;&＃xff0c;而如果使用单引号来包裹&＃xff0c;就不用加转义符&＃xff01;

--target-dir

mysql数据导入HDFS后的目标路径(也即hive表的“数据文件”地址)

--delete-target-dir

导入前是否先删除target-dir中定义的目录(如果存在的话)

说明&＃xff1a;这个参数比较重要&＃xff01;一般情况下&＃xff0c;同一条导入语句&＃xff0c;第一次执行时&＃xff0c;要不要这个参数没有关系&＃xff0c;但如果是多次执行同一条导入语句&＃xff0c;而又没有提前手工删除目标目录时&＃xff0c;就出出现“Output directory hdfs://hadoop:9820/somepath/${target_dir} already exists”&＃xff0c;因此&＃xff0c;这个参数一定要加上

--direct

使用直接导入模式&＃xff0c;可以提高导入速度

--m 2

指定并行执行导入数据任务的map进程个数

--hive-database / --hive-table t_flight_baseinfo

指定导入到hive中的目标数据库与数据表名称

--hive-partition-key / --hive-partition-value

指定hive数据表的分区信息

--hive-overwrite

指定hive中的目标表可以被多次覆盖写入

--hive-import / --create-hive-table

1、create-hive-table&＃xff1a;在hive中创建目标表(不管它是不是已经存在)&＃xff0c;如果目标表已经存在&＃xff0c;就会给出“AlreadyExistsException(message:Table XXX already exists”出错信息&＃xff1b;

2、hive-import &＃xff1a; hive-import在执行时&＃xff0c;会自动生成一个建表的sql语句&＃xff0c;当hive中不存在表时&＃xff0c;它即自动创建目标表与存储目录&＃xff0c;然后再导入数据&＃xff1b;

mysql往hive带分区表中导入实践

1、在实践中发现&＃xff0c;当需要创建带分区的表时&＃xff0c;如果使用--create-hive-table参数&＃xff0c;则每次都会提示表已存在错误(这个表确实是存在)&＃xff1b;不过&＃xff0c;这个错误提示不影响命令的正确执行&＃xff1b;

2、但是&＃xff0c;如果不带上这个参数&＃xff0c;如果之前这个分区已存在 &＃xff0c;则会出现在hive表中能查到这个分区&＃xff0c;但是它实际的存储目录已经被删除(delete-target-dir参数的效果)&＃xff0c; hive-import会认为此分区已存在&＃xff0c;就停止从mysql中往hdfs中导入数据&＃xff0c;最后提示导入的数据numFiles&＃61;0&＃xff0c;相当于分区表被清空&＃xff1b;

3、如果不想每次都看到表已存在的错误提示&＃xff0c;可以在执行导入命令之前&＃xff0c;先执行一下 hive -e "alter table db_name.tb_name drop partition(partition_key&＃61;&＃39;partition_value&＃39;);"),先删除这个分区&＃xff0c;这样hive-import就会创建hive表分区与重建存储目录。当然&＃xff0c;这时候就不用加--create-hive-table参数了。

推荐阅读

stream
Java程序设计复习题

1、编写一个Java程序在屏幕上输出“你好！”。programmenameHelloworld.javapublicclassHelloworld{publicst ... [详细]

蜡笔小新 2024-11-22 20:05:03
stream
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
join
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
join
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
join
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
php
推荐引擎数据导入模块的实现

毕设做到后半部分，需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能，这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后，需要如下操作(拣最 ... [详细]

蜡笔小新 2023-10-14 14:05:02
php
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49
join
数据仓库中基本概念

一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]

蜡笔小新 2023-10-12 16:18:36
join
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
go
大数据开发笔记（一）：HDFS介绍

✨大数据开发笔记推荐：大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限 ... [详细]

蜡笔小新 2023-10-10 18:18:49
ip
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
cmd
Java连接MySQL数据库的方法及测试示例

本文详细介绍了如何安装MySQL数据库，并通过Java编程语言实现与MySQL数据库的连接，包括环境搭建、数据库创建以及简单的查询操作。 ... [详细]

蜡笔小新 2024-11-23 18:58:43
ip
SSM框架实战：分页功能实现详解

本文详细介绍如何在SSM（Spring + Spring MVC + MyBatis）框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]

蜡笔小新 2024-11-23 11:40:33
go
Spring MVC 中利用拦截器与自定义注解实现权限控制

本文探讨了如何在 Spring MVC 框架下，通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]

蜡笔小新 2024-11-22 14:35:02
go
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22

晋coder

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章