利用sqoop从mysql向多分区hive表中导入数据

作者：若v0丷會飛的獨角獸 | 来源：互联网 | 2023-05-19 12:44

客户有需要需要把数据从传统数据库想hadoop平台迁移，他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题，说是从ORACLE以并行方式“抽取数

客户有需要需要把数据从传统数据库想hadoop平台迁移，他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题，说是从ORACLE以并行方式“抽取数据”抽取数据到HIVE用多个条件进行抽取没有调通。以下是他们发过来的脚本：

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive  --username root  --table test --fields-terminated-by '\t'  [--null-string '**‘]  -m 1 --append  --hive-import   --hive-partition-key   KEY  --hive-partition-value  VALUE

这里面有个问题是，目标表有多个分区，如果只是单个分区的话可以直接指定--hive-partition-key和--hive-partition-value这两个参数即可，可以这样做：

但是这样只能向单个分区中导入数据，于是我试着在sqoop语句中指定两个分区结果报错。在网上也没有找着类似的解决方案。我不知道是sqoop没有提供这样的功能还是我理解不全面，如果有能在一条句子里直接搞定希望回复我，让我长长见识。

由于sqoop在向hive中导入数据时，是先将数据上传到hdfs中，然后创建表，最后在将hdfs中的数据load到表目录下。受此启发，（我没有oracle数据库，用mysql代替）我们将所要解决的问题分为两步：

这是我的mysql中的测试数据：第一列为数据类型int，第二列为varchar2。

id name

1    zhangsan
2    wangwu
3    zhaoliu
4   wang
5   liujia
6   gao
7   lirui
8   lisi

假如我需要向test表中，partition(company=‘bonc’, group='bigdata')中导入数据，我们提前创建好表和分区：

首先创建表和分区：

CREATE TABLE test(id int, name string) PARTITIONED BY(company string, group string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

ALTER TABLE test ADD PARTITION(company='bonc', group='bigdata') LOCATION '/user/hive/warehouse/test/company=bonc/group=bigdata';

然后把数据仓库目录作为target直接将数据上传进去，实际上只是向hdfs中上传，并没有用到--hive-import

 sqoop import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password vmware --table test --target-dir '/user/hive/warehouse/test/bOnc=pezy/group=bigdata' --append --fields-terminated-by '\t' -m 1 --columns id,name --where 'id=4'

这样就将指定列和限定条件id=4的这条数据导入到了hive表中，注意一定加--append参数，否则是不能将数据导入到已经存在的目录中去。

最后用select * from test;结果显示正确。

首先，如果要向hive表的指定分区导入数据应该要用--hive-table, --hive-partition-key, --hive-partition-value这三个参数。但是这样只能向单个分区导入数据，无法指定多个分区；其次，--where条件中没有用and。由于咱的目标hive表有两个partition，而且无法直接在参数中多个partition(我在指定多个partition的时候报错)，所以咱可以分两步解决这个问题：

1) 首先确保目标分区中没有数据，即/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105目录是空的；

2) 将数据直接上传到指定的数据仓库目录中。(--append 参数要指定，否则无法向已经存在的hdfs目录中导入数据) /opt/mapr/sqoop/sqoop-1.2.0/bin/sqoop import --append --connect jdbc:oracle:thin:@132.194.36.55:1521:lndwres --username HADOOP --password HADOOP --target-dir "/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105" --m 10 --split-by part10 --table GM_TEST --fields-terminated-by '\001' --query "SELECT DAY_ID, AREA_NO, ACCT_MONTH, ACCESS_NBR FROM GM_TEST WHERE DAY_ID='10' AND AREA_NO=2105 "

如果有更好的方法欢迎指出。

推荐阅读

sum
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
java
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
java
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
select
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
java
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
java
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
select
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
java
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
java
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
java
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
java
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
select
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
text
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
select
掌握MySQL数据库的基础语法与核心操作

本文详细介绍了MySQL数据库的基础语法与核心操作，涵盖从基础概念到具体应用的多个方面。首先，文章从基础知识入手，逐步深入到创建和修改数据表的操作。接着，详细讲解了如何进行数据的插入、更新与删除。在查询部分，不仅介绍了DISTINCT和LIMIT的使用方法，还探讨了排序、过滤和通配符的应用。此外，文章还涵盖了计算字段以及多种函数的使用，包括文本处理、日期和时间处理及数值处理等。通过这些内容，读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]

蜡笔小新 2024-11-11 23:39:51
select
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51

若v0丷會飛的獨角獸

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章