利用sqoop从mysql向多分区hive表中导入数据

作者：huanghxn | 来源：互联网 | 2023-05-18 07:40

客户有需要需要把数据从传统数据库想hadoop平台迁移，他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题，说是从ORACLE以并行方式“抽取数

客户有需要需要把数据从传统数据库想hadoop平台迁移，他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题，说是从ORACLE以并行方式“抽取数据”抽取数据到HIVE用多个条件进行抽取没有调通。以下是他们发过来的脚本：

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive  --username root  --table test --fields-terminated-by '\t'  [--null-string '**‘]  -m 1 --append  --hive-import   --hive-partition-key   KEY  --hive-partition-value  VALUE

这里面有个问题是，目标表有多个分区，如果只是单个分区的话可以直接指定--hive-partition-key和--hive-partition-value这两个参数即可，可以这样做：

但是这样只能向单个分区中导入数据，于是我试着在sqoop语句中指定两个分区结果报错。在网上也没有找着类似的解决方案。我不知道是sqoop没有提供这样的功能还是我理解不全面，如果有能在一条句子里直接搞定希望回复我，让我长长见识。

由于sqoop在向hive中导入数据时，是先将数据上传到hdfs中，然后创建表，最后在将hdfs中的数据load到表目录下。受此启发，（我没有oracle数据库，用mysql代替）我们将所要解决的问题分为两步：

这是我的mysql中的测试数据：第一列为数据类型int，第二列为varchar2。

id name

1    zhangsan
2    wangwu
3    zhaoliu
4   wang
5   liujia
6   gao
7   lirui
8   lisi

假如我需要向test表中，partition(company=‘bonc’, group='bigdata')中导入数据，我们提前创建好表和分区：

首先创建表和分区：

CREATE TABLE test(id int, name string) PARTITIONED BY(company string, group string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

ALTER TABLE test ADD PARTITION(company='bonc', group='bigdata') LOCATION '/user/hive/warehouse/test/company=bonc/group=bigdata';

然后把数据仓库目录作为target直接将数据上传进去，实际上只是向hdfs中上传，并没有用到--hive-import

 sqoop import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password vmware --table test --target-dir '/user/hive/warehouse/test/bOnc=pezy/group=bigdata' --append --fields-terminated-by '\t' -m 1 --columns id,name --where 'id=4'

这样就将指定列和限定条件id=4的这条数据导入到了hive表中，注意一定加--append参数，否则是不能将数据导入到已经存在的目录中去。

最后用select * from test;结果显示正确。

首先，如果要向hive表的指定分区导入数据应该要用--hive-table, --hive-partition-key, --hive-partition-value这三个参数。但是这样只能向单个分区导入数据，无法指定多个分区；其次，--where条件中没有用and。由于咱的目标hive表有两个partition，而且无法直接在参数中多个partition(我在指定多个partition的时候报错)，所以咱可以分两步解决这个问题：

1) 首先确保目标分区中没有数据，即/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105目录是空的；

2) 将数据直接上传到指定的数据仓库目录中。(--append 参数要指定，否则无法向已经存在的hdfs目录中导入数据) /opt/mapr/sqoop/sqoop-1.2.0/bin/sqoop import --append --connect jdbc:oracle:thin:@132.194.36.55:1521:lndwres --username HADOOP --password HADOOP --target-dir "/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105" --m 10 --split-by part10 --table GM_TEST --fields-terminated-by '\001' --query "SELECT DAY_ID, AREA_NO, ACCT_MONTH, ACCESS_NBR FROM GM_TEST WHERE DAY_ID='10' AND AREA_NO=2105 "

如果有更好的方法欢迎指出。

推荐阅读

get
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
fetch
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
get
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
get
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
get
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
get
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
get
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
fetch
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58
get
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
callback
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
get
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
get
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
get
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14

huanghxn

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章