热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用sqoop从mysql向多分区hive表中导入数据

客户有需要需要把数据从传统数据库想hadoop平台迁移,他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题,说是从ORACLE以并行方式“抽取数


         客户有需要需要把数据从传统数据库想hadoop平台迁移,他们利用sqoop将数据从oracle迁移到hive中。最近他们在迁移的时候碰到一个问题,说是从ORACLE以并行方式“抽取数据”抽取数据到HIVE用多个条件进行抽取没有调通。以下是他们发过来的脚本:

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive  --username root  --table test --fields-terminated-by '\t'  [--null-string '**‘]  -m 1 --append  --hive-import   --hive-partition-key   KEY  --hive-partition-value  VALUE

这里面有个问题是,目标表有多个分区,如果只是单个分区的话可以直接指定--hive-partition-key和--hive-partition-value这两个参数即可,可以这样做:



但是这样只能向单个分区中导入数据,于是我试着在sqoop语句中指定两个分区结果报错。在网上也没有找着类似的解决方案。我不知道是sqoop没有提供这样的功能还是我理解不全面,如果有能在一条句子里直接搞定希望回复我,让我长长见识。

由于sqoop在向hive中导入数据时,是先将数据上传到hdfs中,然后创建表,最后在将hdfs中的数据load到表目录下。受此启发,(我没有oracle数据库,用mysql代替)我们将所要解决的问题分为两步:

这是我的mysql中的测试数据:第一列为数据类型int,第二列为varchar2。

id   name

1    zhangsan
2    wangwu
3    zhaoliu
4    wang
5    liujia
6    gao
7    lirui
8    lisi

假如我需要向test表中,partition(company=‘bonc’, group='bigdata')中导入数据,我们提前创建好表和分区:

首先创建表和分区:

CREATE TABLE test(id int, name string) PARTITIONED BY(company string, group string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

ALTER TABLE test ADD PARTITION(company='bonc', group='bigdata') LOCATION '/user/hive/warehouse/test/company=bonc/group=bigdata';


然后把数据仓库目录作为target直接将数据上传进去,实际上只是向hdfs中上传,并没有用到--hive-import

 sqoop import --connect jdbc:mysql://hadoop-master:3306/hive --username root --password vmware --table test --target-dir '/user/hive/warehouse/test/bOnc=pezy/group=bigdata' --append --fields-terminated-by '\t' -m 1 --columns id,name --where 'id=4'


这样就将指定列和限定条件id=4的这条数据导入到了hive表中,注意一定加--append参数,否则是不能将数据导入到已经存在的目录中去。

最后用select * from test;结果显示正确。

首先,如果要向hive表的指定分区导入数据应该要用--hive-table, --hive-partition-key, --hive-partition-value这三个参数。但是这样只能向单个分区导入数据,无法指定多个分区;其次,--where条件中没有用and。由于咱的目标hive表有两个partition,而且无法直接在参数中多个partition(我在指定多个partition的时候报错),所以咱可以分两步解决这个问题:

1)  首先确保目标分区中没有数据,即/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105目录是空的;

2)  将数据直接上传到指定的数据仓库目录中。(--append 参数要指定,否则无法向已经存在的hdfs目录中导入数据)  /opt/mapr/sqoop/sqoop-1.2.0/bin/sqoop import  --append --connect jdbc:oracle:thin:@132.194.36.55:1521:lndwres --username HADOOP --password HADOOP --target-dir "/user/hive/warehouse/gm.db/gm_test/day_part=10/area_part=2105"  --m 10 --split-by part10 --table GM_TEST    --fields-terminated-by '\001'  --query "SELECT  DAY_ID, AREA_NO, ACCT_MONTH, ACCESS_NBR FROM GM_TEST WHERE  DAY_ID='10' AND  AREA_NO=2105 "

如果有更好的方法欢迎指出。







推荐阅读
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 这篇文章主要介绍了Python拼接字符串的七种方式,包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制,通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
author-avatar
若v0丷會飛的獨角獸
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有