热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

sqoop导入导出hive/oracle

版本:sqoop1最新版用户指导:http:archive.cloudera.comcdh5cdh5sqoop-1.4.6-cdh5.9.3SqoopUserGuide.html1

版本:sqoop导入导出hive/oracle

sqoop1最新版用户指导:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.3/SqoopUserGuide.html

1.sqoop从关系型数据库oracle导数据到hive,数据存储为parquet格式。

首先,在hive中建表,按月增量存储的建分区表。存储为parquet文件格式而不是默认的textfile是为了便于在impala中访问数据。

create table if not exists table_name(columns  string/double/ , ..)
comment  "备注"
partition by (month string) 
 row format delimited
fields terminated by '\t'
lines terminated by '\n'
stroed as parquet;

用sqoop导数据到hive分区表,Sqoop 1.4.6 导入实战参考示例  http://www.sohu.com/a/149043703_572440

  sqoop import \
--connect jdbc:oracle:thin:@IP:DATABASE\
--username USERNAME\
--password -P\
--table 大写表名 \
--columns "多列逗号隔开,不留空格" \
--where "过滤条件" \
--hcatalog-database 数据库 \
--hcatalog-table hive表\
--hcatalog-partition-keys 分区字段\
--hcatalog-partition-values 分区值 \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--split-by '切片字段'  \
--as-parquetfile -m 3

分区表无法实现覆盖导入,非分区表可考虑覆盖导入的方式

sqoop job --create job名 \
-- import \
--connect jdbc:oracle:thin:@ip:1521:数据库 \
--username username\
--password -P\
--hive-import \
 --query "SELECT 多列, \
多列 \
FROM pec.sku_no where "过滤条件 AND \$CONDITIONS" \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--as-parquetfile \
--hive-overwrite \
--hive-database hive数据库\
--hive-table hive表名\
--delete-target-dir \
--target-dir /hive/warehouse/hive数据库.db/hive表名 \
--map-column-java "部分需要转换类型的列" \
--split-by 切片字段" \
-m 1 \
--fetch-size 5000

 

hive中检查数据导入是否成功。

熟悉这些语句后可建批处理脚本,简化批量操作:

 

 

2.qoop export工具被用来将文件集合从HDFS中导入到关系型数据库中。从hive导数据到oracle数据库(exports a set of files from HDFS back to an RDBMS)参考示例 https://blog.csdn.net/waterkong/article/details/78708809

第一步:将hive表数据转到hdfs文件系统,已存储在HDFS文件系统的不用再处理。

查询hive表所在文件系统路径:show create table table_name;

第二部:sqoop导出到oracle数据库,目标表必须事先已经在数据库中创建好。注意parquet格式的hive表无法导出到关系型数据库,通过“--hcatalog-database 数据库 --hcatalog-table hive表 "参数指定数据库及表的方式据说可以实现,目前没有测试通,可以试试。

全表导出

 

增量导出


推荐阅读
  • 使用HTML和JavaScript实现视频截图功能
    本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧,并展示了具体的实现步骤和示例代码。 ... [详细]
  • 本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用,仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]
  • Cookie学习小结
    Cookie学习小结 ... [详细]
  • python模块之正则
    re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求,从一段字符串中找到符合要求的内容。在 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 浅析python实现布隆过滤器及Redis中的缓存穿透原理_python
    本文带你了解了位图的实现,布隆过滤器的原理及Python中的使用,以及布隆过滤器如何应对Redis中的缓存穿透,相信你对布隆过滤 ... [详细]
  • 本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。 ... [详细]
  • 如何配置VisualSVN以确保提交时必须填写日志信息
    在软件开发团队中,成员们有时会忘记在提交代码时添加必要的备注信息。为了规范这一流程,可以通过配置VisualSVN来强制要求团队成员在提交文件时填写日志信息。本文将详细介绍如何设置这一功能。 ... [详细]
  • WCF类型共享的最佳实践
    在使用WCF服务时,经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法,以解决这一常见问题。 ... [详细]
  • iOS 不定参数 详解 ... [详细]
  • malloc 是 C 语言中的一个标准库函数,全称为 memory allocation,即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域,并返回该区域的起始地址。当无法预先确定内存的具体位置时,可以通过 malloc 动态分配内存。 ... [详细]
  • Python多线程详解与示例
    本文介绍了Python中的多线程编程,包括僵尸进程和孤儿进程的概念,并提供了具体的代码示例。同时,详细解释了0号进程和1号进程在系统中的作用。 ... [详细]
  • 包含phppdoerrorcode的词条 ... [详细]
  • C#实现文件的压缩与解压
    2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
author-avatar
莫莫2602891683
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有