热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sqoop2Intermediaterepresentation

Sqoop2Intermediaterepresentation在Sqoop2的connector中提供了自己的map处理,map用于导入数据到HDFS。因为这段代码将完全被c
Sqoop2Intermediate representation

在Sqoop2的connector中提供了自己的map处理,map用于导入数据到HDFS。因为这段代码将完全被connector维护,所以,我们需要找到一个适用所有connector和所有情况的中间格式(map output)。本文的目标是比较不同的中间数据格式(intermediate representation),以使我们为Sqoop2选择一个合适的。

Current solutions

我们已经找到的一些方法。不是重新发明轮子,本文包括已经存在的数据表示的方法的概要。

MySQL‘s mysqldump format 

值的逗号分隔的列表出现在一行文本中。不同的数据类型像下面这样编码:

Data type

Serialized as

DATETIME 

String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09) 

TIMESTAMP 

String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09) 

DATE 

String with format YYYY-MM-DD (2012-01-01) 

TIME 

String with format HH:MM:DD (09:09:09) 

ENUM

String with enumerated value 

SET 

String with comma separated enumerated values 

BIT 

String (array of bites rounded up to 1 byte, 20 bits are rounded to 24 bits/3 bytes)

CHAR(varchar, text, blob) 

String 

FLOAT (double, ...) 

Direct value, might be in scientific notation (666.6, 5.5e-39). MySQL is not supporting NaN and +/- Inf.

INT(small, big, ...) 

Direct value (666) 

DECIMAL(fixed, ...) 

Direct value (66.6) 

BOOL 

Direct number (1 or 0)

DATE和DATETIME类型返回相同的内容(没有时区的转换),但是TIMESTAMP总是以UTC方式保存,自动转换为相关的时区。明确的时区描述似乎不是输出的一部分。

丢失的值用NULL常量代替(NULL不是一个字符串常量,因此不能被引用)。字符串有非常简单的编码方式,除了下面的byte,大多数字符直接打印:

Byte 

Written as 

0x00 

\0 

0x0A 

\n 

0x0D 

\r 

0x1A 

\Z 

0x22 

\" 

0x27 

\‘

0x5C 

\ \ (no space) 

例如:

0,‘Hello world‘,‘Jarcec\‘s notes‘,NULL,66.6,‘2012-06-06 06:06:06‘

PostgreSQL‘s pg_dump format

与MySql dump格式的情况类似,数据被一行文本实例代表,多个列将被逗号分隔。字符串用单引号(例如‘String’)。所有的字符直接打印,除了单引号翻倍的时候,例如两个单引号代表,一个单引号在字符串内,并且字符串没有结束(例如:’Jarcec’’s notes’)。一个单引号需要用4个单引号表示,’’’’只代表一个’。Null(0x00)不允许在字符串常量内部。二进制常量也可在单引号被引用,但是会被转换为16就进制,带有\x前缀,例如’\x4d7953514c’代表字符串’MySQL’(被保存在二进制列)。

Data type 

Serialized as 

INT (and all variants) 

Direct value (666) 

NUMERIC 

Direct value (66.60) 

REAL(and all variants) 

Direct value (66.5999985, 55e55) or string constant for special cases  (‘Infinity‘, ‘-Infinity‘, ‘NaN‘) 

VARCHAR(text, ...) 

String 

CHAR 

String, unused positions at the end are filled with spaces 

TIMESTAMP(date, time, ...) 

String in format YYYY-MM-DD HH:MM:SS.ZZZZZZ (Date and hour part) 

TIMESTAMP with time zone (and others) 

String in format YYY-MM-DD HH:MM:SS.ZZZZZZ[+-]XX (‘2012-07-03 14:07:11.876239+02‘)  

BOOLEAN 

Constants true and false (not quoted as a String) 

ENUM 

String 

ARRAY 

String that contains special structure - ‘{ITEM1, ITEM2, ITEM3}‘, ITEMX itself might be in separate quotes if needed. 

编码示例(一行数据):

666, 66.60, ‘jarcec‘, ‘Jarcec‘‘snotes‘, ‘2012-07-0314:07:11.876239‘, true, ‘{1,2,

3}‘, NULL, ‘\x4d7953514c‘

Microsoft SQL Server‘s bcp utility

SQL Server bcp utility 默认产生二进制输出,这将使输出非常难理解。幸运的是,它可以被强制产生字符输出用命令行切换”-c“。在这种情况下,bcp工具将产生CSV文件,行分隔符可以用命令行’-t‘参数指定(默认是tab),类似地,可以使用”-r”指定行分隔符(默认是new line)。

下面是不同数据类型的概述:

Data type

Serialized as

VARCHAR(nvarchar, char,... )

Directly as it without any encoding, empty string is represented as zero byte

TIME

Constant in format HH:MM:DD.ZZZZZZ (01:01:01.0000000)

NUMERIC (decimal, ...)

Direct value (666.66)

NULL

Empty or missing value (for example when using comma as separator - ,,)

INT (and it‘s variants)

Direct value (666)

FLOAT(real, ...)

Direct value(33.299999999999997)

DATETIME

Constant in format YYYY-MM-DD HH:MM:DD.ZZZ (2012-06-06 01:01:01.000)

DATE

Constant in format YYYY-MM-DD (2012-01-01)

注意:字符串的列不允许包含行和列分隔符,这其实相当复杂的。

编码示例(这是一行数据):

35,15.20,33.299999999999997,2012-06-06,2012-06-06 01:01:01.000,01:01:01.0000000,jarcec‘scomment with, comma

AVRO

我们也可以使用AVRO作为中间数据的格式。Avro只支持有限的数据类型,所以我们必须自己编码一些类型(例如,我们可能用上边提到的类似的格式将Date类型编码成String类型)。Avro支持的格式可在下面的网址中查到:http://avro.apache.org/docs/current/spec.html#schema_primitive。Connector中mapper代码的示例将会是:

GenericRecordBuilderbuilder = new GenericRecordBuilder(getSchemaSomehow());

builder.set("column1",value1);

builder.set("columnX",valueX);

context.write(new AvroKey(builder.build()), NullWritable.get());

Netezza

我没有发现任何特别的数据导出工具。推荐使用nzsqp,保存输出到一个文件,也就是生成一个类似于mysql client标准输出的表格。

示例输出:

  ID| TXT

 ----+------

   2 | cau

   1 | ahoj

(2 rows)

Teradata

Fast export utility compatibility

我们也研究了不同类型的快速导出工具的兼容性。

mysqldump –compatible

mysqldump工具包含一个参数 –compatible,接受参数”postgresql“。但是这个参数看起来不是有效的,因为使用此参数跟不使用时输出几乎一样。

1.      二进制常量很可能失败

2.      带时区信息的DataTime列将会获取服务器的默认时区

Sqoop2 Intermediate representation


推荐阅读
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文内容为asp.net微信公众平台开发的目录汇总,包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建(接入)、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面,适合综合运用。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 在project.properties添加#Projecttarget.targetandroid-19android.library.reference.1..Sliding ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • 本文介绍了一种解析GRE报文长度的方法,通过分析GRE报文头中的标志位来计算报文长度。具体实现步骤包括获取GRE报文头指针、提取标志位、计算报文长度等。该方法可以帮助用户准确地获取GRE报文的长度信息。 ... [详细]
  • PDF内容编辑的两种小方法,你知道怎么操作吗?
    本文介绍了两种PDF内容编辑的方法:迅捷PDF编辑器和Adobe Acrobat DC。使用迅捷PDF编辑器,用户可以通过选择需要更改的文字内容并设置字体形式、大小和颜色来编辑PDF文件。而使用Adobe Acrobat DC,则可以通过在软件中点击编辑来编辑PDF文件。PDF文件的编辑可以帮助办公人员进行文件内容的修改和定制。 ... [详细]
author-avatar
耿世述_511
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有