当前位置: 开发笔记 > 编程语言 > 正文

Sqoop同步数据数据中存在换行符导致两边数据条数不一致问题解决（AVRO格式应用）

作者：手机用户2502863701 | 来源：互联网 | 2023-06-09 10:22

目录0引言1现象2问题解决03小结0引言“本文讲解了Sqoop同步数据中存在特殊换行符导致两边数据不一致问题的解决方法，同时对AVRO对解决这一类问题进行了

0 引言

1 现象

2 问题解决

03 小结

0 引言
“ 本文讲解了Sqoop同步数据中存在特殊换行符导致两边数据不一致问题的解决方法&＃xff0c;同时对AVRO对解决这一类问题进行了重点讲解&＃xff0c;包括AVRO语法格式、Hive建表语法等。”

本文主要知识点&＃xff1a;AVRO存储格式及建表语法

1 现象
问题&＃xff1a;Sqoop采集完成后导致HDFS数据与Oracle数据量不符。
原因

sqoop以文本格式导入数据时&＃xff0c;默认的换行符是特殊字符

Oracle中的数据列中如果出现了\n、\r、\t等特殊字符&＃xff0c;就会被划分为多行

Oracle数据

id name age
001 zhang\nsan 18

Sqoop遇到特殊字段就作为一行

`001 zhangsan 18`

Hive

`id name age001 zhang` `san 18`
结论&＃xff1a;当sqoop同步数据时&＃xff0c;数据中存在换行符如&＃xff08;\n&＃xff09;&＃xff0c;sqoop会根据换行符自动将数据换行&＃xff0c;导致最终在hive中同步看到的数据结果与原始数据不一致。

2 问题解决

方案一&＃xff1a;删除或者替换数据中的换行符

--hive-drop-import-delims&＃xff1a;删除换行符

--hive-delims-replacement char&＃xff1a;替换换行符

不建议使用&＃xff1a;侵入了原始数据

方案二&＃xff1a;使用特殊文件格式&＃xff1a;AVRO格式

问题解决&＃xff1a;Avro格式
常见格式介绍
类型介绍
TextFile Hive默认的文件格式&＃xff0c;最简单的数据格式&＃xff0c;便于查看和编辑&＃xff0c;耗费存储空间&＃xff0c;I/O性能较低
SequenceFile 含有键值对的二进制文件&＃xff0c;优化磁盘利用率和I/O&＃xff0c;并行操作数据&＃xff0c;查询效率高&＃xff0c;但存储空间消耗最大
AvroFile 特殊的二进制文件&＃xff0c;设计的主要目标是为了满足schema evolution&＃xff0c;Schema和数据保存在一起
OrcFile 列式存储&＃xff0c;Schema存储在footer中&＃xff0c;不支持schema evolution&＃xff0c;高度压缩比并包含索引&＃xff0c;查询速度非常快
ParquetFile 列式存储&＃xff0c;与Orc类似&＃xff0c;压缩比不如Orc&＃xff0c;但是查询性能接近&＃xff0c;支持的工具更多&＃xff0c;通用性更强
Avro格式特点
选项
--as-avrodatafile Imports data to Avro datafiles
注意&＃xff1a;如果使用了MR的Uber模式&＃xff0c;必须在程序中加上以下参数避免类冲突问题
-Dmapreduce.job.user.classpath.first&＃61;true

优点

二进制数据存储&＃xff0c;性能好、效率高

使用JSON描述模式&＃xff0c;支持场景更丰富

Schema和数据统一存储&＃xff0c;消息自描述

模式定义允许定义数据的排序

缺点

只支持Avro自己的序列化格式

少量列的读取性能比较差&＃xff0c;压缩比较低

场景&＃xff1a;基于行的大规模结构化数据写入、列的读取非常多或者Schema变更操作比较频繁的场景

Sqoop使用Avro格式

使用测试

`sqoop import \ -Dmapreduce.job.user.classpath.first&＃61;true \ --connect jdbc:oracle:thin:&＃64;oracle.bigdata.cn:1521:helowin \ --username ciss \ --password 123456 \ --table CISS4.CISS_SERVICE_WORKORDER \ --delete-target-dir \ --target-dir /test/full_imp/ciss4.ciss_service_workorder \ --as-avrodatafile \ --fields-terminated-by "\001" \ -m 1`
Hive中建表
`create external table test_avro( line string ) stored as avro location &＃39;/test/full_imp/ciss4.ciss_service_workorder&＃39;;`
统计行数
`select count(*) from test_avro;`
Avro建表语法

Hive官网&＃xff1a;https://cwiki.apache.org/confluence/display/Hive/LanguageManual&＃43;DDL#LanguageManualDDL-CreateTable

DataBrics官网&＃xff1a;https://docs.databricks.com/spark/2.x/spark-sql/language-manual/create-table.html

Avro用法&＃xff1a;https://cwiki.apache.org/confluence/display/Hive/AvroSerDe

指定文件类型

方式一&＃xff1a;指定类型

`stored as avro`

方式二&＃xff1a;指定解析类

&＃96;&＃96;&＃96;sql
--解析表的文件的时候&＃xff0c;用哪个类来解析
ROW FORMAT SERDE
&＃39;org.apache.hadoop.hive.serde2.avro.AvroSerDe&＃39;
--读取这张表的数据用哪个类来读取
STORED AS INPUTFORMAT
&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat&＃39;
--写入这张表的数据用哪个类来写入
OUTPUTFORMAT
&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat `&＃96;&＃96;&＃96;`

指定Schema

方式一&＃xff1a;手动定义Schema

`CREATE TABLE embeddedCOMMENT "这是表的注释"ROW FORMAT SERDE` `&＃39;org.apache.hadoop.hive.serde2.avro.AvroSerDe&＃39;STORED AS INPUTFORMAT` `&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat&＃39;OUTPUTFORMAT` `&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat&＃39;TBLPROPERTIES (` `&＃39;avro.schema.literal&＃39;&＃61;&＃39;{` `"namespace": "com.howdy",` `"name": "some_schema",` `"type": "record",` `"fields": [ { "name":"string1","type":"string"}]` `}&＃39;);`

方式二&＃xff1a;加载Schema文件

需要先将表的schema信息放到HDFS上&＃xff08;先得同步schema&＃xff0c;注意数据类型需要和hive对应&＃xff09;

`&＃96;&＃96;&＃96;sql` `CREATE TABLE embedded` `COMMENT "这是表的注释"` `ROW FORMAT SERDE` `&＃39;org.apache.hadoop.hive.serde2.avro.AvroSerDe&＃39;` `STORED as INPUTFORMAT` `&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat&＃39;` `OUTPUTFORMAT` `&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat&＃39;` `TBLPROPERTIES (` `&＃39;avro.schema.url&＃39;&＃61;&＃39;file:///path/to/the/schema/embedded.avsc&＃39;` `);` `&＃96;&＃96;&＃96;`

具体例子如下&＃xff1a;

建表语法
方式一&＃xff1a;指定类型和加载Schema文件
`create external table one_make_ods_test.ciss_base_areascomment &＃39;行政地理区域表&＃39;PARTITIONED BY (dt string)stored as avrolocation &＃39;/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas&＃39;TBLPROPERTIES (&＃39;avro.schema.url&＃39;&＃61;&＃39;/data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avsc&＃39;);`
- 方式二&＃xff1a;指定解析类和加载Schema文件
&＃96;&＃96;&＃96;sqlcreate external table one_make_ods_test.ciss_base_areascomment &＃39;行政地理区域表&＃39;PARTITIONED BY (dt string)ROW FORMAT SERDE&＃39;org.apache.hadoop.hive.serde2.avro.AvroSerDe&＃39;STORED AS INPUTFORMAT&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat&＃39;OUTPUTFORMAT&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat&＃39;location &＃39;/data/dw/ods/one_make/full_imp/ciss4.ciss_base_areas&＃39;TBLPROPERTIES (&＃39;avro.schema.url&＃39;&＃61;&＃39;/data/dw/ods/one_make/avsc/CISS4_CISS_BASE_AREAS.avs &＃96;&＃96;&＃96;&＃96;&＃96;&＃96;create external table 数据库名称.表名comment &＃39;表的注释&＃39;partitioned byROW FORMAT SERDE&＃39;org.apache.hadoop.hive.serde2.avro.AvroSerDe&＃39;STORED AS INPUTFORMAT&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat&＃39;OUTPUTFORMAT&＃39;org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat&＃39;location &＃39;这张表在HDFS上的路径&＃39; TBLPROPERTIES &＃xff08;&＃39;这张表的Schema文件在HDFS上的路径&＃39;&＃xff09;; &＃96;&＃96;&＃96;

类型	介绍
TextFile	Hive默认的文件格式&＃xff0c;最简单的数据格式&＃xff0c;便于查看和编辑&＃xff0c;耗费存储空间&＃xff0c;I/O性能较低
SequenceFile	含有键值对的二进制文件&＃xff0c;优化磁盘利用率和I/O&＃xff0c;并行操作数据&＃xff0c;查询效率高&＃xff0c;但存储空间消耗最大
AvroFile	特殊的二进制文件&＃xff0c;设计的主要目标是为了满足schema evolution&＃xff0c;Schema和数据保存在一起
OrcFile	列式存储&＃xff0c;Schema存储在footer中&＃xff0c;不支持schema evolution&＃xff0c;高度压缩比并包含索引&＃xff0c;查询速度非常快
ParquetFile	列式存储&＃xff0c;与Orc类似&＃xff0c;压缩比不如Orc&＃xff0c;但是查询性能接近&＃xff0c;支持的工具更多&＃xff0c;通用性更强

03 小结
本文讲解了Sqoop同步数据中存在特殊换行符导致两边数据不一致问题的解决方法&＃xff0c;同时对AVRO对解决这一类问题进行了重点讲解&＃xff0c;包括AVRO语法格式、Hive建表语法等。
欢迎关注石榴姐公众号"我的SQL呀"&＃xff0c;关注我不迷路

推荐阅读

import
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
import
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
import
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
import
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
import
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
get
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
import
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
get
2022年7月20日：关键数据与市场动态分析

2022年7月20日，本文对当日的关键数据和市场动态进行了深入分析。主要内容包括：1. 关键数据的解读与趋势分析；2. 市场动态的变化及其对投资策略的影响；3. 相关经济指标的评估。通过这些分析，帮助读者更好地理解当前市场环境，为决策提供参考。 ... [详细]

蜡笔小新 2024-11-11 23:45:20
search
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
version
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
get
Python 字符串处理全解：常用操作与技巧汇总

本文全面解析了 Python 中字符串处理的常用操作与技巧。首先介绍了如何通过 `s.strip()`, `s.lstrip()` 和 `s.rstrip()` 方法去除字符串中的空格和特殊符号。接着，详细讲解了字符串复制的方法，包括使用 `sStr1 = sStr2` 进行简单的赋值复制。此外，还探讨了字符串连接、分割、替换等高级操作，并提供了丰富的示例代码，帮助读者深入理解和掌握这些实用技巧。 ... [详细]

蜡笔小新 2024-11-10 09:01:29
import
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
get
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
get
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
get
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19

手机用户2502863701

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章