使用sqoop迁移blob到Hive表

作者：飞天兔g_653 | 来源：互联网 | 2023-05-20 12:42

sqoop是一款开源的关系型数据库到Hadoop的迁移工具，对于通用的数据类型，如数值类型、字符类型、日期类型等sqoop可以提供无缝地迁移到Hadoo

sqoop是一款开源的关系型数据库到Hadoop的迁移工具&＃xff0c;对于通用的数据类型&＃xff0c;如数值类型、字符类型、日期类型等sqoop可以提供无缝地迁移到Hadoop平台。但对于特殊类型&＃xff0c;如LOB&＃xff0c;使用sqoop迁移则有所限制。
对于CLOB&＃xff0c;如xml文本&＃xff0c;sqoop可以迁移到Hive表&＃xff0c;对应字段存储为字符类型。
对于BLOB&＃xff0c;如jpg图片&＃xff0c;sqoop无法直接迁移到Hive表&＃xff0c;只能先迁移到HDFS路径&＃xff0c;然后再使用Hive命令加载到Hive表。迁移到HDFS后BLOB字段存储为16进制形式。本文我们介绍如果使用sqoop迁移Oracle中带blob字段的表到相应地Hive表。

1 首先&＃xff0c;假设我们已经有现成的Oracle环境&＃xff0c;且Oracle中有一张带BLOB&＃xff08;存储图片&＃xff09;字段的表&＃xff0c;如t_blob。关于演示如何存储图片到Oracle表中&＃xff0c;可参考我的另外一篇博客&＃xff1a;使用plsql往Oracle的blob插入图片

2 其次&＃xff0c;假设我们有现成的Hadoop集群且装有sqoop&＃xff0c;我们验证sqoop可以正常访问Oracle环境并能访问上述带BLOB的表。关于如果配置sqoop与Oracle的连接&＃xff0c;可以参考博客&＃xff1a;Sqoop1 从Oracle往Hive迁移数据

sqoop-list-tables --driver oracle.jdbc.OracleDriver --connect jdbc:oracle:thin:&＃64;10.10.10.7:1521/orcl --username itlr --password itlr

3 现在我们可以使用sqoop的import命令来把带BLOB的表抽取到指定的HDFS路径下

sqoop-import --connect jdbc:oracle:thin:&＃64;10.10.10.7:1521/orcl --username itlr --password itlr --table T_BLOB --columns "a,b,c" --split-by A -m 4 --inline-lob-limit&＃61;16777126 --target-dir /tmp/t_lob

4 验证sqoop不能直接导入带BLOB的表到Hive表

sqoop-import --connect jdbc:oracle:thin:&＃64;10.10.10.7:1521/orcl --username itlr --password itlr --table T_BLOB --split-by A -m 4 --hive-import --create-hive-table

输出错误如下

... 19/02/20 17:51:11 ERROR tool.ImportTool: Import failed: java.io.IOException: Hive does not support the SQL type for column Cat org.apache.sqoop.hive.TableDefWriter.getCreateTableStmt(TableDefWriter.java:181)at org.apache.sqoop.hive.HiveImport.importTable(HiveImport.java:189)at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:530)at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:621)at org.apache.sqoop.Sqoop.run(Sqoop.java:147)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183)at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234)at org.apache.sqoop.Sqoop.runTool(Sqoop.java:243)at org.apache.sqoop.Sqoop.main(Sqoop.java:252)

5 从HDFS路径中查看导入的文件&＃xff0c;可以看到对于BLOB字段存储为16进制形式

[hdfs&＃64;p08 ~]$ hadoop fs -ls /tmp/t_lob Found 2 items -rw-r--r-- 3 hdfs supergroup 0 2019-02-20 17:29 /tmp/t_lob/_SUCCESS -rw-r--r-- 3 hdfs supergroup 129237 2019-02-20 17:29 /tmp/t_lob/part-m-00000

在这里插入图片描述
6 创建Hive外表&＃xff0c;指向上述文件&＃xff0c;并查询对应Hive表是否有数据
通过以下输出&＃xff0c;Hive外表t_blob有一条记录&＃xff0c;对应blob字段长度为129230

create external table t_blob(a string, b string, c string) row format delimited fields terminated by &＃39;,&＃39; location &＃39;/tmp/t_lob&＃39;;hive> select a,b,length(c) from t_blob; Query ID &＃61; hdfs_20190220174141_292e9bc8-55de-4a42-ad46-ef507252e3ca Total jobs &＃61; 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there&＃39;s no reduce operator Starting Job &＃61; job_1550649972092_0003, Tracking URL &＃61; http://p13.esgyncn.local:8088/proxy/application_1550649972092_0003/ Kill Command &＃61; /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/lib/hadoop/bin/hadoop job -kill job_1550649972092_0003 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0 2019-02-20 17:41:24,240 Stage-1 map &＃61; 0%, reduce &＃61; 0% 2019-02-20 17:41:30,471 Stage-1 map &＃61; 100%, reduce &＃61; 0%, Cumulative CPU 3.71 sec MapReduce Total cumulative CPU time: 3 seconds 710 msec Ended Job &＃61; job_1550649972092_0003 MapReduce Jobs Launched: Stage-Stage-1: Map: 1 Cumulative CPU: 3.71 sec HDFS Read: 133288 HDFS Write: 13 SUCCESS Total MapReduce CPU Time Spent: 3 seconds 710 msec OK 1 ABC 129230 Time taken: 14.027 seconds, Fetched: 1 row(s)

至此&＃xff0c;我们已经知道如何用sqoop迁移blob到Hive表&＃xff0c;后续我们继续介绍迁移带blob的表到Trafodion表。

推荐阅读

stream
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
stream
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
js
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
byte
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
import
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
stream
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
char
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
import
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
const
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
hook
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
hook
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
stream
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
shell
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50

飞天兔g_653

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章