热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hudi系列17:离线批量导入

文章目录一.离线批量导入概述二.数据源准备三.案例1:COW表导入(写checkpoint,并行度:1)3.1FlinkSQL端操作3.2查看任务运行情

文章目录


  • 一. 离线批量导入概述
  • 二. 数据源准备
  • 三. 案例1:COW表导入(写checkpoint,并行度:1)
    • 3.1 Flink SQL端操作
    • 3.2 查看任务运行情况

  • 四. 案例2:COW表导入(写checkpoint,并行度:4)
    • 4.1 Flink SQL 端操作
    • 4.2 查看任务运行情况
    • 4.2 使用Spark操作hudi表

  • 五. 案例3:COW表导入(写checkpoint,并行度:4)
    • 5.1 Flink SQL 端操作
    • 5.2 Flink SQL 操作
    • 5.3 查看任务运行情况
    • 5.3 使用Spark操作hudi表

  • 六. 案例3:MOR表导入(写checkpoint,并行度:4)
    • 6.1 Flink SQL 端操作
    • 6.2 查看任务运行情况



一. 离线批量导入概述

如果存量数据来源于其它数据源,可以使用批量导入功能,快速将存量数据导成 Hoodie 表格式。

原理:

  1. 批量导入省去了 avro 的序列化以及数据的 merge 过程,后续不会再有去重操作, 数据的唯一性需要自己来保证。

  2. bulk_insert 需要在 Batch Execution Mode 下执行更高效, Batch 模式默认会按照 partition path 排序输入消息再写入 Hoodie, 避免 file handle 频繁切换导致性能下降。

set execution.runtime-mode = batch;
set execution.checkpointing.interval = 0;

  1. bulk_insert write task 的并发铜鼓哦参数 write.tasks 指定, 并发的数量会影响到小文件的数量,理论上, bulk_insert write task的并发数就是划分的 bucket 数, 当然每个 bucket 在写到 文件大小 上限(parquet 120 MB) 的时候会 rollover 到新的句柄,所以最后: 写文件数量 >= bulk_insert write task数。

二. 数据源准备

建表:

CREATE TABLE `mysql_cdc` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(100) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;

写存储过程批量插入数据:

DELIMITER //
CREATE PROCEDURE p5()
BEGIN
declare l_n1 int default 1;
while l_n1 <&#61; 10000000 DO
insert into mysql_cdc (id,name) values (l_n1,concat(&#39;test&#39;,l_n1));
set l_n1 &#61; l_n1 &#43; 1;
end while;
END;
//
DELIMITER ;

三. 案例1&#xff1a;COW表导入(写checkpoint&#xff0c;并行度:1)

3.1 Flink SQL端操作

启动yarn session
内存尽量多指定&#xff0c;不然会包 OOM的错误

$FLINK_HOME/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 &
/home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

Flink SQL操作:

set execution.checkpointing.interval&#61;10sec;
CREATE TABLE flink_mysql_cdc8 (
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;mysql-cdc&#39;,
&#39;hostname&#39; &#61; &#39;hp8&#39;,
&#39;port&#39; &#61; &#39;3306&#39;,
&#39;username&#39; &#61; &#39;root&#39;,
&#39;password&#39; &#61; &#39;abc123&#39;,
&#39;database-name&#39; &#61; &#39;test&#39;,
&#39;table-name&#39; &#61; &#39;mysql_cdc&#39;,
&#39;server-id&#39; &#61; &#39;5409-5415&#39;,
&#39;scan.incremental.snapshot.enabled&#39;&#61;&#39;true&#39;
);
set sql-client.execution.result-mode&#61;tableau;
select count(*) from flink_mysql_cdc8;
CREATE TABLE flink_hudi_mysql_cdc8(
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;hudi&#39;,
&#39;path&#39; &#61; &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc8&#39;,
&#39;table.type&#39; &#61; &#39;COPY_ON_WRITE&#39;,
&#39;changelog.enabled&#39; &#61; &#39;true&#39;,
&#39;hoodie.datasource.write.recordkey.field&#39; &#61; &#39;id&#39;,
&#39;write.precombine.field&#39; &#61; &#39;name&#39;,
&#39;compaction.async.enabled&#39; &#61; &#39;false&#39;
);
insert into flink_hudi_mysql_cdc8 select * from flink_mysql_cdc8;
select count(*) from flink_hudi_mysql_cdc8 ;

3.2 查看任务运行情况

因为设置了10秒钟一次checkpoint&#xff0c;且并行度为1&#xff0c;而write.tasks默认为4&#xff0c;所以很慢&#xff0c;预估10小时以上。
image.png

四. 案例2&#xff1a;COW表导入(写checkpoint&#xff0c;并行度:4)

4.1 Flink SQL 端操作

启动yarn session
内存尽量多指定&#xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 &
/home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

代码:

CREATE TABLE flink_mysql_cdc10 (
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;mysql-cdc&#39;,
&#39;hostname&#39; &#61; &#39;hp8&#39;,
&#39;port&#39; &#61; &#39;3306&#39;,
&#39;username&#39; &#61; &#39;root&#39;,
&#39;password&#39; &#61; &#39;abc123&#39;,
&#39;database-name&#39; &#61; &#39;test&#39;,
&#39;table-name&#39; &#61; &#39;mysql_cdc&#39;,
&#39;server-id&#39; &#61; &#39;5409-5415&#39;,
&#39;scan.incremental.snapshot.enabled&#39;&#61;&#39;true&#39;
);
select count(*) from flink_mysql_cdc10;
CREATE TABLE flink_hudi_mysql_cdc10(
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;hudi&#39;,
&#39;path&#39; &#61; &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc10&#39;,
&#39;table.type&#39; &#61; &#39;COPY_ON_WRITE&#39;,
&#39;changelog.enabled&#39; &#61; &#39;true&#39;,
&#39;hoodie.datasource.write.recordkey.field&#39; &#61; &#39;id&#39;,
&#39;write.precombine.field&#39; &#61; &#39;name&#39;,
&#39;compaction.async.enabled&#39; &#61; &#39;false&#39;
);
set &#39;parallelism.default&#39; &#61; &#39;4&#39;;
insert into flink_hudi_mysql_cdc10 select * from flink_mysql_cdc10;
select count(*) from flink_hudi_mysql_cdc9 ;

4.2 查看任务运行情况

3分钟就跑了500W(一半左右的数据)&#xff0c;性能较之前提升了数十倍
image.png

查询报错:
image.png

HDFS上的文件也较小:
image.png

4.2 使用Spark操作hudi表

连接Spark SQL

# Spark 3.3
spark-sql --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.0 \
--conf &#39;spark.serializer&#61;org.apache.spark.serializer.KryoSerializer&#39; \
--conf &#39;spark.sql.extensions&#61;org.apache.spark.sql.hudi.HoodieSparkSessionExtension&#39; \
--conf &#39;spark.sql.catalog.spark_catalog&#61;org.apache.spark.sql.hudi.catalog.HoodieCatalog&#39;

创建Hudi表:
建表的语法存在差异&#xff0c;需要进行调整&#xff0c;有的字段类型都不对应

CREATE TABLE flink_hudi_mysql_cdc10_spark(
id int,
name varchar(100)
)
using hudi
location &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc10&#39;;

查询数据:

select count(*) from flink_hudi_mysql_cdc10_spark;

居然是0&#xff0c;看来不checkpoint还是不行
image.png

五. 案例3&#xff1a;COW表导入(写checkpoint&#xff0c;并行度:4)

本来想测试batch的&#xff0c;经测试&#xff0c;会报错:

org.apache.flink.table.api.ValidationException: Querying an unbounded table &#39;default_catalog.default_database.flink_mysql_cdc11&#39; in batch mode is not allowed. The table source is unbounded.

checkpoint也不能设置为0

Flink SQL> set execution.checkpointing.interval &#61; 0;
[ERROR] Could not execute SQL statement. Reason:
java.lang.IllegalArgumentException: Checkpoint interval must be larger than or equal to 10 ms

5.1 Flink SQL 端操作

启动yarn session
内存尽量多指定&#xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 &
/home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

5.2 Flink SQL 操作

set &#39;parallelism.default&#39; &#61; &#39;4&#39;;
set execution.checkpointing.interval&#61;600sec;
CREATE TABLE flink_mysql_cdc13 (
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;mysql-cdc&#39;,
&#39;hostname&#39; &#61; &#39;hp8&#39;,
&#39;port&#39; &#61; &#39;3306&#39;,
&#39;username&#39; &#61; &#39;root&#39;,
&#39;password&#39; &#61; &#39;abc123&#39;,
&#39;database-name&#39; &#61; &#39;test&#39;,
&#39;table-name&#39; &#61; &#39;mysql_cdc&#39;,
&#39;server-id&#39; &#61; &#39;5409-5415&#39;,
&#39;scan.incremental.snapshot.enabled&#39;&#61;&#39;true&#39;
);
CREATE TABLE flink_hudi_mysql_cdc13(
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;hudi&#39;,
&#39;path&#39; &#61; &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc13&#39;,
&#39;table.type&#39; &#61; &#39;COPY_ON_WRITE&#39;,
&#39;changelog.enabled&#39; &#61; &#39;true&#39;,
&#39;hoodie.datasource.write.recordkey.field&#39; &#61; &#39;id&#39;,
&#39;write.precombine.field&#39; &#61; &#39;name&#39;,
&#39;compaction.async.enabled&#39; &#61; &#39;false&#39;
);
insert into flink_hudi_mysql_cdc13 select * from flink_mysql_cdc13;
select count(*) from flink_hudi_mysql_cdc13 ;

5.3 查看任务运行情况

Flink web查看数据更新:
把checkpoint设置为10分钟&#xff0c;并行度设置为4&#xff0c;确实快了不少
image.png

7分钟左右写完1kw的数据&#xff08;页面显示有时候有问题&#xff0c;我提前结束了job&#xff0c;结果发现数据少了&#xff09;
image.png

image.png

上面显示已经同步过来了&#xff0c;但是其实还没写完&#xff0c;还需要等checkpoint完成&#xff0c;不然的话&#xff0c;数据会丢。

因为Flink一切皆流&#xff0c;所以后续的 对MySQL表的增删改依旧会同步过来&#xff0c;此处我新增了2条&#xff0c;看数据已经过来了。

checkpoint也做了
image.png

查询数据:
可能是资源影响吧&#xff0c;我查询数据的时候一直处于等待状态。
image.png

5.3 使用Spark操作hudi表

连接Spark SQL

# Spark 3.3
spark-sql --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.0 \
--conf &#39;spark.serializer&#61;org.apache.spark.serializer.KryoSerializer&#39; \
--conf &#39;spark.sql.extensions&#61;org.apache.spark.sql.hudi.HoodieSparkSessionExtension&#39; \
--conf &#39;spark.sql.catalog.spark_catalog&#61;org.apache.spark.sql.hudi.catalog.HoodieCatalog&#39;

创建Hudi表:
建表的语法存在差异&#xff0c;需要进行调整&#xff0c;有的字段类型都不对应

CREATE TABLE flink_hudi_mysql_cdc13_spark(
id int,
name varchar(100)
)
using hudi
location &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc13&#39;;

查询数据:

select count(*) from flink_hudi_mysql_cdc13_spark;

数据没问题了
image.png

六. 案例3&#xff1a;MOR表导入(写checkpoint&#xff0c;并行度:4)

对于MySQL这种数据源而言&#xff0c;MOR表更适合&#xff0c;全量导入后再接增量。

启动yarn session
内存尽量多指定&#xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 &
/home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

还是不能使用batch:

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.ValidationException: Querying an unbounded table &#39;default_catalog.default_database.flink_mysql_cdc14&#39; in batch mode is not allowed. The table source is unbounded.

6.1 Flink SQL 端操作

set &#39;parallelism.default&#39; &#61; &#39;4&#39;;
set execution.checkpointing.interval&#61;100sec;
CREATE TABLE flink_mysql_cdc16 (
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;mysql-cdc&#39;,
&#39;hostname&#39; &#61; &#39;hp8&#39;,
&#39;port&#39; &#61; &#39;3306&#39;,
&#39;username&#39; &#61; &#39;root&#39;,
&#39;password&#39; &#61; &#39;abc123&#39;,
&#39;database-name&#39; &#61; &#39;test&#39;,
&#39;table-name&#39; &#61; &#39;mysql_cdc&#39;,
&#39;server-id&#39; &#61; &#39;5409-5415&#39;,
&#39;scan.incremental.snapshot.enabled&#39;&#61;&#39;true&#39;
);
CREATE TABLE flink_hudi_mysql_cdc16(
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name varchar(100)
) WITH (
&#39;connector&#39; &#61; &#39;hudi&#39;,
&#39;path&#39; &#61; &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16&#39;,
&#39;table.type&#39; &#61; &#39;MERGE_ON_READ&#39;,
&#39;changelog.enabled&#39; &#61; &#39;true&#39;,
&#39;hoodie.datasource.write.recordkey.field&#39; &#61; &#39;id&#39;,
&#39;write.precombine.field&#39; &#61; &#39;name&#39;,
&#39;compaction.async.enabled&#39; &#61; &#39;false&#39;
);
insert into flink_hudi_mysql_cdc16 select * from flink_mysql_cdc16;
select count(*) from flink_hudi_mysql_cdc16 ;

6.2 查看任务运行情况

Flink web
没想到&#xff0c;MOR的表速度也挺快的&#xff0c;我最开始用的是小内存&#xff0c;并行度为1&#xff0c;然后一直失败和OOM。

image.png

image.png

HDFS:
全部是log文件&#xff0c;没有parquet文件
image.png

Flink SQL查询数据

select count(*) from flink_hudi_mysql_cdc16;

image.png
image.png

Spark SQL查询:

# Spark 3.3
spark-sql --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.0 \
--conf &#39;spark.serializer&#61;org.apache.spark.serializer.KryoSerializer&#39; \
--conf &#39;spark.sql.extensions&#61;org.apache.spark.sql.hudi.HoodieSparkSessionExtension&#39; \
--conf &#39;spark.sql.catalog.spark_catalog&#61;org.apache.spark.sql.hudi.catalog.HoodieCatalog&#39;
CREATE TABLE flink_hudi_mysql_cdc16_spark(
id int,
name varchar(100)
)
using hudi
location &#39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16&#39;;
select count(*) from flink_hudi_mysql_cdc16_spark;

image.png

Hive SQL查询:

cd /home/hudi-0.12.0/hudi-sync/hudi-hive-sync
./run_sync_tool.sh --jdbc-url jdbc:hive2:\/\/hp5:10000 --base-path hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16 --database test --table flink_hudi_mysql_cdc16
select count(*) from test.flink_hudi_mysql_cdc16_ro;

直接报错
image.png






推荐阅读
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • 本文介绍了为什么要使用多进程处理TCP服务端,多进程的好处包括可靠性高和处理大量数据时速度快。然而,多进程不能共享进程空间,因此有一些变量不能共享。文章还提供了使用多进程实现TCP服务端的代码,并对代码进行了详细注释。 ... [详细]
  • 移动端常用单位——rem的使用方法和注意事项
    本文介绍了移动端常用的单位rem的使用方法和注意事项,包括px、%、em、vw、vh等其他常用单位的比较。同时还介绍了如何通过JS获取视口宽度并动态调整rem的值,以适应不同设备的屏幕大小。此外,还提到了rem目前在移动端的主流地位。 ... [详细]
  • 如何在HTML中获取鼠标的当前位置
    本文介绍了在HTML中获取鼠标当前位置的三种方法,分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ... [详细]
  • centos安装Mysql的方法及步骤详解
    本文介绍了centos安装Mysql的两种方式:rpm方式和绿色方式安装,详细介绍了安装所需的软件包以及安装过程中的注意事项,包括检查是否安装成功的方法。通过本文,读者可以了解到在centos系统上如何正确安装Mysql。 ... [详细]
  • 本文介绍了如何使用MATLAB调用摄像头进行人脸检测和识别。首先需要安装扩展工具,并下载安装OS Generic Video Interface。然后使用MATLAB的机器视觉工具箱中的VJ算法进行人脸检测,可以直接调用CascadeObjectDetector函数进行检测。同时还介绍了如何调用摄像头进行人脸识别,并对每一帧图像进行识别。最后,给出了一些相关的参考资料和实例。 ... [详细]
  • 这个问题困扰了我两天,卸载Dr.COM客户端(我们学校上网要装这个客户端登陆服务器,以后只能在网页里输入用户名和密码了),问题解决了。问题的现象:在实验室机台式机上安装openfire和sp ... [详细]
  • SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下,Spark驱动器(driver)在YARNApp ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • CentOS 6.5安装VMware Tools及共享文件夹显示问题解决方法
    本文介绍了在CentOS 6.5上安装VMware Tools及解决共享文件夹显示问题的方法。包括清空CD/DVD使用的ISO镜像文件、创建挂载目录、改变光驱设备的读写权限等步骤。最后给出了拷贝解压VMware Tools的操作。 ... [详细]
  • 解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法
    本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法,包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时,还介绍了修改nginx的error.log日志级别为debug,以便查看详细日志信息。 ... [详细]
  • NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”
    本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常,该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]
  • Thisworkcameoutofthediscussioninhttps://github.com/typesafehub/config/issues/272 ... [详细]
  • 湍流|低频_youcans 的 OpenCV 例程 200 篇106. 退化图像的逆滤波
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了youcans的OpenCV例程200篇106.退化图像的逆滤波相关的知识,希望对你有一定的参考价值。 ... [详细]
author-avatar
手机用户2502922083
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有