当前位置: 开发笔记 > 编程语言 > 正文

Hudi系列17:离线批量导入

作者：手机用户2502922083 | 来源：互联网 | 2023-07-30 03:09

文章目录一.离线批量导入概述二.数据源准备三.案例1：COW表导入(写checkpoint，并行度:1)3.1FlinkSQL端操作3.2查看任务运行情

文章目录

一. 离线批量导入概述
二. 数据源准备
三. 案例1&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:1)
- 3.1 Flink SQL端操作
- 3.2 查看任务运行情况
四. 案例2&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:4)
- 4.1 Flink SQL 端操作
- 4.2 查看任务运行情况
- 4.2 使用Spark操作hudi表
五. 案例3&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:4)
- 5.1 Flink SQL 端操作
- 5.2 Flink SQL 操作
- 5.3 查看任务运行情况
- 5.3 使用Spark操作hudi表
六. 案例3&＃xff1a;MOR表导入(写checkpoint&＃xff0c;并行度:4)
- 6.1 Flink SQL 端操作
- 6.2 查看任务运行情况

一. 离线批量导入概述

如果存量数据来源于其它数据源&＃xff0c;可以使用批量导入功能&＃xff0c;快速将存量数据导成 Hoodie 表格式。

原理:

批量导入省去了 avro 的序列化以及数据的 merge 过程&＃xff0c;后续不会再有去重操作&＃xff0c; 数据的唯一性需要自己来保证。
bulk_insert 需要在 Batch Execution Mode 下执行更高效&＃xff0c; Batch 模式默认会按照 partition path 排序输入消息再写入 Hoodie, 避免 file handle 频繁切换导致性能下降。

set execution.runtime-mode &＃61; batch; set execution.checkpointing.interval &＃61; 0;

bulk_insert write task 的并发铜鼓哦参数 write.tasks 指定&＃xff0c; 并发的数量会影响到小文件的数量&＃xff0c;理论上&＃xff0c; bulk_insert write task的并发数就是划分的 bucket 数, 当然每个 bucket 在写到文件大小上限(parquet 120 MB) 的时候会 rollover 到新的句柄&＃xff0c;所以最后: 写文件数量 >&＃61; bulk_insert write task数。

二. 数据源准备

建表:

CREATE TABLE &＃96;mysql_cdc&＃96; ( &＃96;id&＃96; int(11) NOT NULL AUTO_INCREMENT, &＃96;name&＃96; varchar(100) DEFAULT NULL, PRIMARY KEY (&＃96;id&＃96;) ) ENGINE&＃61;InnoDB;

写存储过程批量插入数据:

DELIMITER // CREATE PROCEDURE p5() BEGIN declare l_n1 int default 1; while l_n1 <&＃61; 10000000 DO insert into mysql_cdc (id,name) values (l_n1,concat(&＃39;test&＃39;,l_n1)); set l_n1 &＃61; l_n1 &＃43; 1; end while; END; // DELIMITER ;
三. 案例1&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:1)

3.1 Flink SQL端操作

启动yarn session
内存尽量多指定&＃xff0c;不然会包 OOM的错误

$FLINK_HOME/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 & /home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

Flink SQL操作:

set execution.checkpointing.interval&＃61;10sec; CREATE TABLE flink_mysql_cdc8 ( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;mysql-cdc&＃39;, &＃39;hostname&＃39; &＃61; &＃39;hp8&＃39;, &＃39;port&＃39; &＃61; &＃39;3306&＃39;, &＃39;username&＃39; &＃61; &＃39;root&＃39;, &＃39;password&＃39; &＃61; &＃39;abc123&＃39;, &＃39;database-name&＃39; &＃61; &＃39;test&＃39;, &＃39;table-name&＃39; &＃61; &＃39;mysql_cdc&＃39;, &＃39;server-id&＃39; &＃61; &＃39;5409-5415&＃39;, &＃39;scan.incremental.snapshot.enabled&＃39;&＃61;&＃39;true&＃39; ); set sql-client.execution.result-mode&＃61;tableau; select count(*) from flink_mysql_cdc8; CREATE TABLE flink_hudi_mysql_cdc8( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;hudi&＃39;, &＃39;path&＃39; &＃61; &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc8&＃39;, &＃39;table.type&＃39; &＃61; &＃39;COPY_ON_WRITE&＃39;, &＃39;changelog.enabled&＃39; &＃61; &＃39;true&＃39;, &＃39;hoodie.datasource.write.recordkey.field&＃39; &＃61; &＃39;id&＃39;, &＃39;write.precombine.field&＃39; &＃61; &＃39;name&＃39;, &＃39;compaction.async.enabled&＃39; &＃61; &＃39;false&＃39; ); insert into flink_hudi_mysql_cdc8 select * from flink_mysql_cdc8; select count(*) from flink_hudi_mysql_cdc8 ;

3.2 查看任务运行情况

因为设置了10秒钟一次checkpoint&＃xff0c;且并行度为1&＃xff0c;而write.tasks默认为4&＃xff0c;所以很慢&＃xff0c;预估10小时以上。

四. 案例2&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:4)

4.1 Flink SQL 端操作

启动yarn session
内存尽量多指定&＃xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 & /home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

代码:

CREATE TABLE flink_mysql_cdc10 ( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;mysql-cdc&＃39;, &＃39;hostname&＃39; &＃61; &＃39;hp8&＃39;, &＃39;port&＃39; &＃61; &＃39;3306&＃39;, &＃39;username&＃39; &＃61; &＃39;root&＃39;, &＃39;password&＃39; &＃61; &＃39;abc123&＃39;, &＃39;database-name&＃39; &＃61; &＃39;test&＃39;, &＃39;table-name&＃39; &＃61; &＃39;mysql_cdc&＃39;, &＃39;server-id&＃39; &＃61; &＃39;5409-5415&＃39;, &＃39;scan.incremental.snapshot.enabled&＃39;&＃61;&＃39;true&＃39; ); select count(*) from flink_mysql_cdc10; CREATE TABLE flink_hudi_mysql_cdc10( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;hudi&＃39;, &＃39;path&＃39; &＃61; &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc10&＃39;, &＃39;table.type&＃39; &＃61; &＃39;COPY_ON_WRITE&＃39;, &＃39;changelog.enabled&＃39; &＃61; &＃39;true&＃39;, &＃39;hoodie.datasource.write.recordkey.field&＃39; &＃61; &＃39;id&＃39;, &＃39;write.precombine.field&＃39; &＃61; &＃39;name&＃39;, &＃39;compaction.async.enabled&＃39; &＃61; &＃39;false&＃39; ); set &＃39;parallelism.default&＃39; &＃61; &＃39;4&＃39;; insert into flink_hudi_mysql_cdc10 select * from flink_mysql_cdc10; select count(*) from flink_hudi_mysql_cdc9 ;

4.2 查看任务运行情况

3分钟就跑了500W(一半左右的数据)&＃xff0c;性能较之前提升了数十倍

查询报错:

HDFS上的文件也较小:

4.2 使用Spark操作hudi表

连接Spark SQL

# Spark 3.3 spark-sql --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.0 \ --conf &＃39;spark.serializer&＃61;org.apache.spark.serializer.KryoSerializer&＃39; \ --conf &＃39;spark.sql.extensions&＃61;org.apache.spark.sql.hudi.HoodieSparkSessionExtension&＃39; \ --conf &＃39;spark.sql.catalog.spark_catalog&＃61;org.apache.spark.sql.hudi.catalog.HoodieCatalog&＃39;

创建Hudi表:
建表的语法存在差异&＃xff0c;需要进行调整&＃xff0c;有的字段类型都不对应

CREATE TABLE flink_hudi_mysql_cdc10_spark( id int, name varchar(100) ) using hudi location &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc10&＃39;;

查询数据:

select count(*) from flink_hudi_mysql_cdc10_spark;

居然是0&＃xff0c;看来不checkpoint还是不行

五. 案例3&＃xff1a;COW表导入(写checkpoint&＃xff0c;并行度:4)

本来想测试batch的&＃xff0c;经测试&＃xff0c;会报错:

org.apache.flink.table.api.ValidationException: Querying an unbounded table &＃39;default_catalog.default_database.flink_mysql_cdc11&＃39; in batch mode is not allowed. The table source is unbounded.

checkpoint也不能设置为0

Flink SQL> set execution.checkpointing.interval &＃61; 0; [ERROR] Could not execute SQL statement. Reason: java.lang.IllegalArgumentException: Checkpoint interval must be larger than or equal to 10 ms

5.1 Flink SQL 端操作

启动yarn session
内存尽量多指定&＃xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 & /home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

5.2 Flink SQL 操作

set &＃39;parallelism.default&＃39; &＃61; &＃39;4&＃39;; set execution.checkpointing.interval&＃61;600sec; CREATE TABLE flink_mysql_cdc13 ( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;mysql-cdc&＃39;, &＃39;hostname&＃39; &＃61; &＃39;hp8&＃39;, &＃39;port&＃39; &＃61; &＃39;3306&＃39;, &＃39;username&＃39; &＃61; &＃39;root&＃39;, &＃39;password&＃39; &＃61; &＃39;abc123&＃39;, &＃39;database-name&＃39; &＃61; &＃39;test&＃39;, &＃39;table-name&＃39; &＃61; &＃39;mysql_cdc&＃39;, &＃39;server-id&＃39; &＃61; &＃39;5409-5415&＃39;, &＃39;scan.incremental.snapshot.enabled&＃39;&＃61;&＃39;true&＃39; ); CREATE TABLE flink_hudi_mysql_cdc13( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;hudi&＃39;, &＃39;path&＃39; &＃61; &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc13&＃39;, &＃39;table.type&＃39; &＃61; &＃39;COPY_ON_WRITE&＃39;, &＃39;changelog.enabled&＃39; &＃61; &＃39;true&＃39;, &＃39;hoodie.datasource.write.recordkey.field&＃39; &＃61; &＃39;id&＃39;, &＃39;write.precombine.field&＃39; &＃61; &＃39;name&＃39;, &＃39;compaction.async.enabled&＃39; &＃61; &＃39;false&＃39; ); insert into flink_hudi_mysql_cdc13 select * from flink_mysql_cdc13; select count(*) from flink_hudi_mysql_cdc13 ;

5.3 查看任务运行情况

Flink web查看数据更新:
把checkpoint设置为10分钟&＃xff0c;并行度设置为4&＃xff0c;确实快了不少

7分钟左右写完1kw的数据&＃xff08;页面显示有时候有问题&＃xff0c;我提前结束了job&＃xff0c;结果发现数据少了&＃xff09;

上面显示已经同步过来了&＃xff0c;但是其实还没写完&＃xff0c;还需要等checkpoint完成&＃xff0c;不然的话&＃xff0c;数据会丢。

因为Flink一切皆流&＃xff0c;所以后续的对MySQL表的增删改依旧会同步过来&＃xff0c;此处我新增了2条&＃xff0c;看数据已经过来了。

checkpoint也做了

查询数据:
可能是资源影响吧&＃xff0c;我查询数据的时候一直处于等待状态。

5.3 使用Spark操作hudi表

连接Spark SQL

创建Hudi表:
建表的语法存在差异&＃xff0c;需要进行调整&＃xff0c;有的字段类型都不对应

CREATE TABLE flink_hudi_mysql_cdc13_spark( id int, name varchar(100) ) using hudi location &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc13&＃39;;

查询数据:

select count(*) from flink_hudi_mysql_cdc13_spark;

数据没问题了

六. 案例3&＃xff1a;MOR表导入(写checkpoint&＃xff0c;并行度:4)

对于MySQL这种数据源而言&＃xff0c;MOR表更适合&＃xff0c;全量导入后再接增量。

启动yarn session
内存尽量多指定&＃xff0c;不然会包 OOM的错误

/home/flink-1.14.5/bin/yarn-session.sh -jm 8192 -tm 8192 -d 2>&1 & /home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

还是不能使用batch:

[ERROR] Could not execute SQL statement. Reason: org.apache.flink.table.api.ValidationException: Querying an unbounded table &＃39;default_catalog.default_database.flink_mysql_cdc14&＃39; in batch mode is not allowed. The table source is unbounded.

6.1 Flink SQL 端操作

set &＃39;parallelism.default&＃39; &＃61; &＃39;4&＃39;; set execution.checkpointing.interval&＃61;100sec; CREATE TABLE flink_mysql_cdc16 ( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;mysql-cdc&＃39;, &＃39;hostname&＃39; &＃61; &＃39;hp8&＃39;, &＃39;port&＃39; &＃61; &＃39;3306&＃39;, &＃39;username&＃39; &＃61; &＃39;root&＃39;, &＃39;password&＃39; &＃61; &＃39;abc123&＃39;, &＃39;database-name&＃39; &＃61; &＃39;test&＃39;, &＃39;table-name&＃39; &＃61; &＃39;mysql_cdc&＃39;, &＃39;server-id&＃39; &＃61; &＃39;5409-5415&＃39;, &＃39;scan.incremental.snapshot.enabled&＃39;&＃61;&＃39;true&＃39; ); CREATE TABLE flink_hudi_mysql_cdc16( id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED, name varchar(100) ) WITH ( &＃39;connector&＃39; &＃61; &＃39;hudi&＃39;, &＃39;path&＃39; &＃61; &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16&＃39;, &＃39;table.type&＃39; &＃61; &＃39;MERGE_ON_READ&＃39;, &＃39;changelog.enabled&＃39; &＃61; &＃39;true&＃39;, &＃39;hoodie.datasource.write.recordkey.field&＃39; &＃61; &＃39;id&＃39;, &＃39;write.precombine.field&＃39; &＃61; &＃39;name&＃39;, &＃39;compaction.async.enabled&＃39; &＃61; &＃39;false&＃39; ); insert into flink_hudi_mysql_cdc16 select * from flink_mysql_cdc16; select count(*) from flink_hudi_mysql_cdc16 ;

6.2 查看任务运行情况

Flink web
没想到&＃xff0c;MOR的表速度也挺快的&＃xff0c;我最开始用的是小内存&＃xff0c;并行度为1&＃xff0c;然后一直失败和OOM。

HDFS:
全部是log文件&＃xff0c;没有parquet文件

Flink SQL查询数据

select count(*) from flink_hudi_mysql_cdc16;

Spark SQL查询:

# Spark 3.3 spark-sql --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.0 \ --conf &＃39;spark.serializer&＃61;org.apache.spark.serializer.KryoSerializer&＃39; \ --conf &＃39;spark.sql.extensions&＃61;org.apache.spark.sql.hudi.HoodieSparkSessionExtension&＃39; \ --conf &＃39;spark.sql.catalog.spark_catalog&＃61;org.apache.spark.sql.hudi.catalog.HoodieCatalog&＃39; CREATE TABLE flink_hudi_mysql_cdc16_spark( id int, name varchar(100) ) using hudi location &＃39;hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16&＃39;; select count(*) from flink_hudi_mysql_cdc16_spark;

Hive SQL查询:

cd /home/hudi-0.12.0/hudi-sync/hudi-hive-sync ./run_sync_tool.sh --jdbc-url jdbc:hive2:\/\/hp5:10000 --base-path hdfs://hp5:8020/tmp/hudi/flink_hudi_mysql_cdc16 --database test --table flink_hudi_mysql_cdc16 select count(*) from test.flink_hudi_mysql_cdc16_ro;

直接报错

推荐阅读

function
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
php
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
java
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
java
SQL 批量导入时管理外键约束

本文介绍如何在将数据库从服务器复制到本地时，处理因外键约束导致的数据插入失败问题。 ... [详细]

蜡笔小新 2024-11-12 19:05:11
python
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
java
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
schema
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
schema
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
schema
MySQL Undo空间满载的原因及Oracle Undo表空间溢出的解决策略

针对MySQL Undo空间满载及Oracle Undo表空间溢出的问题，本文详细探讨了其原因与解决策略。首先，通过启动SQL*Plus并以SYS用户身份登录数据库，查询当前数据库的UNDO表空间名称，确认当前状态。接着，分析导致Undo空间满载的常见原因，如长时间运行的事务、频繁的更新操作等，并提出相应的解决方案，包括调整Undo表空间大小、优化事务管理、定期清理历史数据等。最后，结合实际案例，提供具体的实施步骤和注意事项，帮助DBA有效应对这些问题。 ... [详细]

蜡笔小新 2024-11-08 10:46:23
java
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
php
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
php
Spring 3.0.5 中获取 MySQL 表的自增主键

本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]

蜡笔小新 2024-11-13 18:00:32
java
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
java
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
java
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26

手机用户2502922083

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章