ApacheFlinkTableAPI的Catalog

作者：kiki俏佳人2502909673 | 来源：互联网 | 2023-07-01 14:14

一文了解ApacheFlinkCa

“ Apache Flink的Table API提供了对数据注册为Table的方式，实现把数据通过SQL的方式进行计算。Table API与SQL API实现了Apache Flink的批流统一的实现方式。Table API与SQL API的核心概念就是TableEnviroment。TableEnviroment对象提供方法注册数据源与数据表信息。那么数据源与数据表的信息则存储在CataLog中。所以，CataLog是TableEnviroment的重要组成部分。”

Apache Flink在获取TableEnviroment对象后，可以通过Register实现对数据源与数据表进行注册。注册完成后数据库与数据表的原信息则存储在CataLog中。CataLog中保存了所有的表结构信息、数据目录信息等。

内部CataLog注册

内部Table注册
通过TableEnviroment的Register接口对数据进行注册。TableEnviroment的registerTable包含两个参数("tableName",table)。tableName就是注册在CataLog中的表名。第二个参数table则是对应的Table对象。Table则是由TableEnviroment生成得来或者是通过DataSet、DataStream转换的来。

... tableEnv.registerDataSet("USER",dataset,'name,'age) val result = tableEnv.sqlQuery("SELECT name,sum(age) FROM `USER` GROUP BY name") //使用Table对象注册Table tableEnv.registerTable("TABLE_RES",table) //输出注册的Table中的内容 tableEnv.sqlQuery("SELECT * FROM `TABLE_RES`").toDataSet[Row].print() ...

TableSource注册
通过TableSource对数据外部的数据源注册为Table数据结构。例如常见的有csv，Text，Parquet等文件格式。例如下代码，通过外部csv数据源注册为Table数据。然后可以通过SQL API对数据进行检索。

val env = StreamExecutionEnvironment.getExecutionEnvironment val tableEnv = StreamTableEnvironment.create(env) //使用CSV的方式进行注册表结构. // 参数(path:数据的路径地址,fieldNames:字段名称,fieldTypes:字段类型,fieldDelim:csv分隔符,rowDelim:行分割方式) val csvTableSource:CsvTableSource =new CsvTableSource("../datas.csv",Array("exitcode","count"),Array(Types.STRING,Types.INT),",","\n") tableEnv.registerTableSource("csv",csvTableSource)

以上使用的是StreamExecutionEnvironment进行的处理，当然也可以使用Batch的方式对数据进行注册可以自己进行尝试。

TableSink注册
当数据处理、计算完成后就需要写入到外部的数据中。外部数据包括文本(CSV、Apache[Parquet、ORC、Avro])、数据库、KV库、消息队列等。Apche Flink通过Table Sink用于支持常见的数据存储格式与存储系统。

val csvPath = "D:/flink.csv" val fieldNames = Array[String]("user","age") val fieldTypes = Array[TypeInformation[_]](Types.STRING,Types.INT) val csvSink:CsvTableSink = new CsvTableSink(csvPath,",") tableEnv.registerTableSink("csv",fieldNames,fieldTypes,csvSink) tableEnv.sqlQuery("SELECT * FROM `USER` ").insertInto("csv")

外部CataLog注册

Apache Flink除了实现内部的CataLog作为所有Table的元数据存储介质之外还可以把CataLog放到其他的存储介质中。外部的CataLog可以自定义实现，然后在TableEnvironment中注册实现。Apache Flink官方提供了InMemoryCataLog的实现，开发者可以参考来实现其他的存储介质的CataLog。

val memoryCataLog:ExternalCatalog = new InMemoryExternalCatalog("UserCataLog") tableEnv.registerExternalCatalog("user",memoryCataLog)

以上为Apache Flink的CataLog的实现。阿里云Blink中对CataLog进行了重构，并且增加了两种cataLog。一种是基于内存的InMemoryCataLog，另外一种是能够桥接Hive metaStore的Hive CataLog。使Flink能够直接读取Hive的metaStore信息，打通Hive的数据连接。

⬇⬇⬇ 你好,我是CainGao。一线大数据开发者，关注我一起交流场景实现 ⬇⬇⬇

推荐阅读

default
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
default
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
default
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
int
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
java
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
default
汇集开发者必备的实用参考网站与链接资源

为开发者提供了一系列实用的参考网站和资源链接，包括HTML速查手册（和），帮助开发者快速查找和学习相关技术知识。此外，还涵盖了其他重要的开发工具和文档，为编程工作提供全面支持。 ... [详细]

蜡笔小新 2024-11-08 12:23:08
int
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
int
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
int
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
java
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
python
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
default
掌握MySQL数据库的基础语法与核心操作

本文详细介绍了MySQL数据库的基础语法与核心操作，涵盖从基础概念到具体应用的多个方面。首先，文章从基础知识入手，逐步深入到创建和修改数据表的操作。接着，详细讲解了如何进行数据的插入、更新与删除。在查询部分，不仅介绍了DISTINCT和LIMIT的使用方法，还探讨了排序、过滤和通配符的应用。此外，文章还涵盖了计算字段以及多种函数的使用，包括文本处理、日期和时间处理及数值处理等。通过这些内容，读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]

蜡笔小新 2024-11-11 23:39:51
int
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
int
【源自百度知识】批处理技术详解与应用

本文详细介绍了批处理技术的基本概念及其在实际应用中的重要性。首先，对简单的批处理内部命令进行了概述，重点讲解了Echo命令的功能，包括如何打开或关闭回显功能以及显示消息。如果没有指定任何参数，Echo命令会显示当前的回显设置。此外，文章还探讨了批处理技术在自动化任务执行、系统管理等领域的广泛应用，为读者提供了丰富的实践案例和技术指导。 ... [详细]

蜡笔小新 2024-11-09 10:19:25
int
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56

kiki俏佳人2502909673

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章