实时计算框架Flink新方向：打造「大数据+AI」未来更多可能

作者：吴国伟60942 | 来源：互联网 | 2023-07-23 12:35

2019-12-2017:57导语：如何将大数据与AI结合自Flink开源以来，越来越多的开发者加入了Flink社区。仅仅2019年&#

2019-12-20 17:57

导语&＃xff1a;如何将大数据与 AI 结合......

自 Flink 开源以来&＃xff0c;越来越多的开发者加入了 Flink 社区。仅仅 2019 年&＃xff0c;Flink 在 GitHub 上的 Star 数量翻了一倍&＃xff0c;Contributor 数量也呈现出持续增长的态势。而它目前在 GitHub 上的访问量&＃xff0c;也位居 Apache 项目中前三&＃xff0c;是 Apache 基金会中最为活跃的项目之一。

Flink 发展如此之快&＃xff0c;除了开源使得更多开发者与企业可以接触与使用之外&＃xff0c;它在 AI 方面的部署也起着很大作用。看似 Flink 的主要应用场景还是数据分析&＃xff0c;但它面向多个 AI 场景&＃xff0c;已经提供了深度学习引擎协同等功能。而对于这一与时俱进的 Flink&＃xff0c;我们也许可以看到更多可能的未来。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

Flink&＃xff1f;Blink&＃xff1f;Alink&＃xff1f;

很多人在谈到 Flink 的时候&＃xff0c;也通常会提 Blink 和 Alink。从名字可以看出&＃xff0c;它们与 Flink 有着很深的联系&＃xff0c;Blink 和 Alink 都是基于 Flink 而得。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

Flink 状态计算中的数据流

Flink

Flink 是欧洲的一个大数据研究项目&＃xff0c;早期专注于批计算&＃xff0c;再到后来 Flink 发展成为了 Apache 的顶级大数据项目。

具体而言&＃xff0c;Flink 擅长处理无边界和有边界的数据集。对时间和状态的精确控制使 Flink 的运行时能够在无限制的流上运行任何类型的应用程序。有界流由专门为固定大小的数据集设计的算法和数据结构在内部进行处理。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

Flink 架构

其核心是一个流式的数据流执行引擎&＃xff0c;能够基于同一个 Flink 运行时&＃xff0c;提供支持流处理和批处理两种类型应用。它在运行时的架构主要包含几个部分&＃xff1a;Client、JobManager(master 节点) 和 TaskManger(slave 节点)&＃xff0c;是一个高效和分布式的通用数据处理平台。

更多信息&＃xff1a;

https://flink.apache.org/

Blink

Blink 是阿里在 2018 年推出的内部改良 Flink&＃xff0c;主要针对业务场景需求&＃xff0c;做了如下几个优化&＃xff1a;

 优化了集群调度策略使得 Blink 能够更好更合理地利用集群资源&＃xff1b;
 优化了 checkpoint 机制&＃xff0c;使得 Blink 能够很高效地处理拥有很大状态的 job&＃xff1b;
 优化了 failover 的策略&＃xff0c;使得 job 在异常的时候能够更快恢复&＃xff0c;从而对业务延迟造成更少的影响&＃xff1b;
 设计了异步算子&＃xff0c;使得 Blink 能够在即使被读取外部数据阻塞的同时还能继续处理其他 event&＃xff0c;从而获得整体非常高的吞吐率。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

一个典型的 Blink workflow 示意图

目前&＃xff0c;Blink 已开放给开源社区。今年 8 月发布的 Flink 1.9.0 是阿里内部版本 Blink 合并入 Flink 后的首次发版&＃xff0c;在今天的 Flink Forward 2019 大会上&＃xff0c;阿里发布了 Flink 1.10 版本功能前瞻&＃xff0c;正式版本预计于 2020 年 1 月发布。

Alink

而 Alink 则是基于 Flink 的机器学习算法库&＃xff0c;由阿里云机器学习 PAI 团队开发。除了支持阿里的平台外&＃xff0c;还支持 Kafka&＃xff0c;HDFS 和 HBase 等一系列开源数据存储平台。

这是一套分布式、批流一体的机器学习算法库&＃xff0c;它既非常好地利用了 Flink 批流一体的计算能力以及在机器学习基础设施上的一些优势&＃xff0c;又结合了一些业务场景需求&＃xff0c;在机器学习方面有很强的性能。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

开发者和数据分析师可以利用开源代码来构建软件功能&＃xff0c;例如统计分析、机器学习、实时预测、个性化推荐和异常检测。而 Alink 提供的一系列算法&＃xff0c;可以帮助处理机器学习任务&＃xff0c;例如 AI 驱动的客户服务和产品推荐。

近日&＃xff0c;阿里云计算部门已在 GitHub 上发布了其 Alink 平台的「核心代码」&＃xff0c;并上传了一系列算法库&＃xff0c;支持批处理和流处理&＃xff0c;有利于机器学习相关任务。

更多信息&＃xff1a;

https://developer.aliyun.com/article/738040?utm_content&＃61;g_1000092211

携 AI 前行的 Flink

近年来&＃xff0c;AI 场景发展得如火如荼&＃xff0c;同时其计算规模也越来越大。这也让专注于数据处理的 Flink 有了较大的发展空间。

在 Flink 社区对 AI 的大力支持下&＃xff0c;Flink 机器学习方面开发了支持 AI 场景&＃xff0c;以及和 AI 原生的深度学习引擎实现协同&＃xff0c;例如&＃xff1a; Flink &＃43; TensorFlow、Flink &＃43; PyTorch 等&＃xff0c;并提供大数据&＃43;AI 的全链路解决方案。

ML Pipeline

2019 年&＃xff0c;Flink 在 AI 方面首先部署了机器学习基础设施&＃xff0c;第一件事情便实现了 Flink ML Lib 的基础 API&＃xff0c;即 ML Pipeline。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

ML Pipeline 的核心是机器学习的流程&＃xff0c;其中的核心概念包含 Transformer、Estimator、Model 等。Flink 机器学习算法的开发人员可以使用这套 API 去开发不同的 Transformer、Estimator、Model&＃xff0c;并实现各种经典的机器学习算法。

同时&＃xff0c;基于 ML Pipeline 这套 API 还能够自由组合组件来构建机器学习的训练流程和预测流程。

Python 支持

对于 AI 算法的开发人员而言&＃xff0c;目前主流的语言即为 Python。因此&＃xff0c;Flink 对于 Python 的支持也尤为重要。

在 2019 年&＃xff0c;Flink 社区也投入了大量的资源来完善 Flink 的 Python 生态&＃xff0c;并开发了 PyFlink 项目&＃xff1b;与此同时&＃xff0c;也在 Flink 1.9 版本中实现了 Python 对于 Table API 的支持。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

除此之外&＃xff0c;Flink 1.10 版本还重点支持了 Python UDF 特性。这个部分直接使用成熟的框架&＃xff0c;Flink 社区与 Beam 社区之间开展了良好的合作&＃xff0c;并使用了 Beam 的 Python 资源&＃xff0c;比如&＃xff1a;SDK、Framework 以及数据通信格式等。

Alink 的开放

据相关数据显示&＃xff0c;将 Alink 与主流的机器学习算法库进行对比&＃xff0c;它不仅能够支持批式训练的机器学习场景&＃xff0c;也能够支持在线的机器学习场景。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

而 Alink 在离线的机器学习场景下与主流的 Spark ML 的对比显示&＃xff0c;其在功能集合上所有算法基本一致。

在性能对比方面&＃xff0c;Alink 和 Spark ML 在离线训练场景下的性能基本在一个水平线上。但 Alink 支持部分算法通过流式方法进行计算&＃xff0c;更好地实现在线机器学习。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

AI Flow

另外&＃xff0c;AI 部分的新项目——AI Flow 也值得关注。AI Flow 是大数据及 AI 的处理流程平台&＃xff0c;在 AI Flow 中定义不同数据之间的关系以及元数据格式等就能够非常方便地搭建一套大数据及 AI 处理的流程。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

整个 Workflow 并不绑定某一引擎或者平台&＃xff0c;但是用户可以借助 Flink 批流一体的能力去搭建自己的大数据及 AI 解决方案。目前&＃xff0c;AI Flow 项目正在准备中&＃xff0c;预计将于明年的第一季度以与 Alink 相同的模式进行开源。

Apache Flink 未来计划

如今&＃xff0c;Flink 的主要应用场景基本上还是数据分析&＃xff0c;尤其是实时数据分析。Flink 本质上是一款流式数据处理引擎&＃xff0c;覆盖的场景主要是实时数据分析、实时风控、实时 ETL 处理等。未来&＃xff0c;社区希望 Flink 演化成为统一的数据引擎。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

 在离线数据处理方面&＃xff0c;希望 Flink 能够在流数据处理的基础之上进一步实现批与流的统一&＃xff0c;提供统一的数据处理和分析的解决方案。
 另一方面&＃xff0c;朝着在线数据分析处理的方向演进&＃xff0c;即利用 Flink 的核心优势、Event-Driven Function 的能力以及 Flink 自带的状态管理等特性实现在线的函数计算。

而对于 Alink&＃xff0c;未来 Flink 社区希望使用新开发的 Alink 的算法&＃xff0c;逐渐替换掉原有的一套机器学习算法库 FlinkML 的算法&＃xff0c;并期待着 Alink 成为新一代版本的 FlinkML。

但由于 Alink 包含了非常多的机器学习算法&＃xff0c;预计往 Flink 贡献或发布的时候整个过程耗时会比较长&＃xff0c;所以 Alink 已经单独开源&＃xff0c;大家如果有需要的可以先用起来。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

PyAlink 在 notebook 中使用示例

后面贡献进展比较顺利的情况下&＃xff0c;Alink 应该能完全合并到 FlinkML&＃xff0c;也就是直接进入 Flink 生态的主干&＃xff0c;这时 FlinkML 就可以跟 SparkML 完全对应起来。

当然&＃xff0c;在未来 Flink 也会进一步完善对于 Python API 和 UDF 的支持&＃xff0c;在 ML Pipeline 上更多地支持 Python&＃xff0c;同时也希望引入更多成熟的 Python 库。

实时计算框架 Flink 新方向&＃xff1a;打造「大数据&＃43;AI」未来更多可能

Github 开源地址&＃xff1a;

https://github.com/alibaba/Alink

https://github.com/apache/flink

推荐阅读

python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
python
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
python
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
spring
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
format
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
spring
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
python
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
spring
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
spring
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
java
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
java
业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？

业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？ ... [详细]

蜡笔小新 2024-11-06 17:18:07
less
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
less
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
get
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34

吴国伟60942

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章