热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ApacheFlinkML2.1.0发布公告(apachetomcat)

本文主要介绍关于算法,大数据,编程语言,python,机器学习的知识点,对【ApacheFlinkML2.1.0发布公告】和【apachetomcat】有兴趣的朋友可以看下由【Apache

本文主要介绍关于算法,大数据,编程语言,python,机器学习的知识点,对【Apache Flink ML 2.1.0 发布公告】和【apache tomcat】有兴趣的朋友可以看下由【Apache Flink】投稿的技术文章,希望该技术和经验能帮到你解决你所遇的相关技术问题。

apache tomcat

来源|Apache Flink 官方博客 

Apache Flink 社区很荣幸地宣布 Apache Flink ML 2.1.0 版本正式发布!本次发布的版本重点改进了 Flink ML 的基础设施,例如 Python SDK,内存管理,以及性能测试框架,来帮助开发者基于 Flink ML 开发具有高性能,高稳定性,以及高易用性的机器学习算法库。

基于本次发版中提出的改进,以及我们得到的性能测试结果,我们相信 Flink ML 的基础设施已经准备好提供给社区开发者使用,来开发高性能的、支持 Python 环境的机器学习算法库。

我们鼓励您下载该版本[1] 并通过 Flink 邮件列表[2] 或 JIRA[3] 与社区分享您的反馈!我们希望您喜欢新版本,并且我们期待了解您的使用体验。

重要特性

1. 算子接口和基础设施 ■ 1.1 支持算子级别粒度的内存管控

在之前的版本中,机器学习算子的内部状态数据,例如需要被缓存并在每轮迭代中重复读取的训练数据,是被储存在 state backend 中。这些数据之前只能是全量放在内存中,或者全量放在磁盘上。前一种情况,状态数据量大的情况下,可能导致 OOM 和降低作业稳定性。后一种情况,由于每轮迭代会需要从磁盘读取全量数据并且进行反序列化,在状态数据量不大的情况下,性能低于把数据放在内存中的做法。这个问题增加了开发者开发高性能和高稳定性算子的难度。

在本次发版中,我们改进了 Flink ML 的基础设施,允许指定一个算子可以使用的托管内存配额。在算子状态数据量低于配额的情况下,这些状态数据会被存放在 Flink 的管控内存中。当算子状态数据量高于配额时,超出配额的数据会被存放在磁盘上,以避免产生 OOM。算法开发者可以使用这个机制允许算子对于不同的输入数据量,都能提供最佳性能。开发者可以参考 KMeans 算子的代码来学习使用这个机制。

■ 1.2 开发在线训练算法的基础设施的改进

Flink ML 的一个重要目标是推动在线训练算法的发展。在上一个版本中,我们通过提供 setModelData() 和 getModelData() 方法,让在线训练算法的模型数据能以无限数据流的形式被传输和保存,增强了 Flink ML API 对于在线训练算法的支持能力。本次发版进一步改进和验证了 Flink ML 基础设施对于在线训练算法的支持能力。

本次发版添加了 2 个在线训练算法 (i.e. OnlineKMeans and OnlineLogisticRegression),并提供了单元测试,验证和测试了这些算法的正确性。这两个算法引入了 global batch size,模型版本等概念,并提供了指标和接口来设置和读取相应的信息。虽然这两个算法的预测准确率还没经过调优,但是这些工作将帮助我们进一步建立开发在线训练算法的最佳实践。我们希望越来越多的社区贡献者能加入我们,共同完成这个目标。

■ 1.3 算法性能测试框架

一个易于使用的性能测试框架对于开发和维护高性能的 Flink ML 算法库是至关重要的。本次发版添加了一个性能测试框架,支持编写可插拔可复用的数据生成器,可以读入 JSON 格式的配置,并将性能测试结果以 JSON 格式输出,以支持可定制化的性能测试结果可视化分析。我们提供了开箱可用的脚本将性能测试结果转换为图表。感兴趣的读者可以阅读这份文档[4] 来了解如何使用这个测试框架。

2. Python SDK

本次发版增强了 Python SDK 的基础设施,支持 Python 算子调用相应的 Java 算子来完成训练和推理。Python 算子可以提供和 Java 算子相同的性能。这个功能可以极大提升 Python 算法库的开发效率,让算法开发者可以为一套算法同时提供 Python 和 Java 算法库,而无需重复实现算法的核心逻辑。

3. 算法库

本次发版延续之前的算法库开发工作,为多种机器学习算法类别添加了代表性的算法,来验证 Flink ML 基础设施的功能和性能。

以下是本次发版中新增加的算法:

特征工程: MinMaxScaler, StringIndexer, VectorAssembler, StandardScaler, Bucketizer

在线学习: OnlineKmeans, OnlineLogisiticRegression

回归算法: LinearRegression

分类算法: LinearSVC

评估算法: BinaryClassificationEvaluator

为了帮助用户学习和使用 Flink ML 算法库,我们在 Apache Flink ML 网站[5] 上为每个算法提供了相应的 Python 和 Java 样例程序。并且我们提供了每个算法的性能测试配置文件[6] 以支持用户验证 Flink ML 的性能。感兴趣的读者可以阅读这份文档[4] 来了解如何运行这些算法的性能测试。

升级说明

有关升级过程中可能需要做出的调整及确认,请参阅原文发布公告[7]。

发布说明和相关资源

用户可以查看发布说明[8] 来获得修改和新功能的详细列表。源代码可以从 Flink 官网的下载页面[1] 获得,最新的 Flink ML Python 发布可以从 PyPI[9] 获得。

贡献者列表

Apache Flink 社区感谢对此版本做出贡献的每一位贡献者:

Yunfeng Zhou, Zhipeng Zhang, huangxingbo, weibo, Dong Lin, Yun Gao, Jingsong Li and mumuhhh.

参考链接:

[1] https://flink.apache.org/downloads.html

[2] https://flink.apache.org/community.html#mailing-lists

[3] https://issues.apache.org/jira/browse/flink

[4] https://github.com/apache/flink-ml/blob/master/flink-ml-benchmark/README.md

[5] https://nightlies.apache.org/flink/flink-ml-docs-release-2.1/

[6] https://github.com/apache/flink-ml/tree/master/flink-ml-benchmark/src/main/resources

[7] https://flink.apache.org/news/2022/07/12/release-ml-2.1.0.html

[8] https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12351141

[9] https://pypi.org/project/apache-flink-ml

往期精选


▼ 关注「Apache Flink」,获取更多技术干货 ▼

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群~

 

   点击「阅 读原文 ,查看Flink中文学习网

本文《Apache Flink ML 2.1.0 发布公告》版权归Apache Flink所有,引用Apache Flink ML 2.1.0 发布公告需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • 软件测试人员必备的60个测试工具清单,建议收藏一波!
    据统计,中国软件外包市场的潜力和机会已远远超过软件王国印度,不过由于软件人才的严重不足致使我国软件发展遭遇“瓶颈”。国家为了大力培养软件人才࿰ ... [详细]
  • 软件测试黑盒测试实验心得_如何学习软件测试
    1.什么是软件测试软件测试是在测试中识别软件产品和服务的准确性和质量的过程。显然,它的诞生是为了验证产品是否满足客户的特定先决条件、需求和需求。在一天的工作结束前&# ... [详细]
  • 精通编程:自我挑战,解决一系列前端难题
    全文共2457字,预计学习时长7分钟图源:unsplash你是否听过一万小时定律?它指的是,要想成为某方面的大师ÿ ... [详细]
  • 我正在使用AWSAthena查询S3中作为JSON输出的Jira数据。我们的数据具有一个自定义字 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • python限制递归次数(python最大公约数递归)
    本文目录一览:1、python为什么要进行递归限制 ... [详细]
  • 将单条消息的大小设置为大于服务端可以接受的消息大小,模拟发送异常的场景:消息大小1500message.max.bytes1000batch.size16384日志一直刷:[201 ... [详细]
author-avatar
老美1
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有