热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

送5本刚出版的Flink实战书籍!

文末赠书以下内容节选自《Flink实战派》一书!--正文--大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了

文末赠书

以下内容节选自Flink实战派一书!


--正文--

大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破。

在通常情况下,大数据技术与机器学习是互相促进、相依相存的关系。

01

大数据和机器学习之间的关系

机器学习不仅需要合理、适用和先进的算法,还需要依赖足够好和足够多的数据。

大数据可以提高机器学习模型的精确性。

数据的数据量越多,质量越高,机器学习的效率和准确性就越高。机器学习是大数据分析的一个重要方向(方式)。

大数据技术深度结合人工智能将是未来发展的一个重要方向。

大数据实时计算框架Flink结合基于Flink的机器学习库Alink,是目前非常优秀的“大数据+人工智能”解决方案。

  • Flink可以为Alink提供数据预处理、特征识别、样本计算和模型训练等基础功能。

  • Alink基于Flink,可以为Flink提供机器学习算法库。

Flink还可以和目前主流的人工智能框架(如PyTorch、TensorFlow、Kubeflow)结合。

02

Flink是什么?

业界认为,Flink是最好的数据流计算引擎。

为了便于理解Flink是什么,下面以迭代的方法进行定义。

  • Flink是一个开源的分布式大数据处理引擎与计算框架。

  • Flink是一个对无界数据流和有界数据流进行统一处理的、开源的分布式大数据处理引擎与计算框架。

  • Flink是一个能进行有状态或无状态计算的、对无界数据流和有界数据流进行统一处理且开源的分布式大数据处理引擎与计算框架。

Flink可以进行的数据处理包括实时数据处理、特征工程、历史数据(有界数据)处理、连续数据管道应用、机器学习、图表分析、图计算、容错的数据流处理。

Flink在大数据架构中的位置如下图所示。

由上图可以看出,在大数据架构中,Flink用于提供数据计算服务。

Flink先获取数据源的数据,然后进行转换和计算等,最后输出计算结果。

03

Flink的应用场景

Flink的应用场景如下。

  • 事件驱动:利用到来的事件触发计算、状态更新或其他外部动作。比如反欺诈、实时风险控制、异常检测、基于规则的报警、业务流程监控、Web应用。

  • 数据分析:从原始数据中提取有价值的信息和指标。比如电信网络质量监控、移动应用中的产品更新及实验评估和分析、实时数据即席分析、大规模图分析。

  • 数据管道:数据管道和ETL(提取、转换、加载)作业的用途相似,都可以转换、丰富数据,并将其从某个存储系统移动到另一个存储系统中。但数据管道是以持续流模式运行的,而非周期性触发。比如实时查询索引构建、持续ETL作业。

04

认识Alink

Alink是阿里巴巴计算平台事业部PAI团队研发的基于Flink的机器学习框架。

Alink于2019年11月正式开源。

Alink提供了丰富的算法组件,是业界首个同时支持批/流算法的机器学习框架。

开发者利用Alink可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发的全流程。Alink的名称取自相关名称(Alibaba、Algorithm、AI、Flink、Blink)的结合。

05

Flink的整体架构

Flink包含部署层、执行引擎层、核心API层和领域库层。下图是Flink 1.11版本架构所包含的组件。

(1)部署层

Flink支持本地(Local)模式、集群(Cluster)模式等。

(2)执行引擎层

执行引擎层是核心API的底层实现,位于最低层。执行引擎层提供了支持Flink计算的全部核心实现。

执行引擎层的主要功能如下。

  • 分布式流处理。

  • 从作业图(JobGraph)到执行图(ExecutionGraph)的映射、调度等。

  • 为上层的API层提供基础服务。

  • 构建新的组件或算子。

执行引擎层的特点包括以下几点:灵活性高,但开发比较复杂;表达性强,可以操作状态、Time等。

(3)核心API层

核心API层主要对无界数据流和有界数据流进行处理,包括DataStream API和DataSet API,以及实现了更加抽象但是表现力稍差的Table API、SQL。

  • DataStream API:用于处理无界数据,或者以流处理方式来处理有界数据。

  • DataSet API:用于对有界数据进行批处理。用户可以非常方便地使用Flink提供的各种算子对分布式数据集进行处理。DataStream API和DataSet API是流处理应用程序和批处理应用程序的接口,程序在编译时生成作业图。在编译完成之后,Flink的优化器会生成不同的执行计划。根据部署方式的不同,优化之后的作业图将被提交给执行器执行。

  • Table API、SQL:用于对结构化数据进行查询,将结构化数据抽象成关系表,然后通过其提供的类SQL语言的DSL对关系表进行各种查询。

(4) 领域库层

Flink还提供了用于特定领域的库,这些库通常被嵌入在API中,但不完全独立于API。这些库也因此可以继承API的所有特性,并与其他库集成。

在API层之上构建的满足特定应用的实现计算框架(库),分别对应面向流处理和面向批处理这两类。

  • 面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作)。

  • 面向批处理支持:FlinkML(机器学习库)、Alink(新开源的机器学习库)、Gelly(图计算)。

更多实战派,给你一样的精彩!

▊《Flink实战派

龙中华 著

  • 版本较新:针对Flink 1.11版本和Alink 1.2版本。

  • 体例科学:采用“知识点+实例”的形式编写。

  • 实例丰富:47个基础实例 + 1个项目实例。

  • 跨界整合:①讲解了4种开发Flink应用程序的API,即DataSet API、DataStream API、Table API和SQL相关知识;②讲解了状态处理器API、复杂事件处理库,以及常用的消息中间件Kafka;③讲解了大数据和人工智能的结合,以及机器学习框架Alink。

  • 编排讲究:本书涉及的术语尽量做到有迹可循,每一个术语都尽可能在前面的章节中有所描述。章节递进关系清楚,内容顺序合理,从头到尾逻辑连贯。

(京东限时活动,快快扫码抢购吧!)

粉丝福利

点击上方名片,后台回复【Flink】进行抽奖
峰哥送5本《Flink实战派》
--end--
扫描下方二维码
添加好友,备注【交流】可私聊交流,也可进资源丰富学习群更文不易,点个“在看”支持一下????


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 当前物联网领域十大核心技术解析:涵盖哪些关键技术?
    经过近十年的技术革新,物联网已悄然渗透到日常生活中,对社会产生了深远影响。本文将详细解析当前物联网领域的十大核心关键技术,包括但不限于:1. 军事物联网技术,该技术通过先进的感知设备实现战场环境的实时监测与数据传输,提升作战效能和决策效率。其他关键技术还包括传感器网络、边缘计算、大数据分析等,这些技术共同推动了物联网的快速发展和广泛应用。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 图像分割技术在人工智能领域中扮演着关键角色,其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析,探讨了它们在不同应用场景中的优缺点和适用范围,为研究人员和从业者提供了有价值的参考。 ... [详细]
  • 随着人工智能(AI)技术在日常作业与生活中的应用不断扩展,企业对AI系统的依赖也日益加深。为了确保这些系统能够高效、稳定地运行,有效的部署与管理策略变得至关重要。这不仅涉及技术层面的优化,如算法选择和数据处理,还包括组织架构的调整和人才培训等方面,以全面支持AI系统的成功实施与持续运营。 ... [详细]
author-avatar
手机用户2502861123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有