基于Spark和TensorFlow的机器学习实践是怎么样的

作者：怪兽锅锅PENGL | 来源：互联网 | 2023-09-01 14:36

这篇文章给大家介绍基于Spark和TensorFlow的机器学习实践是怎么样的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。EMRE-Lea

这篇文章给大家介绍基于Spark和TensorFlow 的机器学习实践是怎么样的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

EMR E-Learning平台

EMR E-Learning平台基于的是大数据和AI技术，通过算法基于历史数据来构建机器学习模型，从而进行训练与预测。目前机器学习被广泛应用到很多领域，如人脸识别、自然语言处理、推荐系统、计算机视觉等。近年来，大数据以及计算能力的提升，使得AI技术有了突飞猛进的发展。

机器学习中重要的三要素是算法、数据和算力。而EMR本身是一个大数据平台，平台之上拥有多种数据，比如传统的数据仓库数据、图像数据；EMR有很强的调度能力，可以很好地吊调度GPU和CPU资源；其结合机器学习算法，就可以成为一个比较好的AI平台。

典型的AI开发流程如下图所示：首先是数据收集，手机、路由器或者日志数据进入大数据框架Data Lake；然后是数据处理，收集到的数据需要通过传统的大数据ETL或特征工程进行处理；其次是模型训练，经过特征工程或ETL处理后的数据会进行模型的训练；最后对训练模型进行评估和部署；模型预测的结果会再输入到大数据平台进行处理分析，整个过程循环往复。

下图展示了AI开发的流程，左侧是单机或者集群，主要进行AI训练和评估，包含数据存储；右侧是大数据存储，主要进行大数据处理，如特征工程等，同时可以利用左侧传输的机器学习模型进行预测。
AI开发的现状主要有以下两点：
• 两套集群运维复杂：从图中可以看出，AI开发涉及的两套集群是分离的，需要单独维护，运维成本复杂，容易出错。
• 训练效率较低：左右两侧集群需要大量数据传输和模型传输，带来较高的端到端训练的延迟。

EMR作为统一的大数据平台，包含了很多特性。最底层基础设施层，其支持GPU和CPU机器；数据存储层包括HDFS和阿里云OSS；数据接入层包括Kafka和Flume；资源调度层计算引擎包括 YARN、K8S和Zookeeper；计算引擎最核心的是E-learning平台，基于目前比较火的开源系统Spark，这里的Spark用的是jindo Spark，是EMR团队基于Spark改造和优化而推出的适用于AI场景下的版本，除此之外，还有PAI TensorFlow on Spark；最后是计算分析层，提供了数据分析、特征工程、AI训练以及Notebook的功能，方便用户来使用。
EMR平台的特性主要有以下几点：
• 统一的资源管理与调度：支持CPU、Mem和GPU的细粒度的资源调度和分配，支持YARN和K8S的资源调度框架；
• 多种框架支持：包括TensorFlow、MXNet和Caffe等；
• Spark通用的数据处理框架：提供Data Source API来方便各类数据源的读取，MLlib pipeline广泛用于特征工程；
• Spark+深度学习框架：Spark和深度学习框架的集成支持，包括高效的Spark和TensorFlow之间的数据传输，Spark资源调度模型支持分布式深度学习训练；
• 资源监控与报警：EMR APM系统提供完善的应用程序和集群监控多种报警方式；
• 易用性：Jupyter notebook以及Python多环境部署支持，端到端机器学习训练流程等。

EMR E-Learning集成了PAI TensorFlow，其支持对深度学习的优化和对大规模稀疏场景的优化。
TensorFlow on Spark
经过市场调研发现，大多数的客户在深度学习之前的数据ETL和特征工程阶段使用的都是开源计算框架Spark，之后的阶段广泛使用的是TensorFlow,因此就有了将TensorFlow和Spark有机结合的目标。TensorFlow on Spark主要包含了下图中的六个具体设计目标。

TensorFlow on Spark从最底层来讲实际上是PySpark应用框架级别的封装。框架中实现的主要功能包括：首先调度用户特征工程任务，然后再调度深度学习TensorFlow任务，除此之外还需要将特征工程的数据高效快速地传输给底层的PAI TensorFlow Runtime进行深度学习和机器学习的训练。由于Spark目前不支资源的异构调度，假如客户运行的是分布式TensorFlow，就需要同时运行两个任务（Ps任务和Worker任务），根据客户需求的资源来产生不同的Spark executor，Ps任务和Worker任务通过Zookeeper来进行服务注册。框架启动后会将用户写的特征工程任务调度到executor中执行，执行后框架会将数据传输给底层的PAI TensorFlow Runtime进行训练，训练结束后会将数据保存到Data Lake中，方便后期的模型发布。
在机器学习和深度学习中，数据交互是可以提升效率的点，因此在数据交互部分，TensorFlow on Spark做了一系列优化。具体来讲采用了Apache Arrow进行高速数据传输，将训练数据直接喂给API TensorFlow Runtime,从而加速整个训练流程。
TensorFlow on Spark的容错机制如下图所示：最底层依赖TensorFlow的Checkpoints机制，用户需要定时的将训练模型Chenpoint到Data Lake中。当重新启动一个TensorFlow的时候，会读取最近的Checkpoint进行训练。容错机制会根据模式不同有不同的处理方式，针对分布式任务，会启动Ps和Worker任务，两个任务直接存在daemon进程，监控对应任务运行情况；对于MPI任务，通过Spark Barrier Execution机制进行容错，如果一个task失败，会标记失败并重启所有task，重新配置所有环境变量；TF任务负责读取最近的Checkpoint。
TensorFlow on Spark的功能和易用性主要体现在以下几点：
• 部署环境多样：支持指定conda，打包python运行时virtual env 支持指定docker
• TensorFlow 架构支持：支持分布式TensorFlow原生PS架构和分布式Horovod MPI架构
• TensorFlow API支持：支持分布式TensorFlow Estimator高阶API和分布式TensorFlow Session 低阶API
• 快速支持各种框架接入：可以根据客户需求加入新的AI框架，如MXNet

EMR客户有很多来自于互联网公司，广告和推送的业务场景比较常见，下图是一个比较典型的广告推送业务场景。整个流程是EMR客户通过Kafka将日志数据实时推送到Data Lake中，TensorFlow on Spark负责的是上半部分流程，其中可以通过Spark的工具如SparkSQL、MLlib等对实时数据和离线数据进行ETL和特征工程，数据训练好之后可以通过TensorFlow 框架高效地喂给PAI TensorFlow Runtime进行大规模训练和优化，然后将模型存储到Data Lake中。
在API层面，TensorFlow on Spark提供了一个基类，该基类中包含了三个方法需要用户去实现：pre_train、shutdown和train。pre_train是用户需要做的数据读取、ETL和特征工程等任务，返回的是Spark的DataFrame对象；shutdown方法实现用户长连接资源的释放；train方法是用户之前在TensorFlow中实现的代码，如模型、优化器、优化算子的选择。最后通过pl_submit命令来提交TensorFlow on Spark的任务。
FM是一个比较常见的推荐算法，具体场景是给电影评分，根据客户对之前电影评分、电影类型和发布时间为用户推荐潜在的电影。左侧是一个特征工程，用户可以使用Spark data source API读取电影和评分信息，原生支持Spark所有操作，如join、ETL处理等；右侧是TensorFlow，进行模型、优化器的选择。

关于基于Spark和TensorFlow 的机器学习实践是怎么样的就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

推荐阅读

list
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
filter
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
java
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
config
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
config
SQL Server 连接故障总结与解决方案分析

在使用 SQL Server 时，连接故障是用户最常见的问题之一。通常，连接 SQL Server 的方法有两种：一种是通过 SQL Server 自带的客户端工具，例如 SQL Server Management Studio；另一种是通过第三方应用程序或开发工具进行连接。本文将详细分析导致连接故障的常见原因，并提供相应的解决策略，帮助用户有效排除连接问题。 ... [详细]

蜡笔小新 2024-11-07 08:30:13
config
这篇文章 | 夕阳下的防火墙命令全解

这篇文章 | 夕阳下的防火墙命令全解 ... [详细]

蜡笔小新 2024-11-06 19:26:07
config
网络通信基础：互联网协议（IP）详解

互联网协议（IP）作为TCP/IP协议栈的核心组成部分，主要负责提供一种无连接且不可靠的数据包传输服务。这意味着IP并不确保数据包能够成功抵达目标地址，而是尽力而为地进行传输。此外，IP协议在数据传输过程中不维护任何连接状态，每个数据包独立处理，确保了网络的高效性和灵活性。 ... [详细]

蜡笔小新 2024-10-31 14:39:22
java
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05
java
面部识别技术面临关键转折点：伦理与应用的平衡挑战

面部识别技术正面临一个关键的转折点，其伦理与应用之间的平衡问题日益凸显。近日，该技术再次遭遇重大事件。本周二，由90个倡议组织组成的联盟发布了一份联合声明，呼吁全球范围内暂停使用面部识别技术，直到制定出明确的监管框架。这一举措反映了社会各界对隐私保护和技术滥用的担忧，同时也引发了关于如何在保障公共安全和维护个人隐私之间找到合理平衡的广泛讨论。 ... [详细]

蜡笔小新 2024-10-26 21:02:36
java
利用TensorFlow.js在网页浏览器中实现高效的人脸识别JavaScript接口

作者|VincentMühle编译|姗姗出品|人工智能头条（公众号ID：AI_Thinker）【导读】随着深度学习方法的应用，浏览器调用人脸识别技术已经得到了更广泛的应用与提升。在 ... [详细]

蜡笔小新 2024-10-23 10:50:38
java
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
js
Spark MLlib 之 Basic Statistics

SparkMLlib提供了一些基本的统计学的算法，下面主要说明一下：1、Summarystatistics对于RDD[Vector]类型，SparkMLlib提供了colStats ... [详细]

蜡笔小新 2024-10-15 12:46:50
java
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30
config
5分钟搭建 vite + vue3 工程，简单，实用！

大厂技术高级前端Node进阶点击上方程序员成长指北，关注公众号回复1，加入高级Node交流群介绍本文主要介绍vitevue3vue-router4vue ... [详细]

蜡笔小新 2024-10-12 18:37:09
config
简述hdfs工作原理_HDFS原理概念扫盲

1、概述hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候࿰ ... [详细]

蜡笔小新 2024-10-12 13:16:56

怪兽锅锅PENGL

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章