paddlejava_PaddlePaddle核心架构深入解读

作者：捕风的水中龙_106 | 来源：互联网 | 2023-05-21 13:19

PaddlePaddle(中文名：飞桨，PArallelDistributedDeepLEarning并行分布式深度学习)是一个深度学习平台࿰

PaddlePaddle(中文名&＃xff1a;飞桨&＃xff0c;PArallel Distributed Deep LEarning 并行分布式深度学习)是一个深度学习平台&＃xff0c;具有易用、高效、灵活和可伸缩等特点&＃xff0c;它是中国第一个开源深度学习开发框架。

飞桨框架的核心技术&＃xff0c;主要包括前端语言、组网编程范式、核心架构、算子库以及高效率计算核心五部分。下边分别分析这几部分。

核心架构

飞桨核心架构采用分层设计&＃xff0c;如下图所示&＃xff0c;前端应用层考虑灵活性&＃xff0c;采用Python实现&＃xff0c;包括了组网 API、IO API、OptimizerAPI和执行 API等完备的开发接口&＃xff1b;框架底层充分考虑性能&＃xff0c;采用C&＃43;&＃43;来实现。

框架内核部分&＃xff0c;主要包含执行器、存储管理和中间表达优化&＃xff1b;内部表示方面&＃xff0c;包含网络表示(ProgramDesc)、数据表示(Variable)和计算表示(Operator)几个层面。框架向下对接各种芯片架构&＃xff0c;可以支持深度学习模型在不同异构设备上的高效运行。

前端语言

为了方便用户使用&＃xff0c;飞桨选择Python作为模型开发和执行调用的主要前端语言&＃xff0c;并提供了丰富的编程接口API。Python作为一种解释型编程语言&＃xff0c;代码修改不需要重新编译就可以直接运行&＃xff0c;使用和调试非常方便&＃xff0c;并且拥有丰富的第三方库和语法糖&＃xff0c;拥有众多的用户群体。

同时为了保证框架的执行效率&＃xff0c;飞桨底层实现采用C&＃43;&＃43;。对于预测推理&＃xff0c;为方便部署应用&＃xff0c;则同时提供了C&＃43;&＃43;和Java API。

组网编程范式

飞桨中同时兼容命令式编程(动态图)与声明式编程(静态图)两种编程范式&＃xff0c;以程序化“Program”的形式动态描述神经网络模型计算过程&＃xff0c;并提供对顺序、分支和循环三种执行结构的支持&＃xff0c;可以组合描述任意复杂的模型&＃xff0c;并可在内部自动转化为中间表示的描述语言。

“Program”的定义过程就像在写一段通用程序&＃xff0c;使用声明式编程时&＃xff0c;相当于将“Program”先编译再执行&＃xff0c;可类比静态图模式。

首先根据网络定义代码构造“Program”&＃xff0c;然后将“Program”编译优化&＃xff0c;最后通过执行器执行“Program”&＃xff0c;具备高效性能&＃xff1b;同时由于存在静态的网络结构信息&＃xff0c;能够方便地完成模型的部署上线。

而命令式编程&＃xff0c;相当于将“Program”解释执行&＃xff0c;可视为动态图模式&＃xff0c;更加符合用户的编程习惯&＃xff0c;代码编写和调试也更加方便。

飞桨后面会增强静态图模式下的调试功能&＃xff0c;方便开发调试&＃xff1b;同时提升动态图模式的运行效率&＃xff0c;加强动态图自动转静态图的能力&＃xff0c;快速完成部署上线&＃xff1b;同时更加完善接口的设计和功能&＃xff0c;整体提升框架易用性。

显存管理

飞桨为用户提供简单易用、兼顾显存回收与复用的显存优化策略&＃xff0c;在很多模型上的表现优异。

显存分配机制

原生的CUDA系统调用(cudaMalloc)和释放(cudaFree)均是同步操作&＃xff0c;非常耗时。为了加速显存分配&＃xff0c;飞桨实现了显存预分配的策略&＃xff0c;具体方式如下图所示。

设置一个显存池chunk&＃xff0c;定义其大小为chunk_size。若分配需求requested_size不超过chunk_size&＃xff0c;则框架会预先分配chunk_size大小的显存池chunk&＃xff0c;并从中分出requested_size大小的块返回。

之后每次申请显存都会从chunk中分配。若requested_size大于chunk_size&＃xff0c;则框架会调用cudaMalloc分配requested_size大小的显存。chunk_size一般依据初始可用显存大小按比例确定。

同时飞桨也支持按实际显存占用大小的动态自增长的显存分配方式&＃xff0c;可以更精准地控制显存使用&＃xff0c;以节省对显存占用量&＃xff0c;方便多任务同时运行。

显存垃圾及时回收机制

显存垃圾及时回收机制GC(Garbage Collection)的原理是在网络运行阶段释放无用变量的显存空间&＃xff0c;达到节省显存的目的。

GC策略会积攒一定大小的显存垃圾后再统一释放。GC内部会根据变量占用的显存大小&＃xff0c;对变量进行降序排列&＃xff0c;且仅回收前面满足占用大小阈值以上的变量显存。GC策略默认生效于使用Executor或Parallel Executor做模型训练预测时。

Operator内部显存复用机制

Operator内部显存复用机制(Inplace)的原理是Operator的输出复用Operator输入的显存空间。例如&＃xff0c;数据整形(reshape)操作的输出和输入可复用同一片显存空间。

Inplace策略可通过构建策略(BuildStrategy)设置生效于Parallel Executor的执行过程中。

算子库

飞桨算子库目前提供了500余个算子&＃xff0c;并在持续增加&＃xff0c;能够有效支持自然语言处理、计算机视觉、语音等各个方向模型的快速构建。同时提供了高质量的中英文文档&＃xff0c;更方便国内外开发者学习使用。文档中对每个算子都进行了详细描述&＃xff0c;包括原理介绍、计算公式、论文出处&＃xff0c;详细的参数说明和完整的代码调用示例。

飞桨的算子库覆盖了深度学习相关的广泛的计算单元类型。比如提供了多种循环神经网络(Recurrent Neural Network&＃xff0c;RNN)&＃xff0c;多种卷积神经网络(Convolutional Neural Networks&＃xff0c; CNN)及相关操作&＃xff0c;如深度可分离卷积(Depthwise Deparable Convolution)、空洞卷积(Dilated Convolution)、可变形卷积(Deformable Convolution)、池化兴趣区域池化及其各种扩展、分组归一化、多设备同步的批归一化。

另外涵盖多种损失函数和数值优化算法&＃xff0c;可以很好地支持自然语言处理的语言模型、阅读理解、对话模型、视觉的分类、检测、分割、生成、光学字符识别(Optical Character Recognition&＃xff0c;OCR)、OCR检测、姿态估计、度量学习、人脸识别、人脸检测等各类模型。

飞桨的算子库除了在数量上进行扩充之外&＃xff0c;还在功能性、易用性、便捷开发上持续增强。

例如针对图像生成任务&＃xff0c;支持生成算法中的梯度惩罚功能&＃xff0c;即支持算子的二次反向能力&＃xff1b;而对于复杂网络的搭建&＃xff0c;将会提供更高级的模块化算子&＃xff0c;使模型构建更加简单的同时也能获得更好的性能&＃xff1b;对于创新型网络结构的需求&＃xff0c;将会进一步简化算子的自定义实现方式&＃xff0c;支持Python算子实现&＃xff0c;对性能要求高的算子提供更方便的、与框架解耦的C&＃43;&＃43;实现方式&＃xff0c;可使得开发者快速实现自定义的算子&＃xff0c;验证算法。

高效率计算核心

飞桨对核心计算的优化&＃xff0c;主要体现在以下两个层面。

Operator粒度层面

飞桨提供了大量不同粒度的Operator(Op)实现。细粒度的Op能够提供更好的灵活性&＃xff0c;而粗粒度的Op则能提供更好的计算性能。

飞桨提供了诸如softmax_with_cross_entropy等组合功能Op&＃xff0c;也提供了像fusion_conv_inception、fused_elemwise_activation等融合类Operator。

其中大部分普通Op&＃xff0c;用户可以直接通过Python API配置使用&＃xff0c;而很多融合的Op&＃xff0c;执行器在计算图优化的时候将会自动进行子图匹配和替换。

核函数实现层面

飞桨主要通过两种方式来实现对不同硬件的支持&＃xff1a;人工调优的核函数实现和集成供应商优化库。

针对CPU平台&＃xff0c;飞桨一方面提供了使用指令Intrinsic函数和借助于xbyak JIT汇编器实现的原生Operator&＃xff0c;深入挖掘编译时和运行时性能。

另一方面&＃xff0c;飞桨通过引入OpenBLAS、Intel® MKL、Intel® MKL-DNN 和nGraph&＃xff0c;对Intel CXL等新型芯片提供了性能保证。

针对GPU平台&＃xff0c;飞桨既为大部分Operator用CUDA C实现了经过人工精心优化的核函数&＃xff0c;也集成了cuBLAS、cuDNN等供应商库的新接口、新特性。

推荐阅读

include
PHP应用性能优化实战指南：从理论到实践的全面解析

在《PHP应用性能优化实战指南：从理论到实践的全面解析》一文中，作者分享了一次实际的PHP应用优化经验。文章回顾了先前进行的一次优化项目，指出即使系统运行时间较长后出现的各种问题和性能瓶颈，通过采用一些通用的优化策略仍然能够有效解决。文中不仅详细阐述了优化的具体步骤和方法，还结合实例分析了优化前后的性能对比，为读者提供了宝贵的参考和借鉴。 ... [详细]

蜡笔小新 2024-10-31 20:54:49
node.js
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
request
微信支付授权目录配置详解及操作步骤

在使用微信支付时，若通过WeixinJSBridge.invoke方法调用支付功能，可能会遇到“当前页面URL未注册”的错误提示，导致get_brand_wcpay_request:fail调用微信JSAPI支付失败。为解决这一问题，需要正确配置微信支付授权目录，确保支付页面的URL已成功注册。本文将详细介绍微信支付授权目录的配置步骤和注意事项，帮助开发者顺利完成支付功能的集成与调试。 ... [详细]

蜡笔小新 2024-10-31 18:13:25
instance
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55
ip
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
request
如何构建基于Spring MVC框架的Java Web应用项目

在构建基于Spring MVC框架的Java Web应用项目时，首先应创建一个新的动态Web项目。接着，需将必要的JAR包导入至WebContent/WEB-INF/lib目录下，确保包括Spring核心库及相关依赖。如遇缺失的JAR包，可向社区求助或通过Maven等工具自动下载。正确配置后，即可开始搭建应用结构与功能模块。 ... [详细]

蜡笔小新 2024-10-30 17:05:55
ip
深入解析 Linux 系统中的 /proc 文件系统及其功能

在 Linux 系统中，`/proc` 目录实现了一种特殊的文件系统，称为 proc 文件系统。与传统的文件系统不同，proc 文件系统主要用于提供内核和进程信息的动态视图，通过文件和目录的形式呈现。这些信息包括系统状态、进程细节以及各种内核参数，为系统管理员和开发者提供了强大的诊断和调试工具。此外，proc 文件系统还支持实时读取和修改某些内核参数，增强了系统的灵活性和可配置性。 ... [详细]

蜡笔小新 2024-10-30 12:44:28
object
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
post
深入理解Java事务编程：可串行化隔离级别的快照隔离机制解析

深入理解Java事务编程：可串行化隔离级别的快照隔离机制解析 ... [详细]

蜡笔小新 2024-10-29 18:19:30
express
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
scala
深入解析 OpenCV 2 中 Mat 对象的类型、深度与步长属性

在OpenCV 2中，`Mat`类作为核心组件，对于图像处理至关重要。本文将深入探讨`Mat`对象的类型、深度与步长属性，这些属性是理解和优化图像操作的基础。通过具体示例，我们将展示如何利用这些属性实现高效的图像缩小功能。此外，还将讨论这些属性在实际应用中的重要性和常见误区，帮助读者更好地掌握`Mat`类的使用方法。 ... [详细]

蜡笔小新 2024-11-01 15:39:04
object
深入解析 Django 中用户模型的自定义方法与技巧

深入解析 Django 中用户模型的自定义方法与技巧 ... [详细]

蜡笔小新 2024-11-01 10:21:38
dll
BZOJ4240 Gym 102082G：贪心算法与树状数组的综合应用

BZOJ4240 Gym 102082G 题目 "有趣的家庭菜园" 结合了贪心算法和树状数组的应用，旨在解决在有限时间和内存限制下高效处理复杂数据结构的问题。通过巧妙地运用贪心策略和树状数组，该题目能够在 10 秒的时间限制和 256MB 的内存限制内，有效处理大量输入数据，实现高性能的解决方案。提交次数为 756 次，成功解决次数为 349 次，体现了该题目的挑战性和实际应用价值。 ... [详细]

蜡笔小新 2024-11-01 09:27:15
post
Spring Boot 实战（一）：基础的CRUD操作详解

在《Spring Boot 实战（一）》中，详细介绍了基础的CRUD操作，涵盖创建、读取、更新和删除等核心功能，适合初学者快速掌握Spring Boot框架的应用开发技巧。 ... [详细]

蜡笔小新 2024-10-31 21:03:29
request
深入解析 Spring MVC 的核心原理与应用实践

本文将详细探讨Spring MVC的核心原理及其实际应用，首先从配置web.xml文件入手，解析其在初始化过程中的关键作用，接着深入分析请求处理流程，包括控制器、视图解析器等组件的工作机制，并结合具体案例，展示如何高效利用Spring MVC进行开发，为读者提供全面的技术指导。 ... [详细]

蜡笔小新 2024-10-29 12:34:06

捕风的水中龙_106

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章