TVM编译机器学习到WASM和WebGPU

作者：吕贞吟明辉碧瑜 | 来源：互联网 | 2023-09-16 16:10

TVM编译机器学习到WASM和WebGPUTLDRTVM深度学习编译器对WASM和WebGPU的支持。实验表明，TVM的WebGPU后端在将模型部署到Web时可以接近

TVM编译机器学习到 WASM 和 WebGPU
TLDR
TVM 深度学习编译器对 WASM 和 WebGPU 的支持。实验表明&＃xff0c;TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 GPU 性能。
在这里插入图片描述

引论
计算是现代机器学习应用的支柱之一。引入 GPU 以加快深度学习工作量&＃xff0c;大大提高了进步速度。鉴于部署机器学习无处不在的需求日益增长&＃xff0c;浏览器成为部署智能应用程序的自然场所。
虽然 TensorFlow .js 和 ONNX .js是将机器学习引入浏览器的现有努力&＃xff0c;但 Web 版本和本地版本在性能上仍然存在非同小的差距。众多原因之一是缺乏对 Web 上的 GPU 的标准和执行访问。WebGL 缺乏重要的功能&＃xff0c;如计算着色器和通用存储缓冲器&＃xff0c;这些功能是高性能深度学习所必需的。
WebGPU 是下一代 Web 图形的即将推出的标准&＃xff0c;有可能显著改变这种状况。与最新一代图形 API&＃xff08;如 Vulkan 和 Metal&＃xff09;一样&＃xff0c;WebGPU 提供一流的计算着色器支持。
为了探索在浏览器中使用 WebGPU 进行机器学习部署的潜力&＃xff0c;增强了深度学习编译器 Apache&＃xff08;孵化&＃xff09;TVM&＃xff0c;以针对 WASM&＃xff08;用于计算启动参数和调用进入设备启动的主机代码&＃xff09;和 WebGPU&＃xff08;用于设备执行&＃xff09;。初步结果是相当积极的-第一次&＃xff0c;可以部署机器学习应用程序在网络上&＃xff0c;同时仍然接近本地性能的GPU。
机器学习编译器
在这里插入图片描述

在尝试 WebGPU 时&＃xff0c;一个自然反应是为深神经网络中的原始算子编写着色器&＃xff08;矩阵乘法和卷积&＃xff09;&＃xff0c;然后直接优化性能。这是现有框架&＃xff08;如 TensorFlow&＃xff09;使用的传统工作流程.js。
相反&＃xff0c;采用基于编译的方法。TVM 会自动从高级框架&＃xff08;如 TensorFlow、Keras、PyTorch、MXNet 和 ONNX&＃xff09;中获取模型&＃xff0c;并使用机器学习驱动方法自动生成低级别代码&＃xff0c;在这种情况下&＃xff0c;以 SPIR-V 格式计算着色器。然后&＃xff0c;生成的代码可以打包为可部署模块。
基于编译的方法的一个重要优势是基础设施的再利用。能够毫不费力地&＃xff08;相对于其它方法&＃xff09;通过重新利用基础架构&＃xff0c;优化本地平台&＃xff08;如 CUDA、metal和 OpenCL&＃xff09;的 GPU 内核来定位 Web。如果 WebGPU API 与本地 API 的映射效率很高&＃xff0c;则可以期望类似的性能&＃xff0c;但工作很少。更重要的是&＃xff0c;AutoTVM基础架构能够专门计算特定型号的点着色器&＃xff0c;从而能够生成针对特定兴趣模型的最佳计算着色器。
构建 WASM 和 WebGPU 编译器
为了构建一个可以针对 WASM 和 WebGPU 的编译器&＃xff0c;需要以下元素&＃xff1a;
• 用于计算着色器的 SPIR-V 生成器。
• 主机程序的 WASM 生成器。
• 加载和执行生成程序的runtime。
幸运的是&＃xff0c;TVM已经为Vulkan制定了SPIR-V目标&＃xff0c;并且使用LLVM生成主机代码。因此&＃xff0c;可以重新调整两者的用途&＃xff0c;以生成设备和主机程序。
主要的挑战是runtime。需要一个runtime来加载着色器代码&＃xff0c;并使主机代码通话能够正确地与着色器通信。TVM 的runtime最少C&＃43;&＃43;。构建了一个最低的 Web runtime库&＃xff0c;与生成的着色器和主机驱动代码链接&＃xff0c;生成单个 WASM 文件。WASM 模块仍然包含两个未知的依赖关系&＃xff1a;
• runtime需要调用到系统库calls (malloc, stderr)。
• runtime需要与 WebGPU 驱动程序&＃xff08;在 Javascript中&＃xff0c;WebGPU API is the first-class citizenWebGPU API 是一流公民&＃xff09;进行交互。
WASI 是解决第一个问题的标准解决方案。虽然网络上还没有成熟的 WASI&＃xff0c;但可以使用 emscript 生成类似 WASI 的库&＃xff0c;以提供这些系统库。
通过在 TVM 的 JS runtime内构建 WebGPU runtime以及在调用 GPU 代码时从 WASM 模块调用这些功能来解决第二个问题。使用 TVM runtime系统中的打包机制&＃xff0c;可以通过将 Javascript 关闭传递到 WASM 接口来直接输出高级runtime原始。此方法保留了 Javascript 中的大部分runtime代码&＃xff0c;随着 WASI 和 WASM 支持的成熟&＃xff0c;可以将更多的 JS 代码引入 WASM runtime。
在这里插入图片描述

性能
在这里插入图片描述

运行了一个快速实验&＃xff0c;比较了通过 TVM 的 WebGPU 后端和使用本地 GPU runtime &＃xff08;金属和 OpenCL&＃xff09; 的本地目标执行完整计算图的执行情况。在移动网络模型上&＃xff0c;可以发现 WebGPU 可以接近metal性能。假设 Chrome WebGPU 的runtime目标为metal&＃xff0c;而不是 MacOS 上的 OpenCL&＃xff0c;可以放心地假设&＃xff0c;在面对 GPU 时&＃xff0c;几乎没有性能损失。
此基准不包括 CPU 到 GPU 数据复制成本&＃xff0c;仅对 GPU 执行进行基准。目前&＃xff0c;从 CPU 到 GPU 的数据副本&＃xff0c;仍可能需要 25% 的执行时间&＃xff1a;这些成本可以通过连续执行设置中的双缓冲等方法进一步摊销。
报告的移动网端到端runtime绝不是最佳的&＃xff0c;因为只是重复使用 GTX 1080 Ti 的调度&＃xff0c;这与英特尔图形 GPU 非常不同。期望通过在感兴趣的目标平台上使用AutoTVM来进一步提升性能。
展望
结果表明&＃xff0c;在网络上机器学习有许多有趣的机会。值得注意的是&＃xff0c;WebGPU 是一种仍在不断发展的 API&＃xff0c;其影响可能超越 Web 应用程序。例如&＃xff0c;随着 WebGPU 的成熟并通过 WASI 实现标准化&＃xff0c;可以针对 WebGPU 的原生 API&＃xff0c;从而支持使用 WebGPU 的独立 WASM 应用程序。
TVM 社区还积极致力于基于 Rust 的runtime&＃xff0c;这将提供更强大的 WASM 支持&＃xff0c;并能够与wgpu和Rust WASM生态系统等项目进行更轻松的互动。
源码
• Example project for image classification
• Apache TVM on github

推荐阅读

function
字节码开发笔记：深入解析与应用技巧

字节码开发笔记：深入解析与应用技巧 ... [详细]

蜡笔小新 2024-11-04 13:06:03
get
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
get
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
function
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
get
Java中不同类型的常量池（字符串常量池、Class常量池和运行时常量池）的对比与关联分析

在研究Java虚拟机的过程中，笔者发现存在多种类型的常量池，包括字符串常量池、Class常量池和运行时常量池。通过查阅CSDN、博客园等相关资料，对这些常量池的特性、用途及其相互关系进行了详细探讨。本文将深入分析这三种常量池的差异与联系，帮助读者更好地理解Java虚拟机的内部机制。 ... [详细]

蜡笔小新 2024-11-08 10:38:37
io
Java测试服务器调试指南：远程调试与Java Xdebug参数详解

Java测试服务器调试指南详细介绍了如何进行远程调试，并深入解析了Java Xdebug参数的使用方法。本文首先概述了Java内置的调试功能，重点介绍了JDB这一类似于GDB的强大调试工具。通过实例演示，读者可以掌握在测试环境中高效调试Java应用程序的技巧，包括配置远程调试环境和优化调试参数，以提高开发效率和代码质量。 ... [详细]

蜡笔小新 2024-11-06 17:15:54
get
Netty框架中运用Protobuf实现高效通信协议

在Netty框架中，通过引入Protobuf来实现高效的通信协议。为了使用Protobuf，需要先准备好环境，包括下载并安装Protobuf的代码生成器`protoc`以及相应的源码包。具体资源可从官方下载页面获取，确保版本兼容性以充分发挥其性能优势。此外，配置好开发环境后，可以通过定义`.proto`文件来自动生成Java类，从而简化数据序列化和反序列化的操作，提高通信效率。 ... [详细]

蜡笔小新 2024-11-05 17:06:20
io
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
get
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
get
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
get
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
get
Eclipse中解决JDK源码断点调试失效的问题

Eclipse中解决JDK源码断点调试失效的问题 ... [详细]

蜡笔小新 2024-11-08 18:15:41
python
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
python
a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析

a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析 ... [详细]

蜡笔小新 2024-11-06 14:52:58
get
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36

吕贞吟明辉碧瑜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章