scikitlearn机器学习模型跨平台部署的思路

作者：麦芽糖的-寂寞 | 来源：互联网 | 2023-09-03 12:37

（欢迎分享源网页，禁止未经本人书面许可转载至他处，或进行其他不当使用行为）你是一名数据科学家算法工程师，在PythonRSparkMATLAB（业界有几个用？）等环境下用最爱的机器

（欢迎分享源网页，禁止未经本人书面许可转载至他处，或进行其他不当使用行为）

你是一名数据科学家/算法工程师，在 Python/R/Spark/MATLAB（业界有几个用？）等环境下用最爱的机器学习框架训练好了模型，准确度不错。想就这样交差？公司当初招聘你难道就为了看一个 98% 的数字，或者期待你建立新算法好发表论文？当然是要促进业务。于是问题来了，你并不能保证业务平台上能原封不动部署原本运行在个人电脑上的代码，简单的例子：

非 x86 平台对 Python 的 NumPy 库支持较为有限——移动平台最好不要指望直接运行或调用 Python。
iOS 应用商店禁止模拟器类 app，包括 Python 解释器。
嵌入式市场有 MicroPython，但比起原生 C 资源消耗还是太大，且也有兼容性问题。

另一方面，我们一般不想让之前训练的模型直接报废，而在新平台上分别用其原生工具重新训练（况且还不是所有平台都能这样做——要是一块 Cortex-M 微处理器呢？）。所以，一次训练、跨平台部署是不少算法工程师必须要跨过的坎。

本文将试图简介在移动平台等处部署机器学习模型的方法，并阐述个人体验后所觉之利弊。目前只涉及线下学习线上预测的简单情况，暂不考虑线上学习。虽然讨论 scikit-learn 所生成模型的部署问题，但希望对其他库和其他环境也能有举一反三之效。

如果是 PC 或服务器等以 x86 架构为主的非移动平台，考虑到其本身对 NumPy 支持较好，可以采取直接调用 Python 代码的思路，典型的工具包括 Jython（http://www.jython.org/ ）和 Jep（https://github.com/mrj0/jep ）等。

对于移动平台，由前所述直接调用 Python 代码不可行，只能考虑转制，有两种思路可供选择：

1. 转换成跨平台通用格式，典型如 PMML（http://dmg.org/pmml/v4-3/GeneralStructure.html ）。例如在 Java 平台上，Java PMML API（https://github.com/jpmml ）提供了各类接口；在 Android 上由于平台对 XML 解析的限制有人提供了 jpmml-android（https://github.com/jpmml/jpmml-android ）示例项目，其中包含一个 Maven 插件，将 PMML 文件序列化后编译为一个静态库。简单来说，将任何 scikit-learn 模型用 sklearn2pmml（https://github.com/jpmml/sklearn2pmml ）导出为 PMML 文件后，放进 jpmml-android 项目的对应位置，编译后的 .pmml.ser 文件即可在任意 Android 项目中调用，方法可参照模板代码。至于 iOS 则未受支持。目前以上所提及的 PMML 相关项目均已支持该语言最新标准（4.3），如条件限制只能使用旧标准，则需要到 GitHub 相应仓库下载支持旧标准的最后版本。

2. 转换成原生代码，可以通过 sklearn-porter（https://github.com/nok/sklearn-porter ）等实现，尽管支持模型种类有限。将模型用 joblib dump 成 pkl 后（假设其名为 model.pkl，注意模型若为 Pipeline，则所有步骤均需得到 sklearn-porter 支持），命令行中运行

python -m sklearn_porter -i model.pkl -l <目标语言>

取决于模型大小，等候一段时间后即可见到原生语言的模型实现，文件名可能为 brain.c 或与之类似。自动生成的代码可能需要手动修改后才能编译运行。

以上两种思路各有利弊。通用格式只需处理一次模型（如包括 Android 则为两次），之后在各平台上分别编写代码以调用，支持算法较多，但并非所有平台都受到支持，且解析 PMML 格式效率不算高。原生代码则需要每种语言编译一次，自动化框架所支持算法较少（剩下的则需要设法导出参数后手动编写），但在各自业务平台上基本不存在兼容性问题，效率也较高。为数不多的例外，一是自动生成的代码对嵌入式系统仍不够最优，可能需要较多人工编辑或直接手动编写，当然这种情况下应该在建模时即优先考虑复杂度；二是 Java 单个方法字节码不能超过 64 KB，但机器学习模型稍大就会达到此限制，故 Java 上仍以 jpmml 为佳。

希望能对读者有所帮助。欢迎评论切磋。

推荐阅读

hash
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
go
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
text
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
text
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
go
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
include
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
hash
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
text
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
const
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
const
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
text
Android 渐变圆环加载控件实现

本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件，该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]

蜡笔小新 2024-12-27 13:34:19
include
HTML Attribute Naming Conventions for Fast Components

This document outlines the recommended naming conventions for HTML attributes in Fast Components, focusing on readability and consistency with existing standards. ... [详细]

蜡笔小新 2024-12-26 19:13:45
tree
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
copy
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
install
解决微信电脑版无法刷朋友圈问题：使用安卓远程投屏方案

在工作期间想要浏览微信和朋友圈却不太方便？虽然微信电脑版目前不支持直接刷朋友圈，但通过远程投屏技术，可以轻松实现在电脑上操作安卓设备的功能。 ... [详细]

蜡笔小新 2024-12-26 15:23:19

麦芽糖的-寂寞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章