当前位置: 开发笔记 > 编程语言 > 正文

你的机器学习项目CheckList「AI工程论」

作者：我是被催族 | 来源：互联网 | 2023-08-24 14:43

关注：决策智能与机器学习，深耕AI脱水干货

作者 | Harshit Tyagi

编译| ronghuaiyang

来源 | AI公园

前言：查理芒格说，建立一个框架性的思维和检查LIST，来确定你的决策是否受到非理性的干扰，机器学习同样如此，8-10步，建立ML的检查清单，让你的建模更安全可靠。

机器学习项目检查清单

在几乎每个ML项目中，你都必须执行8-10个步骤。其中一些步骤可以顺序互换执行。

1. 从高层次上定义问题

这是为了理解和阐明问题的业务逻辑。它会告诉你：

问题的性质(监督/非监督，分类/回归)，
你可以开发的解决方案类型
你应该用什么标准来衡量表现？
机器学习是解决这个问题的正确方法吗？
手动解决问题的方法。
问题的固有假设

2. 确认数据来源并获取数据

在大多数情况下，如果你有了数据，并且希望围绕数据定义问题以更好地使用传入的数据，那么可以在第一步之前执行此步骤。

根据问题的定义，需要确定数据源，可以是数据库、数据存储库、传感器等。对于要部署在生产环境中的应用，应该通过开发数据管道来实现这一步的自动化，以保持传入的数据流入系统。

列出你需要的数据的来源和数量。
检查存储空间是否会成为一个问题。
检查你是否被授权为你的目的使用数据。
获取数据，并将其转换为可行的格式。
检查数据类型(文本、类别、数字、时间序列、图像)
取出一份样品作最终测试之用。

3. 初始的数据探索

在这一步中，你需要研究影响你的结果/预测/目标的所有特征。如果你有一个巨大的数据块，在此步骤中对其进行采样，以使分析更易于管理。步骤：

使用jupyter notebooks，因为它们提供了一个简单和直观的界面，以研究数据。
确定目标变量
识别特征的类型(类别、数字、文本等)
分析特征之间的相关性。
添加一些数据可视化，方便解释每个特征对目标变量的影响。
记录你的发现。

4. 进行数据探索分析来准备数据

现在可以通过定义用于数据转换、清洗、特征选择/特征工程和缩放的函数来执行前一步的发现了。

编写函数转换数据和自动化处理即将到来的批数据。
编写函数来清洗数据(输入缺失值和处理异常值)
编写函数来选择特征和特征工程 —— 删除冗余的特征，特征格式转换，以及其他的数学变换。
特征缩放 —— 特征标准化。

5. 开发一个基线模型，然后探索其他模型，选出最好的模型

创建一个非常基本的模型，作为所有其他复杂机器学习模型的基线。检查表的步骤：

使用默认参数训练一些常用的ML模型，如朴素贝叶斯、线性回归、支持向量机等。
度量和比较每个模型与基线以及其他模型的性能。
对每个模型采用N-fold交叉验证，并计算N fold上的性能指标的平均值和标准偏差。
研究对目标有最大影响的特征。
分析模型在预测时出现的误差类型。
以不同的方式设计特征。
重复以上步骤几次(反复试验)，以确保我们在正确的格式中使用了正确的特征。
基于他们的度量表现选择最好的几个模型入围。

6. 调优你的入围模型并检查集成方法

这需要成为你接近最终解决方案的关键步骤之一。主要步骤应包括：

使用交叉验证超参数调优。
使用自动调优方法，如随机搜索或网格搜索，以找出你的最佳模型的最佳配置。
测试集成方法，如投票分类器等
用尽可能多的数据测试模型。
一旦定稿，使用我们在开始时预留的没有见过的测试样本，检查是否过拟合或欠拟合。

7. 记录代码并交流解决方案

交流的过程是多方面的。你需要记住所有现有的和潜在的相关因素。因此，主要步骤包括：

记录代码以及你的方法和整个项目过程。
创建一个像voila一样的仪表盘或一个有洞察力的演示，接近自我解释的可视化。
写一篇博客/报告，记录你是如何分析特征，测试不同的变换等等。
获得你学到的东西(失败和有效的技术)
总结主要成果及未来范围(如有)

8. 将模型部署到生产环境中，监控！

如果你的项目需要在实时数据上测试部署，那么你应该创建一个跨所有平台(web、android、iOS)使用的web应用或REST API。主要步骤(视乎项目而定)包括：

保存你的最终训练模型到一个h5或pickle文件。
使用web服务服务你的模型，你可以使用Flask来开发这些web服务。
连接输入数据源，设置ETL管道。
使用pipenv、docker/Kubernetes管理依赖关系(基于扩展性需求)
你可以使用AWS、Azure或谷歌云平台部署您的服务。
监控实时数据的性能或简单地让人们用他们的数据来使用你的模型。

注意：检查表可以根据项目的复杂程度进行调整

后记

为什么我需要一个清单？

因为在一个项目中，你需要处理许多元素(争吵、准备、问题、模型、调优等等)，所以很容易失去对事情的了解。

这个清单可以引导你完成接下来的步骤，并促使你检查每一个任务是否执行成功。

有时，我们很难找到起点，清单可以帮助你从正确的来源引出正确的信息(数据)，以便建立关系并揭示相关的见解。

最好的做法是让项目的每个部分都经历检查。

正如Atul Gawande在他的书“The Checklist Manifesto”中所说，

我们所知道的东西的数量和复杂性已经超出了我们个人正确、安全或可靠地利用其优点的能力。

所以，让我带你过一遍这个简单的清单，它将减少你的工作量，提高你的产出……

历史精华好文

专辑1：AI产品/工程落地
专辑2：AI核心算法
专辑3：AI课程/资源/数据

交流合作

请加微信号：yan_kylin_phenix，注明姓名+单位+从业方向+地点，非诚勿扰。

你的机器学习项目CheckList「AI工程论」

推荐阅读

android
如何高效学习鸿蒙操作系统：开发者指南

本文探讨了开发者如何更有效地学习鸿蒙操作系统，提供了来自行业专家的建议，包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]

蜡笔小新 2024-11-23 19:22:14
config
GNU/Linux系统中动态库搜索路径的指定与管理

本文概述了在GNU/Linux系统中，动态库在链接和运行阶段的搜索路径及其指定方法，包括通过编译时参数、环境变量及系统配置文件等方式来控制动态库的查找路径。 ... [详细]

蜡笔小新 2024-11-24 15:56:16
spring
Java高级工程师学习路径及面试准备指南

本文基于一位朋友的PDF面试经验整理，涵盖了Java高级工程师所需掌握的核心知识点，包括数据结构与算法、计算机网络、数据库、操作系统等多个方面，并提供了详细的参考资料和学习建议。 ... [详细]

蜡笔小新 2024-11-24 10:12:21
client
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
go
特别活动 | 新配送业务启动，多重福利等你来拿！

美团安全响应中心推出全新配送业务测试活动，带来双重福利，邀您共同参与！ ... [详细]

蜡笔小新 2024-11-22 22:39:37
text
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
go
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
go
解决 MyBatis 批量操作时 BindingException 异常

本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-24 13:03:13
config
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
config
Linux内核中的内存反碎片技术解析

本文深入探讨了Linux内核中实现的内存反碎片技术，包括其历史发展、关键概念如虚拟可移动区域以及具体的内存碎片整理策略。旨在为开发者提供全面的技术理解。 ... [详细]

蜡笔小新 2024-11-24 08:48:57
config
解析 Android Service 中 onStartCommand 方法的不同返回值

本文详细探讨了 Android Service 组件中 onStartCommand 方法的四种不同返回值及其应用场景。Service 可以在后台执行长时间的操作，无需提供用户界面，支持通过启动和绑定两种方式创建。 ... [详细]

蜡笔小新 2024-11-23 20:54:16
go
2023年7月7日网络安全动态

汇总了2023年7月7日最新的网络安全新闻和技术更新，包括最新的漏洞披露、工具发布及安全事件。 ... [详细]

蜡笔小新 2024-11-23 13:35:48
go
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
go
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42
go
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14

我是被催族

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章