作者:我是被催族 | 来源:互联网 | 2023-08-24 14:43
关注:决策智能与机器学习,深耕AI脱水干货
作者 | Harshit Tyagi
编译| ronghuaiyang
来源 | AI公园
前言:查理芒格说,建立一个框架性的思维和检查LIST,来确定你的决策是否受到非理性的干扰,机器学习同样如此,8-10步,建立ML的检查清单,让你的建模更安全可靠。
机器学习项目检查清单
在几乎每个ML项目中,你都必须执行8-10个步骤。其中一些步骤可以顺序互换执行。
1. 从高层次上定义问题
这是为了理解和阐明问题的业务逻辑。它会告诉你:
问题的性质(监督/非监督,分类/回归),
你可以开发的解决方案类型
你应该用什么标准来衡量表现?
机器学习是解决这个问题的正确方法吗?
手动解决问题的方法。
问题的固有假设
2. 确认数据来源并获取数据
在大多数情况下,如果你有了数据,并且希望围绕数据定义问题以更好地使用传入的数据,那么可以在第一步之前执行此步骤。
根据问题的定义,需要确定数据源,可以是数据库、数据存储库、传感器等。对于要部署在生产环境中的应用,应该通过开发数据管道来实现这一步的自动化,以保持传入的数据流入系统。
列出你需要的数据的来源和数量。
检查存储空间是否会成为一个问题。
检查你是否被授权为你的目的使用数据。
获取数据,并将其转换为可行的格式。
检查数据类型(文本、类别、数字、时间序列、图像)
取出一份样品作最终测试之用。
3. 初始的数据探索
在这一步中,你需要研究影响你的结果/预测/目标的所有特征。如果你有一个巨大的数据块,在此步骤中对其进行采样,以使分析更易于管理。步骤:
4. 进行数据探索分析来准备数据
现在可以通过定义用于数据转换、清洗、特征选择/特征工程和缩放的函数来执行前一步的发现了。
5. 开发一个基线模型,然后探索其他模型,选出最好的模型
创建一个非常基本的模型,作为所有其他复杂机器学习模型的基线。检查表的步骤:
使用默认参数训练一些常用的ML模型,如朴素贝叶斯、线性回归、支持向量机等。
度量和比较每个模型与基线以及其他模型的性能。
对每个模型采用N-fold交叉验证,并计算N fold上的性能指标的平均值和标准偏差。
研究对目标有最大影响的特征。
分析模型在预测时出现的误差类型。
以不同的方式设计特征。
重复以上步骤几次(反复试验),以确保我们在正确的格式中使用了正确的特征。
基于他们的度量表现选择最好的几个模型入围。
6. 调优你的入围模型并检查集成方法
这需要成为你接近最终解决方案的关键步骤之一。主要步骤应包括:
7. 记录代码并交流解决方案
交流的过程是多方面的。你需要记住所有现有的和潜在的相关因素。因此,主要步骤包括:
8. 将模型部署到生产环境中,监控!
如果你的项目需要在实时数据上测试部署,那么你应该创建一个跨所有平台(web、android、iOS)使用的web应用或REST API。主要步骤(视乎项目而定)包括:
保存你的最终训练模型到一个h5或pickle文件。
使用web服务服务你的模型,你可以使用Flask来开发这些web服务。
连接输入数据源,设置ETL管道。
使用pipenv、docker/Kubernetes管理依赖关系(基于扩展性需求)
你可以使用AWS、Azure或谷歌云平台部署您的服务。
监控实时数据的性能或简单地让人们用他们的数据来使用你的模型。
注意:检查表可以根据项目的复杂程度进行调整
后记
为什么我需要一个清单?
因为在一个项目中,你需要处理许多元素(争吵、准备、问题、模型、调优等等),所以很容易失去对事情的了解。
这个清单可以引导你完成接下来的步骤,并促使你检查每一个任务是否执行成功。
有时,我们很难找到起点,清单可以帮助你从正确的来源引出正确的信息(数据),以便建立关系并揭示相关的见解。
最好的做法是让项目的每个部分都经历检查。
正如Atul Gawande在他的书“The Checklist Manifesto”中所说,
我们所知道的东西的数量和复杂性已经超出了我们个人正确、安全或可靠地利用其优点的能力。
所以,让我带你过一遍这个简单的清单,它将减少你的工作量,提高你的产出……
历史精华好文
专辑1:AI产品/工程落地
专辑2:AI核心算法
专辑3:AI课程/资源/数据
交流合作
请加微信号:yan_kylin_phenix,注明姓名+单位+从业方向+地点,非诚勿扰。