1. 确定特征
选取合适的数据和特征可能是最重要的步骤,也包括数据的预处理或清洗,通常可以称之为特征工程。
2. 确定模型
确定目标函数及决策边界的形状。
可选择多个模型进行比较。
3. 模型训练
根据训练数据估计模型参数。
4. 模型评估
这里要区分两个概念:
模型选择:估计不同模型的性能,选出最好的模型。(通常在校验集上进行)
模型评估:已经选定最终的模型,估计它在新数据上(通常是测试机)的预测误差。
训练了多个模型或者需要对模型进行超参数的调优时候,需要进行模型的选择和评估。
5. 模型的应用/预测
模型的导出/性能优化