作者:雪国文话天下 | 来源:互联网 | 2024-11-03 20:39
特征工程
缺失值填充
编码分类变量
模型搭建
处理完前面的数据我们就得到建模数据,下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型
切割训练集和测试集
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
按目标变量分层进行等比切割
设置随机种子以便结果能复现
模型创建
创建基于线性模型的分类模型(逻辑回归)
创建基于树的分类模型(决策树、随机森林)
查看模型的参数,并更改参数值,观察模型变化
为什么线性模型可以进行分类任务,背后是怎么的数学关系
答:因为线性模型即逻辑回归可以通过在一个线性函数上下进行两个类别的判别。
对于多分类问题,线性模型是怎么进行分类的
答:使用Softmax函数进行多分类。
输出模型预测结果
这样可以清楚哪个标签预测概率更高。
模型评估
交叉验证
混淆矩阵
ROC曲线