作者:小宇宙 | 来源:互联网 | 2023-09-14 13:03
数据集一般分为以下3种。通常的方法就是先训练训练集,即最小化代价函数,然后再把测试集代入代价函数看看效果如何。1.训练集确定模型后,用于训练参数,注意训练的是普通参数而不是超参数(
关键字:常规参数、超级参数、训练集、验证集、测试集
许多机器学习过程实际上是选择模型,模型只是参数未知,因此需要得到最佳参数,以便模型更准确地描述自变量到变量的变化。 模型的培训和测量需要已知的数据集。
数据集一般分为以下三类。 如果已经有较大的标记数据集,则随机采样可以得到三种类型的数据集,三种比例为8:1:1。 如果有标记,也可以只对训练集和验证集随机采样。 如果没有注释,则将其用作培训集。 (这个部分写得不清楚,以后再更新)
通常的方法是训练训练集(即最小化成本函数),然后将测试集代入成本函数以查看效果。
1 .训练套
确定模型后,用于训练参数。 用于训练的是常规参数,而不是超级参数。 超级参数选择和训练过程实际上是独立的,训练过程不会影响超级参数。 但是,在训练结束后,可以根据训练结果考虑是否可以优化超级参数,如果可以优化,可以调整超级参数的值,开始下一次的训练)
2 .验证集(交叉验证集CV ) )。
在训练集中训练模型后,在验证集中测试模型,并测试模型是否准确,而不是训练模型的参数
3 .测试集
验证集并不影响模型中的参数,但根据验证集测试结果的精度调整参数(),因此即使模型在验证集中最佳化,验证集也会影响结果。 在众多模型中,验证集选择了代价函数最小的模型。 这个模型的成本很小,但其他数据的成本也不是很小。 所以,为了提高最后测试模型的精度,需要一套完全未经训练的测试。
4 .高偏差和高方差
4.1定义
下图是培训集与验证集的误差比较
高偏差:拟合不足。 在这种情况下,训练集和验证集之间的误差较大(如图中d=1的情况那样)。
高方差:拟合对训练集有好处,但对验证集没有好处(如d=4)
4.2和正则化
三个数据集的成本函数定义如下:
下图反映了随着高偏差时训练数据的增大,训练集和验证集误差的变化,最终均趋于平缓
因此,在偏差高的情况下,无论怎么增加训练集误差都不会变小。 所以,一旦预感到模型有高偏差,最好的方法是停下来更换模型。
方差高时:有助于增加培训数据
5 .模型优化
在各种情况下应该做什么? (从右向左看) )
参考: https://baike.baidu.com/item/超级参数/3101858