作者:我就是在刷粪_944 | 来源:互联网 | 2023-10-11 19:41
6-7(1.1例:多项式曲线拟合)- 我们可以通过选择E(w)E(w)E(w)尽可能小的www的值来解决曲线拟合问题。因为误差函数是系数www的二次函数,它对系数的导数在ww
我们可以通过选择E(w)尽可能小的w的值来解决曲线拟合问题。因为误差函数是系数w的二次函数,它对系数的导数在w元素中是线性的,所以误差函数的最小化有唯一的解,用w∗表示 ,可以在封闭形式中找到。由此产生的多项式由函数y(x,w∗)给出。
仍然存在选择多项式阶数M的问题,正如我们将看到的,这将成为一个称为模型对比获模型选择的重要概念的示例。在图1.4中,我们展示了四个将阶数M=0,1,2,3,9的多项式拟合到图1.2所示的数据集的结果示例。
我们注意到常数(M=0)和一阶(M=1)多项式对数据的拟合较差,因此函数sin(2πx)的表示较差。三阶(M=3)多项式似乎最合适图1.4所示示例中的函数sin(2πx)。当我们使用更高阶的多项式(M=9)时,我们获得了对训练数据的 极好拟合。事实上,多项式正好通过每个数据点,E(w∗)=0。然而,拟合曲线震荡剧烈,函数sin(2πx)的表现非常差。后一种行为称为过度拟合。
正如我们前面提到的,我们的目标是通过对新数据进行准确预测来实现良好的泛化。通过考虑由100个数据点组成的单独测试集,我们可以获得对泛化性能对M的依耐性的一些定量洞察,这些数据点是使用和生成数据集点完全相同的程序生成的,但目标值中包含随机噪声值的新选择。对于每个M的选择,我们可以评估(1.2)中 给出的训练数据的E(W∗)残值,也可以为测试数据集评估E(w∗)。有时使用 由定义的均方根(RMS)误差更方便
其中,N的除法允许我们在平等的基础上比较不同大小的数据集,平方根确保ERMS与目标变量t在相同的尺度(和相同的单位)上测量。图1.5显示了不同M值下训练和测试集均方根误差的图形。测试集误差是衡量我们在预测x的新数据观测值的t值方面做得有多好。我们从图1.5中注意到,较小的M值给出相对较大对的测试集误差值,这可以归因于相应的多项式是相当不灵活的,不能捕获函数sin(2πx)的震荡。M的值在3≤M≤8给出了测试集的误差的小值,这也给出了生成函数sin(2πx)的合理表示,从图1.4可以看出,对于M=3的情况。
图 1.4 不同阶数M的多项式图如红色曲线所示,与 图1.2中的数据集拟合。
图 1.5 由(1.3)定义的均方根误差在训练集和独立测试集上对 M的不同值进行评估的图。