偏差(Bias):描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好。
方差(Variance):模型每一次输出结果与模型输出期望之间的误差的平方的期望,即模型的稳定性。
噪声(Noise):是真实标记与数据集中的实际标记间的偏差。通常是由多种因素综合影响造成的,不可去除。
一般由多种因素综合影响的变量都符合u= 0 正态分布
假设红色的靶心区域是学习算法完美的正确预测值,蓝色点为训练数据集所训练出的模型对样本的预测值,当我们从靶心逐渐往外移动时,预测效果逐渐变差。
从上面的图片中很容易可以看到,左边一列的蓝色点比较集中,右边一列的蓝色点比较分散,它们描述的是方差的两种情况。比较集中的属于方差比较小,比较分散的属于方差比较大的情况。
我们再从蓝色点与红色靶心区域的位置关系来看,靠近红色靶心的属于偏差较小的情况,远离靶心的属于偏差较大的情况。
思考:从上面的图中可以看出,模型不稳定时会出现偏差小、方差大的情况,那么偏差和方差作为两种度量方式有什么区别呢?
解答:Bias的对象是单个模型,是期望输出与真实标记的差别。它描述了模型对本训练集的拟合程度。Variance的对象是多个模型,是相同分布的不同数据集训练出模型的输出值之间的差异。它刻画的是数据扰动对模型的影响。
模拟:偏差和方差
假设有一个数据总体,其真实模型为一元二次方程:\(y = x ^2\)(但其实是未知的。)
已知一个数据集,计算它的偏差和方差。
绘图结果如下:
最终图中模型最好的就是二次模型,和我们真实的情况相同。