理解方差、偏差且其泛化误差的关系

来源：互联网收集：自由互联发布时间：2021-06-16

https://blog.csdn.net/ChenVast/article/details/81385018 符号涵义测试样本数据集在数据集中的标记的真实标记训练集学得的模型由训练集学得的模型对的预测输出模型对的期望预测输出方差

https://blog.csdn.net/ChenVast/article/details/81385018

符号涵义测试样本数据集在数据集中的标记的真实标记训练集学得的模型由训练集学得的模型对的预测输出模型对的 期望预测 输出

方差

在一个训练集 D上模型 f对测试样本 x的预测输出为 f(x;D), 那么学习算法 f对测试样本 x的 期望预测 为:

上面的期望预测也就是针对不同数据集 D, f 对 x的预测值取其期望（平均预测）。

使用样本数相同的不同训练集产生的方差为:

期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:

以回归任务为例, 学习算法的平方预测误差期望为:

对算法的期望泛化误差进行分解:

令噪声为零，，所以红色区域的等于零。

最后剩下 ,结果为泛化误差 = 偏差 + 方差 + 噪声

低方差 高方差 低偏差 数据点集中+数据点落在预测点上数据不集中+数据点部分落在预测点上（预测的准确率不高） 高偏差 数据点集中+数据点与预测点存在距离（预测不准）数据点不集中+数据点基本不落在预测点上（预测不准）

拟合程度 方差偏差原因 解决办法 欠拟合 过高训练不足，偏差主导泛化误差集成学习；加深加迭代；加特征；降低正则化； 过拟合 过高训练过多，方差主导泛化误差降低模型复杂度；加正则惩罚项；加训练集；减特征；提高正则化

参考：

http://www.cnblogs.com/makefile/p/bias-var.html#fn2