这种建模技术的目的是通过使用最少的自变量在得到最大的预测能力。它也是处理高维数据集的方法之一。 5) 岭回归(Ridge Regression)岭回归是当数据遭受多重共线性(独立变量高度相关)时使用的一种技术。在多重共线性中,即使最小二乘估计(OLS)是无偏差的,但是方差很大,使得观察智远离真实值。岭回归通过给回归估计中增加额外的偏差度,能够有效减少方差。
之前我们介绍过线性回归方程,如下所示:
这个方程也有一个误差项,完整的方程可表示成:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.复制代码在线性方程中,预测误差可以分解为两个子分量。首先是由于偏颇,其次是由于方差。预测误差可能由于这两个或两个分量中的任何一个而发生。这里,我们将讨论由于方差引起的误差。
岭回归通过收缩参数 λ(lambda)解决了多重共线性问题。请看下面的方程式: