极大似然估计(MLE): 极大似然估计是一种参数估计的方法,即已知样本估计出模型参数。 极大似然估计是频率学派的一种方法(与贝叶斯学派的极大后验估计对应),频率学派认为模型的参数是确定的,只是不知道而已,所以可以通过样本推断出模型参数。 既然是极大“似然”估计,就要先明白什么是“似然”,在贝叶斯公式中有: 其中,是模型参数的后验概率密度函数,是模型参数的先验概率密度函数,这些都是频率学派所不关心的,所以MLE中只关心,也就是似然函数。 可以看出似然函数就是假设已知参数的情况下得到观察样本的概率,而MLE的初衷就是选择值,使得当前观察到的样本是该模型产生的数据这一概率最大! 似然函数的定义为: 就是通过参数为的模型产生样本的概率。 MLE极大似然估计就是求使得最大的! log似然函数的定义为: 使用log似然有几点好处:它与似然函数在同样的位置取得最大值;它可以将中的乘法变成加法;中的系数变成中的常数项,因为不影响取极大值的位置,都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使最大的了,下面以求高斯分布的MLE为例来说明。 高斯函数: 分别对和求偏导得: 所以可以求得和的值为: 到这里就使用MLE的方法求出了高斯模型的参数,可以看出高斯模型的参数和可以通过统计量求得。
极大后验估计(MAP): 顺便提一下极大后验估计,其实明白MLE之后,MAP也比较好理解了。 极大后验估计又叫贝叶斯估计,贝叶斯与频率的最主要的区别就是先验的问题,所以MAP处理的目标函数就是中的。一般情况下无法直接得到,所以我们可以处理的等价形式。这里就又要提到共轭先验了,也体现了共轭先验的作用。如果是的共轭先验,那么后验的形式与先验的形式是一样的,这种形式的一致性不仅计算起来比较方便也更适合在线学习(online learning)。 通过得到后验的表达式后就可以使用与MLE同样的方法求出参数了。 当先验是均匀分布时MAP退化为MLE!
MLE、MAP与经验风险最小、结构风险最小的关系 既然提到了MLE和MAP的关系,就再引申两个概念:经验风险最小与结构风险最小。这两个概念都是评价模型好坏的标准。 经验风险最小: 经验风险最小(ERM)标准认为经验风险最小的模型是最优模型,ERM就是求最优化问题: 其中F是假设空间,f是模型,L是损失函数。当样本容量很大时,ERM的效果较好,样本容量较小时,ERM容易产生过拟合现象。MLE就是ERM的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,ERM等价于MLE。 结构风险最小: 结构风险最小(SRM)是为了防止过拟合现象而提出的,SRM等价于正则化。SRM就是求最优化问题: 是模型的复杂度,是定义在F上的泛函。模型f越复杂,就越大,反之,f越简单,就越小。是系数,用来权衡经验风险和模型复杂度。贝叶斯估计中的MAP就是SRM的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型先验概率表示时,SRM等价于MAP。
岭回归: 在回归问题中有如下关系: 一般的线性回归——MLE求解——最小二乘方法 岭回归——MAP求解——惩罚(正则)最小二乘方法 在岭回归中就是假设线性回归的参数w满足高斯分布。
|