参数估计

最大似然估计(MLE)

最大似然估计简单来说就是模型确定，参数未知。不考虑先验概率P(Yi)，因此属于频率学派。就是已知模型的前提下，似然函数（概率)最大时对应的参数。

最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。

最大似然估计的一般求解过程：

写出似然函数；
对似然函数取对数，并整理；
求导数；
解似然方程。
注意：最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率即先验概率。这点与贝叶斯估计区别。

最大后验估计(MAP)

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

注：贝叶斯要考虑其先验概率，即需要在似然函数后乘以其先验概率。

贝叶斯估计

贝叶斯估计把参数W看成一个随机变量，通过后验分布p(W

D)来计算参数W在条件D下的数学期望，即加权使用所有参数W，而权重由后验分布p(W

D)确定（类似于离散情形的加权平均），从而起到分摊估计参数W的不确定性。这是比极大似然估计和最大后验估计这种点估计先进的地方。

最小二乘法(LSM)

最小二乘法（Least Square）

最小二乘法的本质就是找到一个估计值，使实际值与估计值的距离最小。而为了度量最小距离，只要使实际值与估计值之差的平方最小就好，下面就是最小二乘的表达式损失函数cost function，我们的目标就是求θ。

求解方法是通过梯度下降算法，通过训练数据不断迭代得到最终的值。最小二乘的主要应用场景为回归分析，因为回归常用平方损失作为损失函数。

最大似然估计与最大后验估计区别与联系

在MAP中我们应注意的是：

MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布，即是否考虑了先验知识。或者说，MLE中认为模型参数本身的概率的是均匀的，即该概率为一个固定值。

最大后验概率和极大似然估计很像，只是多了一项先验分布，它体现了贝叶斯认为参数也是随机变量的观点，在实际运算中通常通过超参数给出先验分布。

从以上可以看出，一方面，极大似然估计和最大后验概率都是参数的点估计。在频率学派中，参数固定了，预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段，因为完全贝叶斯估计不一定可行。另一方面，最大后验概率可以看作是对先验和MLE的一种折衷，如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0，最大后验仅由先验决定。