最大似然估计

若总体X属于离散型,其分布律$ P{X=x} = p(x;\theta),\theta \in \Theta $的形式为已知,$ \theta $为待估参数,$ \Theta $为$ \theta $可能取值的范围。设$ X{1},X{2},\cdot \cdot \cdot, X{n} $是来自X的样本,则$ X{1},X{2},\cdot \cdot \cdot, X{n} $的联合分布律为
$ \prod{i=1}^n p(x{i};\theta) $ 又设$ x{1},x{2},\cdot \cdot \cdot, x{n} $是相应于样本$ X{1},X{2},\cdot \cdot \cdot, X{n} $的一个样本值。易知样本$ X{1},X{2},\cdot \cdot \cdot, X{n} $取到观察值$ x{1},x{2},\cdot \cdot \cdot, x{n} $的概率,亦即事件$ { X{1} = x{1}, X{2}=x{2},\cdot \cdot \cdot, X{n}=x{n}} $发生的概率为
$ L(\theta)=L(x{1},x{2},\cdot \cdot \cdot,x{n};\theta) = \prod{i=1}^np(x{i};\theta), \theta \in \Theta $
这一概率随$ \theta $的取值而变化,它是$ \theta $的函数,$ L(\theta) $称为样本的似然函数。
最大似然估计法就是固定样本观察值$ x
{1},x{2},\cdot \cdot \cdot, x{n} $,在$ \theta $的取值范围$ \Theta $内挑选使似然函数$ L(x{1},x{2},\cdot \cdot \cdot,x{n};\hat \theta)=\max{\theta \in \Theta}L(x{1},x{2},\cdot \cdot \cdot,x{n};\theta) $ 这样得到的$ \hat \theta $与样本值$ x{1},x{2},\cdot \cdot \cdot, x{n} $有关,常记为$ \hat \theta (x{1},x{2},\cdot \cdot \cdot, x{n}) $,称为参数$ \theta $的最大似然估计值,而相应的统计量$ \hat \theta (X{1},X{2},\cdot \cdot \cdot, X{n}) $称为参数$ \theta $的最大似然估计量。


若总体X属于连续型,其概率密度$ f(x;\theta),\theta \in \Theta $的形式为已知,$ \theta $为待估参数,$ \Theta $为$ \theta $可能取值的范围。设$ X{1},X{2},\cdot \cdot \cdot, X{n} $是来自X的样本,则$ X{1},X{2},\cdot \cdot \cdot, X{n} $的联合密度为
$ \prod{i=1}^n f(x{i};\theta) $ 又设$ x{1},x{2},\cdot \cdot \cdot, x{n} $是相应于样本$ X{1},X{2},\cdot \cdot \cdot, X{n} $的一个样本值,则随机点($ X{1},X{2},\cdot \cdot \cdot, X{n} $)落在点$ x{1},x{2},\cdot \cdot \cdot, x{n} $的邻域(边长分别为$ dx{1},dx{2},\cdot \cdot \cdot, dx{n} $的n维立方体)内的概率近似的为
$ \prod
{i=1}^n f(x{i};\theta)dx{i} $
其值随$ \theta $的取值而变化,与离散型的情况一样,我们取$ \theta $估计值$ \hat \theta $使概率取到最大值,但因子$ \prod{i=1}^{n}dx{i} $不随$ \theta $而变,故只需考虑函数
$ L(\theta)=L(x{1},x{2},\cdot \cdot \cdot,x{n};\theta) = \prod{i=1}^nf(x{i};\theta) $的最大值。
若$ L(x
{1},x{2},\cdot \cdot \cdot,x{n};\hat \theta)=\max{\theta \in \Theta}L(x{1},x{2},\cdot \cdot \cdot,x{n};\theta) $,则称$ \hat \theta (x{1},x{2},\cdot \cdot \cdot, x{n}) $为$ \theta $的最大似然估计值,称$ \hat \theta (X{1},X{2},\cdot \cdot \cdot, X{n}) $称为参数$ \theta $的最大似然估计量


例:设$ X \sim b(1,p). X{1},X{2},\cdot \cdot \cdot,X_{n} $是来自X的一个样本,试求参数p的最大似然估计值。


最大似然估计就是通过已知的样本点来求得求似然函数取值最大的参数$ \theta $,通常采用牛顿法和梯度下降法求解。

Ref: 1.概率论与数理统计