目录

参数估计

假设数据集服从概率分布$P(\theta)$,估计$\theta$

极大似然估计

假设:参数$\theta$是一个定值

目标:找出一个$\theta$,使得在此$\theta$时数据集发生的概率最大

$f(x_1,x_2,\cdots,x_n \mid \theta) = f(x_1 \mid \theta) \times f(x_2 \mid \theta) \times \cdots f(x_n \mid \theta)$
$L(\theta)=f(x_1,x_2,\cdots,x_n \mid \theta) = \prod f(x_i \mid \theta)$

贝叶斯估计

假设:$\theta$服从一定的概率分布

目标:在数据集发生的情况下,哪一个$\theta$发生的概率最大

$p(\theta \mid D)=\frac{p(D \mid \theta)p(\theta)}{p(D)}$

其中,$p(D)=\int_{\theta}p(D \mid \theta)p(\theta)d\theta$,$p(D \mid \theta)=\prod_{i=1}^{n}p(x_i \mid \theta)$

对比

在大数据量的情况下,两者估计的结果差不多,在数据量较小的情况下,贝叶斯估计会较为准确

数据量大时数据为两者都提供了比较多的信息,数据量小时,数据不能很好的表示概率的分布,而贝叶斯通过先验概率一定程度上弥补了这一劣势,所以在小数据量上表现会优于极大似然