参数估计
目录
假设数据集服从概率分布$P(\theta)$,估计$\theta$
极大似然估计
假设:参数$\theta$是一个定值
目标:找出一个$\theta$,使得在此$\theta$时数据集发生的概率最大
$f(x_1,x_2,\cdots,x_n \mid \theta) = f(x_1 \mid \theta) \times f(x_2 \mid \theta) \times \cdots f(x_n \mid \theta)$
$L(\theta)=f(x_1,x_2,\cdots,x_n \mid \theta) = \prod f(x_i \mid \theta)$
贝叶斯估计
假设:$\theta$服从一定的概率分布
目标:在数据集发生的情况下,哪一个$\theta$发生的概率最大
$p(\theta \mid D)=\frac{p(D \mid \theta)p(\theta)}{p(D)}$
其中,$p(D)=\int_{\theta}p(D \mid \theta)p(\theta)d\theta$,$p(D \mid \theta)=\prod_{i=1}^{n}p(x_i \mid \theta)$
对比
在大数据量的情况下,两者估计的结果差不多,在数据量较小的情况下,贝叶斯估计会较为准确
数据量大时数据为两者都提供了比较多的信息,数据量小时,数据不能很好的表示概率的分布,而贝叶斯通过先验概率一定程度上弥补了这一劣势,所以在小数据量上表现会优于极大似然