杜宾方法是什么意思?
杜宾(Dobbin)法是一种用来估计全样本的标准差的方法,由美国统计学家威廉姆·弗朗西斯·杜宾于1957 年提出。 给定一个样本数据 \{x_1,\cdots, x_n\} ,通过计算得出样本均值 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}{x_i} 和样本方差 s^2=\frac{1}{n-1}\sum_{i=1}^{n}{\left( x_i-\bar{x} \right)^2} ,则总体标准差 \sigma 的估计量称为杜宾估计量 \widehat{\sigma}=\sqrt{s^2} 。
由于方差的定义本身就是求解总体的平方和并开根号,所以杜宾估计算法实际上将原来的问题转化为了求解一组方程的问题。在假设数据符合正态分布的情况下,可以通过最小二乘法求解该方程得到 \widetilde{\sigma} ,再取其平方根即可得到 \widehat{\sigma} 。 虽然杜宾法要求数据符合正态分布,但它对异常值的敏感度较低,在数据含有缺失值或者严重偏态等情况时依然可以得到准确的估计。若样本量 n 足够大,则杜宾法的误差概率几乎可以忽略不计,因此它也是一种相当稳健的估计方法。另外,利用杜宾法得到的 \widehat{\sigma} 是对总体方差的无偏估计,并且具有一致的数学期望。
然而,杜宾法存在一个不足之处在于它只能给出总体方差的一个无偏估计,而无法获得总体方差的特定概率分布形态。这主要是因为该方法的方程个数与变量个数相同,是无法进一步进行推导的。 除了用最小二乘法求解方程组外,杜宾法的应用还常常需要用到 Monte Carlo 方法或贝叶斯方法。前者是用来模拟未知参数 \theta 的随机数 \textbf{x} ,然后再通过最小二乘法求解方程得到 \hat{\theta};后者是通过先验信息对 \theta 进行加权然后求解方程。这两种方法都可以达到迭代求解的目的,进而得到 \hat{\theta} 和 \widehat{p} ( p 为事件 A 在 \theta 下的概率)。当 \theta 取得不同值时,可以分别得到一组 \hat{\theta}_k 和相应的 \widehat{p}_k ,然后将这些值输入到似然函数中估算 \theta 的后验概率,最后找到使后验概率最大的 \theta 。