元バイオ系

元バイオウェット系がデータサイエンスやらを勉強していくブログ。 基本自分用のまとめ。

【数理統計】最尤推定量とバイアス

尤度

尤度については

hotoke-x.hatenablog.com

を参照。

例によって離散か連続かはあまり気にせず書きます。

尤度関数とは、母集団分布からの独立標本が得られたとき、確率関数 p(x|\theta)から同時確率関数を母数 \thetaの関数と見た

$$L_n (\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} p(x_i | \theta) $$

のことでした[1]。

この尤度関数を最大にするような \thetaの値を最尤推定値といい、その推定量 \hat \theta最尤推定量(maximum likelihood estimator, MLE)と呼びます。私の読むレベルの文献では \hat \theta_{ML}と書かれていることが多いです。

最尤推定

最尤推定すれば未知母数の推定もうまくいきそうですが本当にそうでしょうか。百聞は一見に如かずということで確かめてみます。

ここで、正規分布の平均と分散を未知として、最尤推定する問題を考えます。

母集団分布を平均 \mu、分散 \sigma^2正規分布 \mathcal{N}(\mu, \sigma^2)とする。標本を独立にn個サンプリングし、観測値 x_1, \ldots, x_nが得られたとするとその尤度関数は

 \displaystyle  L_n (\mu, \sigma | x_1, \ldots, x_n) = \left( \frac{1}{\sqrt{2 \pi \sigma^2}} \right)^n  \exp \left\{ -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (x_i - \mu)^2 \right\}

で与えられ、その対数尤度関数は

 \displaystyle l_n (\mu, \sigma) = -\frac{n}{2} \log (2\pi) - \frac{n}{2} \log \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2

となります。

母数 \mu微分して、 \muについて解けば母数 \muについての最尤推定量が得られます。

 \displaystyle \frac{\partial l_n}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = 0

 \displaystyle \hat \mu_{ML} = \frac{1}{n} \sum_{i=1}^{n} x_i = \bar x

この定量を使って、分散も推定ができます。そしてこの定量を使って他の推定量を得るという作業に落とし穴があるので注意(後述)。

対数尤度に \mu最尤推定 \hat \mu_{ML} を代入して母数 \sigma微分すると

 \displaystyle \frac{\partial l_n}{\partial \sigma} = - \frac{n}{2\sigma^2} + \frac{\sum_{i=4}^{n} (x_i - \hat \mu_{ML} )^2}{2\sigma^4} =0

が得られ、 \sigmaについて解くと

 \displaystyle \hat \sigma_{ML}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2

が得られます。

以上の手順で、正規分布の母数(平均と分散)の最尤推定

 \displaystyle \hat \mu_{ML} = \frac{1}{n} \sum_{i=1}^{n} x_i = \bar x

 \displaystyle \hat \sigma_{ML}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2

が得られました。

バイアス

先ほどの最尤推定量を得る過程で定量を使って他の推定量を得るなんて少し怪しいことをしたわけですが、怪しいという直感は当たっていて、分散は不偏推定量になっていません。不偏というのは推定量が真の母数の周りに対称に分布することを言います。 つまり、不偏でない推定量は母数を過小(あるいは過大)評価することを意味します。

定量と母数の二乗誤差の期待値(mean square error, MSE)を計算して見ると


\boldsymbol{\mathrm{E}} \left[ |\hat \theta - \theta|^2 \right] \\= \boldsymbol{\mathrm{E}} \left[ \left( (\hat \theta -
\boldsymbol{\mathrm{E}} (\hat \theta)) + (\boldsymbol{\mathrm{E}} (\hat \theta) - \theta) \right)^2 \right] \\= \boldsymbol{\mathrm{E}} \left[ \left( \hat \theta - \boldsymbol{\mathrm{E}} (\hat \theta) \right)^2 \right] + \left[ \left( \boldsymbol{\mathrm{E}} (\hat \theta) - \theta \right)^2 \right] \\= \boldsymbol{\mathrm{V}} \left( \hat \theta \right) + \left( \boldsymbol{\mathrm{E}} (\hat \theta) - \theta \right)^2

となり、右辺第二項の分推定量が偏ることがわかります。不偏推定量であればこのバイアス項は0になります。数学アレルギー勢にために一応説明しておくと、  \boldsymbol{\mathrm{V}} は分散(Variance)という意味です。

先ほどの正規分布の例で、分散の最尤推定量が不偏推定量になっていないというのはこのバイアス項が0にならないことを意味しています。

それは困ったと思うかもしれませんが、どの程度偏っているかわかっているなら補正すればよいだけです。

分散の最尤推定量の期待値を計算してみると(計算は気が向くか、コメントいただければまた書きます(mathjax疲れた))

 \displaystyle \boldsymbol{\mathrm{E}} (\hat \sigma_{ML}^2) = \frac{(n-1)}{n} \sigma^2

となり、 (n-1)/n倍だけ過小評価されている事がわかります。

じゃあ最尤推定値をこの分だけ補正して母数を推定すれば良いのです。

統計で習う分散の式が

 \displaystyle \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \mu)^2

となっているのはこの為です。

式だけでいきなり「ほぉそうか」と納得できる人はこれで良いのですが、数学アレルギー勢は釈然としないと思います。

絵で描くとわかりやすいので、気が向いたら絵でも描こうと思います。

今日は疲れたのでこの辺で。

参考書籍

  1. 応用を目指す数理統計学(国友 直人)