元バイオ系

元バイオウェット系がデータサイエンスやらを勉強していくブログ。 基本自分用のまとめ。

【数理統計】尤度関数と十分統計量

勉強したことを自分なりにまとめたものです。
間違い等があれば指摘していただけると嬉しいです。

私は「せいきぶんぷ~?」、「のんぱらめとりっく~?」という状態から

応用を目指す数理統計学(国友 直人)

で勉強しました。初学者が手を出すには敷居が高いですが、(本気で)頑張ればなんとかなるように書かれています。参考文献も充実しているのでとりあえず持っておくのはおすすめです。安いし。 (アフィリエイト等はないので安心して買ってください。)


以下、応用を目指す数理統計学(国友 直人)に基づいています。

自分なりの解釈も書いたりしてます。

Chapter 7 統計的推論より

統計量・推定量・推定値

  • 統計量とは「標本の関数」のこと
  • 定量とは「統計量を使って母集団を表現している未知母数を推測するときの統計量のこと」
  • 推定値とは「実際にデータを代入した場合の推定量のこと」

標本の関数でさえあれば統計量と呼ぶようです。その中でも、母数を推測する統計量を推定量と区別することに注意が必要といったところでしょうか。

「応用を目指す数理統計学」では正規分布に従うことの妥当性を標本積率を使って調べる方法を例に挙げてくれています(p108, 109)。 (書きすぎるとただの本のコピペになるので、気になる方は購入してください)。母集団と標本の積率を対応づけるので積率法と呼ばれるものの一例のようです。最近では積率法を一般化した一般化積率法がよく使われているとのこと。10章で解説してくれているそうなのでまあたとで勉強しよう。

尤度関数と十分統計量

  • 尤度関数とは「母数の関数」のこと
  • 十分統計量とは「母数に関する情報損失が無い統計量」のこと

尤度関数

簡単のため、離散確率分布の場合を考えます(連続でも同様)。 標本は大文字、確率変数は小文字で書くのがスタンダードっぽい。

 \thetaを母数、 x を標本の確率変数、 p(x|\theta)を母集団が従う確率変数とする。

この時、 n個の標本 X_1, X_2, \ldots , X_nの同時確率関数は

$$ p(x_1, x_2, \ldots , x_n | \theta) = \prod_{i=1}^{n} p(x_i|\theta) $$

で与えられる。これを、同時確率分布ではなく、母数 \thetaの関数として考えると

$$L_n (\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} p(x_i | \theta) $$

と書ける。これを尤度関数と呼ぶ。 LはLikelihoodの頭文字。

得られた標本から計算された尤度関数の意味としては「起きた事象はどの程度起こりやすい事象だったのか」を定量化したことになりそうです。俗にいう「尤もらしさ」とはこのことらしい。ただし、既知にしろ未知にしろ、「ある分布に関する母数」を設定してあるということはパラメトリックな分布を想定していることになります。真の分布ではなく、統計モデルに落とし込んでいるということは意識として持っておく必要がありますね。

実際には、(生物系では)次々にデータ(標本)が増えるシチュエーションはなかなかないので、標本は固定で \thetaを色々動かして母数を推定することになります(例えば最尤推定)。

十分統計量

データから母数 \thetaを推定する事をパラメトリック推測と呼ぶ。この時使う統計量が、母数に関して情報損失が無い場合、その統計量を十分統計量という。すなわち、十分統計量は母数 \thetaとは無関係の関数となる。

Fisherの因子分解定理が成立すれば十分統計量ってことらしい。

Fisherの因子分解定理
標本 X_1, \ldots, X_nに対して同時密度関数 f(x_1, \ldots, x_n)が存在し、 \boldsymbol{x} = (x_1, \ldots, x_n)とする。この時

$$f (\boldsymbol{x} | \theta) = g(T(\boldsymbol{x}) | \theta) h(\boldsymbol{x})$$

と分解できれば Tは十分統計量である。ということらしい。

証明は非常に簡単で、 f(\boldsymbol{x} | \theta)にこの分解定理を適用して確率密度を計算しなおしてみればよい。

$$f (\boldsymbol{x | \theta}) = f (\boldsymbol{x} | T=t)g(t|\theta) = h(\boldsymbol{x}; t)g(t|\theta)$$

ここでセミコロンは、変数かgivenな値か区別する記号(だと思われる)。これを全事象について積分して割ってやれば確率密度を計算できるので、全事象を A_t = \{\boldsymbol{x} | T(\boldsymbol{x}) = t \}として

$$\int_{A_t} f(\boldsymbol{x}|\theta) \mathrm{d}\boldsymbol{x} = g(T(\boldsymbol{x}) | \theta) \int_{A_t} h(\boldsymbol{x}; t) \mathrm{d}\boldsymbol{x}$$

とすると、

$$f(\boldsymbol{x} | T=t(\boldsymbol{x})) = \frac{f (\boldsymbol{x | \theta}) }{\int_{A_t} f(\boldsymbol{x}|\theta) \mathrm{d}\boldsymbol{x} } = \frac{h(\boldsymbol{x}; t)g(t|\theta)}{g(t | \theta) \int_{A_t} h(\boldsymbol{x} ; t) \mathrm{d}\boldsymbol{x}} = \frac{h(\boldsymbol{x}; t)}{\int_{A_t} h(\boldsymbol{x} ; t) \mathrm{d}\boldsymbol{x}}$$

となって母数 \thetaと無関係になる。

言われてみれば当然なんだけど、十分統計量だけ調べれば母数の推測は不要という点で強力ですね。