【数理統計】Fisher情報量とクラメール・ラオ下限(CR下限)
Fisher情報量って何なのか理解したかっただけ。
Fisher情報量がわかれば、クラメール・ラオ下限(不偏推定量の分散の下限)がわかる。
備忘録として簡単にまとめておく。
前提として、不偏推定量についてだけ考えるものとする。
不偏推定量に関してはこちら
推定量が不偏性を持てば、その推定量の最適性・適切性の判定が容易になる。 互いに独立な標本の同時密度関数がで与えられるとする。すなわち $$ \begin{align} X_i \in \boldsymbol{X} &, \quad i \in \left\{1, \ldots, n \right\} \\ f(\boldsymbol{x}|\theta) := \prod_{i=1}^n p(x_i; \theta) &,\quad \boldsymbol{x} = \left\{x_1, \ldots, x_n \right\} \end{align} $$
このとき、 $$ \begin{align} \forall \theta \in \Theta,\qquad \boldsymbol{E} \left(\hat \theta_n \right) \end{align} $$
を満足する。これをについて微分 $$ \begin{equation} \frac{\partial}{\partial \theta} \boldsymbol{E} \left(\hat \theta_n \right) = 1 \end{equation} $$
これを展開 $$ \begin{equation} \frac{\partial}{\partial \theta} \int f(\boldsymbol{x}|\theta) ~ \hat \theta_n ~ \mathrm{d}\boldsymbol{x} = \int \hat \theta_n \frac{\partial}{\partial \theta} f(\boldsymbol{x}|\theta) \mathrm{d}\boldsymbol{x} \label{eq:fisher1} \end{equation} $$
ここで、 $$ \begin{align} \frac{\partial}{\partial \theta} \log{L} &= \frac{1}{L} \frac{\partial L }{\partial \theta} \\ \frac{\partial L}{\partial \theta} &= L \frac{\partial}{\partial \theta} \log{L} \end{align} $$
より
$$ \begin{align} \mathrm{R.H.S} &= \int \hat \theta_n \frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta} f(\boldsymbol{x}|\theta) \mathrm{d} x \\ &= \boldsymbol{E} \left[\hat \theta_n \frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta} \right] \\ &= Covariance \left(\hat \theta_n, \frac{\partial \log{f(\boldsymbol{x} | \theta)} }{\partial \theta} \right) \\ &\leq \sqrt{V \left(\hat \theta_n\right)} \sqrt{I_n\left(\theta \right)} \label{eq:fisherinfo} \end{align} $$
ここで、はFisher情報量と呼ばれる量で、クラメール・ラオの下限(CR下限)と密接な関係がある(後述)。なお、
$$ \begin{align} Covariance \left(\hat \theta_n, \frac{\partial \log{f(\boldsymbol{x} | \theta)} }{\partial \theta} \right) \leq \sqrt{V \left(\hat \theta_n\right)} \sqrt{I_n\left(\theta \right)} \end{align} $$ ではコーシー・シュワルツ不等式を利用した。また、
$$ \begin{align} I_n\left(\theta \right) &= V \left(\frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta} \right) \\ &= \boldsymbol{E} \left[\left( \frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta}\right) ^2 \right] \end{align} $$
特に個の標本がなら $$ \begin{align} I_n \left( \theta \right) &= \boldsymbol{E} \left[ \left( \frac{\partial}{\partial \theta} \sum_{i=1}^{n} \log{f(\boldsymbol{x}|\theta)} \right) ^2 \right] \\ &= n \boldsymbol{E} \left[\left(\frac{\partial}{\partial \theta} \log{f(\boldsymbol{x_1}|\theta)} \right) ^2 \right] \\ &= nI_1 \left( \theta \right) \end{align} $$
ここで $$ \begin{equation} \frac{\partial}{\partial \theta} \boldsymbol{E} \left(\hat \theta_n \right) = 1 \end{equation} $$
を思い出せば $$ \begin{align} Covariance \left(\hat \theta \left(\boldsymbol{x} \right), \frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta} \right) &= 1 \\ Covariance \left(\hat \theta \left(\boldsymbol{x} \right), \frac{\partial \log{f(\boldsymbol{x}|\theta)}}{\partial \theta} \right) &\leq \sqrt{V \left(\hat \theta_n \right)} \sqrt{I_n \left(\theta \right)} \end{align} $$
より $$ \begin{align} 1 &\leq \sqrt{I_n \left(\theta \right)} \\ V \left(\hat \theta \right) &\geq \frac{1}{nI_1 \left(\theta \right)} \label{eq:CR} \end{align} $$
となる。以上より、フィッシャー情報量によって推定量の分散の下限が決まることがわかる(推定量としての良さがわかる)。この下限をクラメール・ラオ下限(CR下限)と呼ぶ。
Julia1.0でマクロを@docしまくった
タイトルの通りである。
「Juliaのマクロ、全然わからん」
と思ったので、とりあえず@の後にtabを打って出てくるマクロすべてについて@docしてみた。
【Julia】Julia-1.0.0のProjectを試す【仮想環境?】
Julia1.0.0が遂にリリースされました。
仮想環境っぽいものを作って環境の切り替えができるようなので、試してみます。
Projectの作成
Anaconda Pythonではconda createコマンドで仮想環境を作れました。
Julia1.0.0ではProjectと呼ぶようです。
Anacondaでは
conda create -n envname
とする必要がありましたが、Juliaではプロジェクトのディレクトリに入って
activate .
とするようです。
その後、
julia>]
(projectname)pkg> add hogehoge
で、プロジェクトローカルな環境にhogehogeパッケージが入ります。
その後バックスペースでpkg環境を抜けて同フォルダで作業すれば良いっぽい。
ただ、Julia1.0.0がリリースされたのが記事作成時点で昨日の今日なので、対応が追い付いているパッケージを探すのが結構大変です(2018/08/10現在)。
私は情弱なのでおとなしく修正を待つことにします。
(ちなみに現状遊ぶなら0.6が無難)
文献検索、管理、メモを1つの画面で完結させる
文献管理ソフトの紹介です。
以前にPaperpileが凄いって紹介をしました。 hotoke-x.hatenablog.com
個人的には好きなんですが、wordとの相性が悪い...
もっと良いのはないかと思ってたらReadcubeがありました。
数か月使ったので良い部分を簡単に紹介していきます。
※例示しているのはオープンアクセスな論文です。
Readcubeの凄いところ
- 複数の検索エンジンで同時検索
- 検索結果が自動保存される(そして簡単に消せる)
- 毎年の引用数がわかる
- 引用されている文献へ容易に飛べる
- どんな風に引用されているのか見れる
- Recommendationsが強力
こんな感じで全体的に便利すぎ。
全部1つの画面で完結します。
関連論文が次から次へ見つかって大変(嬉しい)。
使い方
ユーザー登録は済んでいるものとします。
また、ウェブ版での説明です(デスクトップ版もあります)。
基本画面(青い四角は身バレ防止です。)
画面にNatureやらScienceやらGoogle Scholarやらが表示されてますが、こっから同時検索してくれます。 なんかもうこれだけで凄い...。
検索してみた結果。 アブストが表示される。 オープンアクセスだったり、学校などジャーナルを購読している機関からアクセスするとFigureまで表示してくれます。
検索結果の図をクリックすると拡大表示。この段階ではまだ文献をダウンロードしたりしていません。 あくまでも検索結果です。
「Add to Library」をクリックするとインポートしてくれます。
(supplementがあればそれも同時にインポートする。すごい...)
そして、画面左側には検索結果が自動保存されます。便利! 青い部分には自分でタグ付けした文献が入っています。 一つの文献に複数のタグをもたせることもできます。
ここからが特にお気に入りの機能。
ライブラリで文献をクリックすると、情報が表示されます。 アブストがここでざっと確認出来ます。
で、上のグラフのマークをクリックすると引用情報が見れます。
毎年どれくらい引用されているのか、どの論文に引用されているのかを見ることができます。
どんなふうに引用されているかも見ることができる。凄すぎて拍手。
その他
デスクトップ版ではwordへのcitation追加機能も付いてきます。
もちろん文献を読みながらハイライトしたり、ノートをとることも可能です。
デスクトップアプリが重いことが唯一残念。
Recommendationsをクリックすると、ライブラリの文献を元にお勧め論文を検索して表示してくれます。
しかもタグごとのお勧めも表示可能。
関連論文がめっちゃ見つかります。
【数理統計】ラオーブラックウェル化(Rao-Blackwellization)
理解したいのはこっちでした。
本質的には同じ問題だけど。
ラオーブラックウェル化(Rao-Blackwellization)は、条件付き期待値を利用して期待値を計算する方法です。
サンプルが独立なら、ブラックウェルーラオの定理より直接期待値を計算するより精度が良くなる事が保証されます(不思議)。
名前の順番がひっくり返っているのは知りません(書籍でこう書いてあったからそのまま書いてます)
ブラックウェルーラオの定理の証明はこちら
ラオーブラックウェル化(Rao-Blackwellization)
確率変数を二つのブロックに分割し、と表す。このとき、の統計量の期待値
を求めることを考えます。
からサンプリングされたを用いれば、上式の期待値は以下のように計算できます。
ここで、であることに注意。
さらにの条件付き分布で同時分布を分解すると
となるので、この式の真ん中部分
を解析的に求められれば、
によって計算できる。
なんだ面倒くさいと思うが、実はラオーブラックウェルの定理から
が成立し、より良い推定値になり得ることがわかる。
参考書籍
【数理統計】ブラックウェルーラオ(Blackwell-Rao)の定理
はい。
私がちゃんと理解したかった定理です。
復習したら見た瞬間理解したのですが、一応メモっておきます。
初学者向けの説明がなかなかネットに落ちていなかった(気がする)ので。
初めに行っておくと、この定理は
「十分統計量で条件づけた不偏推定量の分散は、他の不偏推定量の分散より大きくなることはない。」
って定理です(違ったらコメントください)。
十分統計量に依存した不偏推定量を使っとけばとりあえず無難ですよってことですな。
数学アレルギーでも、この程度の認識は持っておいた方が良いでしょう。
十分統計量についてはこちら hotoke-x.hatenablog.com
不偏推定量についてはこちら hotoke-x.hatenablog.com
証明
証明は結構簡単です。
今、未知母数の推定量は不変推定量しか考えないとします。このとき、標本についての不偏推定量、十分統計量を考えます。この時十分統計量で条件付けした統計量をとすると
十分統計量に依存しない不偏推定量を用いた場合、下から2段目の式の第一項の分、推定量が悪くなり得ることを示しています。
まとめるとブラックウェルーラオ(Blackwell-Rao)の定理は以下のようになります[1]。
標本の各要素が互いに独立同分布に従うとき(independent and identically distributed, i.i.d.と書くことも多い)、を十分統計量、統計量は母数の不偏推定量とする。このとき
- は不変推定量
- となる
参考書籍
- 応用を目指す数理統計学(国友 直人)
【数理統計】最尤推定量とバイアス
尤度
尤度については
を参照。
例によって離散か連続かはあまり気にせず書きます。
尤度関数とは、母集団分布からの独立標本が得られたとき、確率関数から同時確率関数を母数の関数と見た
$$L_n (\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} p(x_i | \theta) $$
のことでした[1]。
この尤度関数を最大にするようなの値を最尤推定値といい、その推定量を最尤推定量(maximum likelihood estimator, MLE)と呼びます。私の読むレベルの文献ではと書かれていることが多いです。
最尤推定
最尤推定すれば未知母数の推定もうまくいきそうですが本当にそうでしょうか。百聞は一見に如かずということで確かめてみます。
ここで、正規分布の平均と分散を未知として、最尤推定する問題を考えます。
母集団分布を平均、分散の正規分布とする。標本を独立にn個サンプリングし、観測値が得られたとするとその尤度関数は
で与えられ、その対数尤度関数は
となります。
母数で微分して、について解けば母数についての最尤推定量が得られます。
この推定量を使って、分散も推定ができます。そしてこの推定量を使って他の推定量を得るという作業に落とし穴があるので注意(後述)。
が得られ、について解くと
が得られます。
が得られました。
バイアス
先ほどの最尤推定量を得る過程で推定量を使って他の推定量を得るなんて少し怪しいことをしたわけですが、怪しいという直感は当たっていて、分散は不偏推定量になっていません。不偏というのは推定量が真の母数の周りに対称に分布することを言います。 つまり、不偏でない推定量は母数を過小(あるいは過大)評価することを意味します。
推定量と母数の二乗誤差の期待値(mean square error, MSE)を計算して見ると
となり、右辺第二項の分推定量が偏ることがわかります。不偏推定量であればこのバイアス項は0になります。数学アレルギー勢にために一応説明しておくと、は分散(Variance)という意味です。
先ほどの正規分布の例で、分散の最尤推定量が不偏推定量になっていないというのはこのバイアス項が0にならないことを意味しています。
それは困ったと思うかもしれませんが、どの程度偏っているかわかっているなら補正すればよいだけです。
分散の最尤推定量の期待値を計算してみると(計算は気が向くか、コメントいただければまた書きます(mathjax疲れた))
となり、倍だけ過小評価されている事がわかります。
じゃあ最尤推定値をこの分だけ補正して母数を推定すれば良いのです。
統計で習う分散の式が
となっているのはこの為です。
式だけでいきなり「ほぉそうか」と納得できる人はこれで良いのですが、数学アレルギー勢は釈然としないと思います。
絵で描くとわかりやすいので、気が向いたら絵でも描こうと思います。
今日は疲れたのでこの辺で。
参考書籍
- 応用を目指す数理統計学(国友 直人)
【数理統計】尤度関数と十分統計量
勉強したことを自分なりにまとめたものです。
間違い等があれば指摘していただけると嬉しいです。
私は「せいきぶんぷ~?」、「のんぱらめとりっく~?」という状態から
で勉強しました。初学者が手を出すには敷居が高いですが、(本気で)頑張ればなんとかなるように書かれています。参考文献も充実しているのでとりあえず持っておくのはおすすめです。安いし。 (アフィリエイト等はないので安心して買ってください。)
以下、応用を目指す数理統計学(国友 直人)に基づいています。
自分なりの解釈も書いたりしてます。
Chapter 7 統計的推論より
統計量・推定量・推定値
標本の関数でさえあれば統計量と呼ぶようです。その中でも、母数を推測する統計量を推定量と区別することに注意が必要といったところでしょうか。
「応用を目指す数理統計学」では正規分布に従うことの妥当性を標本積率を使って調べる方法を例に挙げてくれています(p108, 109)。 (書きすぎるとただの本のコピペになるので、気になる方は購入してください)。母集団と標本の積率を対応づけるので積率法と呼ばれるものの一例のようです。最近では積率法を一般化した一般化積率法がよく使われているとのこと。10章で解説してくれているそうなのでまあたとで勉強しよう。
尤度関数と十分統計量
- 尤度関数とは「母数の関数」のこと
- 十分統計量とは「母数に関する情報損失が無い統計量」のこと
尤度関数
簡単のため、離散確率分布の場合を考えます(連続でも同様)。 標本は大文字、確率変数は小文字で書くのがスタンダードっぽい。
を母数、 を標本の確率変数、を母集団が従う確率変数とする。
この時、個の標本の同時確率関数は
$$ p(x_1, x_2, \ldots , x_n | \theta) = \prod_{i=1}^{n} p(x_i|\theta) $$
で与えられる。これを、同時確率分布ではなく、母数の関数として考えると
$$L_n (\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} p(x_i | \theta) $$
と書ける。これを尤度関数と呼ぶ。はLikelihoodの頭文字。
得られた標本から計算された尤度関数の意味としては「起きた事象はどの程度起こりやすい事象だったのか」を定量化したことになりそうです。俗にいう「尤もらしさ」とはこのことらしい。ただし、既知にしろ未知にしろ、「ある分布に関する母数」を設定してあるということはパラメトリックな分布を想定していることになります。真の分布ではなく、統計モデルに落とし込んでいるということは意識として持っておく必要がありますね。
実際には、(生物系では)次々にデータ(標本)が増えるシチュエーションはなかなかないので、標本は固定でを色々動かして母数を推定することになります(例えば最尤推定)。
十分統計量
データから母数を推定する事をパラメトリック推測と呼ぶ。この時使う統計量が、母数に関して情報損失が無い場合、その統計量を十分統計量という。すなわち、十分統計量は母数とは無関係の関数となる。
Fisherの因子分解定理が成立すれば十分統計量ってことらしい。
Fisherの因子分解定理
標本に対して同時密度関数が存在し、とする。この時
$$f (\boldsymbol{x} | \theta) = g(T(\boldsymbol{x}) | \theta) h(\boldsymbol{x})$$
と分解できればは十分統計量である。ということらしい。
証明は非常に簡単で、にこの分解定理を適用して確率密度を計算しなおしてみればよい。
$$f (\boldsymbol{x | \theta}) = f (\boldsymbol{x} | T=t)g(t|\theta) = h(\boldsymbol{x}; t)g(t|\theta)$$
ここでセミコロンは、変数かgivenな値か区別する記号(だと思われる)。これを全事象について積分して割ってやれば確率密度を計算できるので、全事象をとして
$$\int_{A_t} f(\boldsymbol{x}|\theta) \mathrm{d}\boldsymbol{x} = g(T(\boldsymbol{x}) | \theta) \int_{A_t} h(\boldsymbol{x}; t) \mathrm{d}\boldsymbol{x}$$
とすると、
$$f(\boldsymbol{x} | T=t(\boldsymbol{x})) = \frac{f (\boldsymbol{x | \theta}) }{\int_{A_t} f(\boldsymbol{x}|\theta) \mathrm{d}\boldsymbol{x} } = \frac{h(\boldsymbol{x}; t)g(t|\theta)}{g(t | \theta) \int_{A_t} h(\boldsymbol{x} ; t) \mathrm{d}\boldsymbol{x}} = \frac{h(\boldsymbol{x}; t)}{\int_{A_t} h(\boldsymbol{x} ; t) \mathrm{d}\boldsymbol{x}}$$
となって母数と無関係になる。
言われてみれば当然なんだけど、十分統計量だけ調べれば母数の推測は不要という点で強力ですね。