元バイオ系

元バイオウェット系がデータサイエンスやらを勉強していくブログ。 基本自分用のまとめ。

多変量ガウス分布を理解したい2

前回の記事で、多変量ガウス分布の正規化定数を導出しました。

hotoke-x.hatenablog.com

今回は

  1. 多変量ガウス分布の周辺化
  2. 条件付きガウス分布

を行います。

前回同様、数学の準備をしてから本題に入ります。

数学の準備

ブロック行列

ブロック行列の積は、通常の行列と同様に計算できます。しかしブロック行列の逆行列を求めようとすると一工夫必要です。 覚えておくと便利なので、ついでに行列式を得てから逆行列を求めます。

行列式

 \displaystyle A, B, C, Dをそれぞれブロック行列を構成する要素の行列とするとき、

$$ \begin{align} \left( \begin{array}{cc} A & B \\ C & D \\ \end{array} \right) = \left( \begin{array}{cc} I & O \\ CA^{-1} & I \\ \end{array} \right) \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \left( \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right) \end{align} $$

のように分解できます。導出は以下の通りです。

【導出】
まず、左辺から \displaystyle Bを消去します。

$$ \begin{align} \left( \begin{array}{cc} A & B \\ C & D \\ \end{array} \right) \left( \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right) &= \left( \begin{array}{cc} A & -B+B \\ C & D-CA^{-1}B \\ \end{array} \right) \\ &= \left( \begin{array}{cc} A & O \\ C & D-CA^{-1}B \\ \end{array} \right) \end{align} $$

次に \displaystyle Cを消去します。

$$ \begin{align} \left( \begin{array}{cc} I & O \\ -CA^{-1}I & I \\ \end{array} \right) \left( \begin{array}{cc} A & O \\ C & D-CA^{-1}B \\ \end{array} \right) &= \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \end{align} $$

以上より、

$$ \begin{align} \left( \begin{array}{cc} I & O \\ -CA^{-1} & I \\ \end{array} \right) &\left( \begin{array}{cc} A & B \\ C & D \\ \end{array} \right) \left( \begin{array}{cc} I & -A^{-1}B \\ O & I \\ \end{array} \right) = \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \\ \left( \begin{array}{cc} A & B \\ C & D \\ \end{array} \right) &= \left( \begin{array}{cc} I & O \\ -CA^{-1} & I \\ \end{array} \right)^{-1} \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \left( \begin{array}{cc} I & -A^{-1}B \\ O & I \\ \end{array} \right)^{-1} \\ &= \left( \begin{array}{cc} I & O \\ CA^{-1} & I \\ \end{array} \right) \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \left( \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right) \end{align} $$

ここで、 \displaystyle \det |AB| = \det |A||B|より、

$$ \begin{align} \left| \begin{array}{cc} A & B \\ C & D \\ \end{array} \right| &= \left| \begin{array}{cc} I & O \\ CA^{-1} & I \\ \end{array} \right| \left| \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right| \left| \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right| \\ &= \left| \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right| \\ &= \left|A\left(D-CA^{-1}B \right) \right| = \det A \det \left(D-CA^{-1}B \right) \end{align} $$

とブロック行列の行列式が求まりました。

逆行列

では、少し寄り道をしたところでブロック行列を分解した式から逆行列を求めていきます。

$$ \begin{align} \left(\begin{array}{cc} A & B \\ C & D \\ \end{array} \right)^{-1} &= \left(\left( \begin{array}{cc} I & O \\ CA^{-1} & I \\ \end{array} \right) \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right) \left( \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right)\right)^{-1} \\ &= \left( \begin{array}{cc} I & A^{-1}B \\ O & I \\ \end{array} \right)^{-1} \left( \begin{array}{cc} A & O \\ O & D-CA^{-1}B \\ \end{array} \right)^{-1} \left( \begin{array}{cc} I & O \\ CA^{-1} & I \\ \end{array} \right)^{-1} \end{align} $$

表記が大変なので、 \displaystyle S=D-CA^{-1}Bとして、

$$ \begin{align} \left(\begin{array}{cc} A & B \\ C & D \\ \end{array} \right)^{-1} &= \left( \begin{array}{cc} I & -A^{-1}B \\ O & I \\ \end{array} \right) \left( \begin{array}{cc} A^{-1} & O \\ O & S^{-1} \\ \end{array} \right) \left( \begin{array}{cc} I & O \\ -CA^{-1} & I \\ \end{array} \right) \\ &= \left( \begin{array}{cc} A^{-1} & -A^{-1}BS^{-1} \\ O & S^{-1} \\ \end{array} \right) \left( \begin{array}{cc} I & O \\ -CA^{-1} & I \\ \end{array} \right) \\ &= \left( \begin{array}{cc} A^{-1} + A^{-1}BS^{-1}CA^{-1} & -A^{-1}BS^{-1} \\ -S^{-1}CA^{-1} & S^{-1} \\ \end{array} \right) \end{align} $$

さらに、 \displaystyle Dが正則なら、逆行列の補助定理

$$ \begin{align} A^{-1} + A^{-1}BS^{-1}CA^{-1} = \left(A-BD^{-1}C \right)^{-1} \end{align} $$

より、

$$ \begin{align} \left(\begin{array}{cc} A & B \\ C & D \\ \end{array} \right)^{-1} &= \left( \begin{array}{cc} A^{-1} + A^{-1}BS^{-1}CA^{-1} & -A^{-1}BS^{-1} \\ -S^{-1}CA^{-1} & S^{-1} \\ \end{array} \right) \\ &= \left( \begin{array}{cc} \left(A - BD^{-1}C \right) & -A^{-1}B\left(D-CA^{-1}B\right)^{-1} \\ -\left(D-CA^{-1}B\right)^{-1}CA^{-1} & \left(D-CA^{-1}B\right)^{-1} \\ \end{array} \right) \end{align} $$

と書けます。ちなみに多変量ガウス分布を考える場合は、このブロック行列は分散共分散行列に対応するため半正定値です。そのためランク落ちさえしなければ \displaystyle Dは正則になります。

多変量ガウス分布の周辺化

$$ \begin{align} p({\boldsymbol x}_{1})= \int p \left({\boldsymbol x}_{1}, {\boldsymbol x}_{2} \right) {\mathrm d}{\boldsymbol x}_{2} = {\mathcal N} \left({\boldsymbol x}_{1}, \Sigma_{1} \right) \end{align} $$

を確かめます。ここで、 \displaystyle {\boldsymbol x}_{1}, {\boldsymbol x}_{2}は、

$$ \begin{align} \left(\begin{array}{c} {\boldsymbol x}_{1} \\ {\boldsymbol x}_{2} \\ \end{array} \right) &\sim {\mathcal N} \left( \left( \begin{array}{c} {\boldsymbol 0} \\ {\boldsymbol 0} \\ \end{array} \right), \left( \begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \\ \end{array} \right) \right) \end{align} $$

だとします。データを適当に2分割して表示しただけですね。また、

$$ \begin{align} \Lambda = \left( \begin{array}{cc} \Lambda_{11} & \Lambda_{12} \\ \Lambda_{21} & \Lambda_{22} \\ \end{array} \right) &= \left( \begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \\ \end{array} \right)^{-1} \end{align} $$

とすれば、

$$ \begin{align} p \left(\begin{array}{c} {\boldsymbol x}_{1} \\ {\boldsymbol x}_{2} \\ \end{array} \right) &\propto \exp \left\{ - \frac{1}{2} \left( \begin{array}{c} {\boldsymbol x_{1}} \\ {\boldsymbol x_{2}} \\ \end{array} \right)^{\mathrm T} \left( \begin{array}{cc} \Lambda_{11} & \Lambda_{12} \\ \Lambda_{21} & \Lambda_{22} \\ \end{array} \right) \left( \begin{array}{c} {\boldsymbol x_{1}} \\ {\boldsymbol x_{2}} \\ \end{array} \right) \right\} \end{align} $$

を確かめればよいです。2分割以上の場合でも同様に示せます。

 \displaystyle \Lambdaは対称行列なので、 \displaystyle \Lambda = \Lambda^{\mathrm T}と、2次形式の平方完成を使って

$$ \begin{align} {\mathcal L} &= - \frac{1}{2} \left( \begin{array}{c} {\boldsymbol x_{1}} \\ {\boldsymbol x_{2}} \\ \end{array} \right)^{\mathrm T} \left( \begin{array}{cc} \Lambda_{11} & \Lambda_{12} \\ \Lambda_{21} & \Lambda_{22} \\ \end{array} \right) \left( \begin{array}{c} {\boldsymbol x_{1}} \\ {\boldsymbol x_{2}} \\ \end{array} \right) \\ &= {\boldsymbol x_{1}}^{\mathrm T} \Lambda_{11} {\boldsymbol x_{1}} + {\boldsymbol x_{1}}^{\mathrm T} \Lambda_{12} {\boldsymbol x_{1}} + {\boldsymbol x_{2}}^{\mathrm T} \Lambda_{21} {\boldsymbol x_{1}} + {\boldsymbol x_{2}}^{\mathrm T} \Lambda_{22} {\boldsymbol x_{2}} \\ &= {\boldsymbol x_{1}}^{\mathrm T} \Lambda_{11} {\boldsymbol x_{1}} + 2 {\boldsymbol x_{1}}^{\mathrm T} \Lambda_{21} {\boldsymbol x_{2}} + {\boldsymbol x_{2}}^{\mathrm T} \Lambda_{22} {\boldsymbol x_{2}} \\ &= \left({\boldsymbol x}_2 + \Lambda_{22}^{-1}\Lambda_{21}{\boldsymbol x}_{1} \right)^{\mathrm T} \Lambda_{22} \left({\boldsymbol x}_2 + \Lambda_{22}^{-1}\Lambda_{21}{\boldsymbol x}_{1} \right) - {\boldsymbol x}_1^{\mathrm T} \Lambda_{21}^{\mathrm T}\Lambda_{22}^{-1}\Lambda_{21}{\boldsymbol x}_{1} + {\boldsymbol x}_{1}^{\mathrm T}\Lambda_{11}{\boldsymbol x}_{1} \end{align} $$

ここで第一項の二次形式は \displaystyle x_{2}で積分されたとき、前回の記事の多変数のガウス積分を用いれば、 \displaystyle \Lambda_{22}に依存する定数項になります。以上より、

$$ \begin{align} p({\boldsymbol x}_{1}) &= \int p \left({\boldsymbol x}_{1}, {\boldsymbol x}_{2} \right) {\mathrm d}{\boldsymbol x}_{2} \\ &= \exp \left\{ - \frac{1}{2} \left( {\boldsymbol x}_1^{\mathrm T} \Lambda_{21}^{\mathrm T}\Lambda_{22}^{-1}\Lambda_{21}{\boldsymbol x}_{1} + {\boldsymbol x}_{1}^{\mathrm T}\Lambda_{11}{\boldsymbol x}_{1} \right) \right\} \exp \left( const. \right) \\ &\propto \exp \left\{ - \frac{1}{2} {\boldsymbol x}_1^{\mathrm T} \left( \Lambda_{11} - \Lambda_{21}^{\mathrm T}\Lambda_{22}^{-1}\Lambda_{21} \right) {\boldsymbol x}_{1} \right\} \end{align} $$

以上より、

$$ \begin{align} p({\boldsymbol x}_{1}) &= {\mathcal N} \left({\boldsymbol 0}, \left( \Lambda_{11} - \Lambda_{21}^{\mathrm T}\Lambda_{22}^{-1}\Lambda_{21} \right)^{-1} \right) \end{align} $$

である。式 (17)、(18)より、

$$ \begin{align} \left( \Lambda_{11} - \Lambda_{21}^{\mathrm T}\Lambda_{22}^{-1}\Lambda_{21} \right)^{-1} &= \Sigma_{11} \end{align} $$

となることがわかる。式 (20)と見比べると、ちょうど \displaystyle \boldsymbol x_2に関するものが消えていることがわかります。

条件付き多変量ガウス分布

$$ \begin{align} \begin{array}{l} p\left({\boldsymbol x}_{2} | {\boldsymbol x}_{1} \right) &\propto p\left({\boldsymbol x}_{1}, {\boldsymbol x}_{2} \right)\\ &\propto \exp \left(-\frac{1}{2} \left\{ \left(\begin{array}{l} {\boldsymbol x}_{1}-{\boldsymbol \mu}_{1} \\ {\boldsymbol x}_{2}-{\boldsymbol \mu}_{2} \end{array}\right)^{T} \left(\begin{array}{ll} {\boldsymbol \Lambda}_{11} & {\boldsymbol \Lambda}_{12} \\ {\boldsymbol \Lambda}_{21} & {\boldsymbol \Lambda}_{22} \end{array} \right) \left(\begin{array}{l} {\boldsymbol x}_{1}- {\boldsymbol \mu}_{1} \\ {\boldsymbol x}_{2}- {\boldsymbol \mu}_{2} \end{array}\right) \right\}\right) \\ &=\exp \left(-\frac{1}{2}\left\{\left(x_{1}-\mu_{1}\right)^{\mathrm{T}} \mathbf{\Lambda}_{11}\left(x_{1}-\boldsymbol{\mu}_{1}\right)+\left(x_{1}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \mathbf{\Lambda}_{12}\left(x_{2}-\boldsymbol{\mu}_{2}\right)+\left(x_{2}-\boldsymbol{\mu}_{2}\right)^{\mathrm{T}} \mathbf{\Lambda}_{21}\left(x_{1}-\boldsymbol{\mu}_{1}\right)+\left(x_{2}-\boldsymbol{\mu}_{2}\right)^{\mathrm{T}} \mathbf{\Lambda}_{22}\left(x_{2}-\boldsymbol{\mu}_{2}\right)\right\}\right)\\ &\propto \exp \left[-\frac{1}{2}\left\{\left(x_{2}-\mu_{2}\right)^{\mathrm{T}} \mathbf{\Lambda}_{22}\left(x_{2}-\mu_{2}\right)+2\left(x_{1}-\mu_{1}\right)^{\mathrm{T}} \mathbf{\Lambda}_{21}\left(x_{2}-\mu_{2}\right)\right\}\right]\\ &\propto \exp \left[-\frac{1}{2}\left\{x_{2}^{x} \mathbf{\Lambda}_{2 x} x_{2}-x_{2}^{T} \mathbf{\Lambda}_{2} \mu_{2}-\mu_{2}^{T} \mathbf{\Lambda}_{2} x_{2}+\mu_{2}^{T} \mathbf{\Lambda}_{22} \mu_{2}+2\left(x_{1}-\mu_{1}\right)^{T} \mathbf{\Lambda}_{21} x_{2}-2\left(x_{1}-\mu_{1}\right)^{T} \mathbf{\Lambda}_{21} \mu_{2}\right\}\right] \end{array} \end{align} $$

 \displaystyle x_2に関する項だけ残せば

$$ \begin{align} &\propto \exp \left(-\frac{1}{2}\left\{x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{22} x_{2}-x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{22} \boldsymbol{\mu}_{2}-\boldsymbol{\mu}_{2}^{\mathrm{T}} \boldsymbol{\Lambda}_{22} x_{2}+2\left(x_{1}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{21} x_{2}\right\}\right)\\ &=\exp \left[-\frac{1}{2}\left\{x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{22} x_{2}-2 x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{22} \boldsymbol{\mu}_{2}+2 x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{21}\left(x_{1}-\mu_{1}\right)\right\}\right]\\ &=\exp \left[-\frac{1}{2}\left\{x_{2}^{\mathrm{T}} \mathbf{\Lambda}_{22} x_{2}-2 x_{2}^{\mathrm{T}}\left(\mathbf{\Lambda}_{22} \boldsymbol{\mu}_{2}-\mathbf{\Lambda}_{21}\left(x_{1}-\mu_{1}\right)\right)\right\}\right] \end{align} $$

これを平方完成すれば、

$$ \begin{align} \propto \exp \left(-\frac{1}{2}\left\{\left(x_{2}-\Lambda_{22}^{-1}\left(\Lambda_{22} \mu_{2}-\Lambda_{21}\left(x_{1}-\mu_{1}\right)\right)\right)^{T} \Lambda_{22}\left(x_{2}-\cdots\right)\right\}\right) \end{align} $$

以上より、

$$ \begin{align} p\left(x_{2} | x_{1}\right) & \sim \mathcal{N}\left(\Lambda_{22}^{-1}\left(\Lambda_{22} \mu_{2}-\Lambda_{21}\left(x_{1}-\mu_{1}\right)\right), \Lambda_{22}^{-1}\right) \\ &=\mathcal{N}\left(\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(x_{1}-\mu_{1}\right), \Lambda_{22}^{-1}\right) \end{align} $$

ここで、ブロック行列の逆行列を用いれば、

$$ \begin{align} p\left(x_{2} | x_{1}\right) & \sim \mathcal{N}\left(x_{2}-S\left(-S^{-1} \Sigma_{21} \Sigma_{11}^{-1}\right)\left(x_{1}-\mu\right), S\right) \\ &=\mathcal{N}\left(\mu_{2}+\Sigma_{21} \Sigma_{11}^{-1}\left(x_{1}-\mu_{1}\right), \Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{21}\right) \end{align} $$

となります。平均については、 \displaystyle \Sigma_{11}^{-1} (x_1 - \mu_1)で標準化してから、 \displaystyle \Sigma_{21}で線形変換していると考えるとしっくりくる気がします(個人の感想)。