「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

【ベイズ統計学】入門 ベイズ統計学(03/X)

 Bayes統計学を今回は

を主に参照しつつ学んでいく。

今回のまとめ

  • 分布に関するBayesの定理により、
    \begin{aligned}f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}}\end{aligned}
    が成り立つ。
  • 確率分布において母数および変数を含む部分をカーネルという。これに対して正規化定数(係数)を全事象の確率が1になるように規格化するための定数部分を指す。
  • Bayes推定では、①EAP定量、②MAP推定量、③MED推定量のいずれかを用いる。
  • Bayes統計学における信頼区間に相当する確信区間は「確率変数である母数が具体的なその区間に含まれる確率が100(1-\alpha)\%である」と直接的に解釈できる。

3. Bayes推定

3.1 分布に関するBayesの定理

 分布関数をf(x)、パラメータを\thetaとして、条件付き確率の定義から


\begin{aligned}
f(x,\theta)=&f(x|\theta)f(\theta),\\
f(x,\theta)=&f(\theta|x)f(x)
\end{aligned}

が成り立つ。ここで前者では\thetaを確率変数と見なしていることになる*1
 {}^{\forall}x\in\mathbb{R}(f(x)\neq0)であると仮定して後者の式を変形した後に前者を代入することで


\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{f(x)}}
\end{aligned}

と分布に関するBayesの定理が得られる。この場合、f(\theta)を事前分布、f(\theta|x)を事後分布(f(x|\theta)を尤度)と呼ぶ。
 全確率の公式


\begin{aligned}
f(x)=\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}
\end{aligned}
を代入することで更に


\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}}
\end{aligned}

と書き換えることもできる。

3.2 カーネル・正規化定数

 Bayesの定理


\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}}
\end{aligned}
はさまざまな式から成り立っているが、このうち母数および変数を含んでいるという意味で中核をなす部分をカーネルという。
 たとえば二項分布

\begin{aligned}
f(x|\theta)={}_{n}C_x\theta^x(1-\theta)^{n-x}
\end{aligned}
の場合、カーネル

\begin{aligned}
C_x\theta^x(1-\theta)^{n-x}
\end{aligned}
である。カーネルは母数および変数を持つのだから、その確率分布の本質的な性質を決定する。これを強調するために考えている分布のカーネル

\begin{aligned}
f(x|\theta)\propto\theta^x(1-\theta)^{n-x}
\end{aligned}
と表現する。これに対して二項分布の{}_{n}C_xは全事象の確率が1になるように規格化するための定数と考えられ、これを正規化定数(係数)という。

3.3 より一般的な記述方法*2

 確率変数を\boldsymbol{X}とし、観測データとして\boldsymbol{X}_n=\{\boldsymbol{x}_1,\cdots,\boldsymbol{x}_n\}が取得されたとする。これを用いて統計モデル\{f(\boldsymbol{x}|\boldsymbol{\theta}; \boldsymbol{\theta}\in\Theta)\}に基づき、観測データの背後にある未知の構造を推測する。
 Bayesの定理より、パラメータの確率分布を\pi(\boldsymbol{\theta})を事前分布として設定する。


\begin{aligned}
\pi(\boldsymbol{\theta}|\boldsymbol{X}_n)=\displaystyle{\frac{f(\boldsymbol{X}_n|\boldsymbol{\theta})\pi(\boldsymbol{\theta})}{\displaystyle{\int f(\boldsymbol{X}_n|\boldsymbol{\theta})\pi(\boldsymbol{\theta}) d\boldsymbol{\theta}}}} \propto f(\boldsymbol{X}_n|\boldsymbol{\theta})\pi(\boldsymbol{\theta})
\end{aligned}

3.4 事前分布の設定

3.4.1 自然共役事前分布

 Bayes統計学では事後分布が常に計算可能だとは限らないという問題がある。そこで事後分布が求まるような事前分布を選ぶという方針によりこれを解消することができる*3


図表1 自然共役事前分布と尤度の組み合わせ

尤度
事前分布
事後分布
(1) Bernoulli分布 Beta分布 Beta分布
(2) 二項分布 Beta分布 Beta分布
(3) Poisson分布 Gamma分布 Gamma分布
(4) 正規分布の平均 正規分布 正規分布
(5) 正規分布の分散 逆ガンマ分布 逆ガンマ分布

出典:豊田(2015)*4

3.4.2 無情報事前分布

 事前に何の情報もないことを事前分布として与えた場合、これを無情報事前分布と呼ぶ。これはどのようなパラメータ値が出るのかは全く未知、すなわち確率が一様に分布していることを意味するから、一様分布を事前分布として仮定することに等しい。


\begin{aligned}
\pi(\boldsymbol{\theta})=C,\ \boldsymbol{\theta}\in A,\ C\in\mathbb{R}
\end{aligned}

 後述するようにこれについては批判が存在するものの、①現実的なデータ解析が採用した尺度上で利用されるのが普通で尺度変換を考慮する必要性が薄いこと、②一様分布を用いるとMAP推定量最尤推定量に一致するため利便性があること、の2つを踏まえてそのまま一様分布を用いる。

3.4.3 局所一様事前分布

 無情報事前分布として一様分布を用いることは、実際には無情報を表し得ない側面がある。それは尺度変換に対して一様性が保てない点を指している。
 これに対応するのに、Fisher情報量の平方根に比例する分布を導入でき、これを局所一様事前分布という。

3.5 事後分布の評価

 すべてのBayes推測は事後分布を用いて行う。特定の値を用いて母数を評価する方法を点推定という。Bayes統計学では3つの点推定方法を用いる。

3.5.1 事後期待値

 1つ目は事後分布を用いたパラメータの期待値をパラメータの推定値として用いる方法であり、これを事後期待値(EAP: Expected A Posteriori)という。すなわち


\begin{aligned}
\hat{\theta}_{EAP}=E[\theta|\boldsymbol{x}]=\int\theta f(\theta|\boldsymbol{x})d\theta=\displaystyle{\int\theta\frac{f(\boldsymbol{x}|\theta)f(\theta)}{f(\boldsymbol{x})}d\theta}
\end{aligned}

3.5.2 事後確率最大値

 2つ目は事後確率を最大にするパラメータ値を推定値として用いる方法であり、これを事後確率最大値(MAP: Maximum A Posteriori)という。すなわち


\begin{aligned}
\hat{\theta}_{EAP}=\displaystyle{\arg\max_{\theta} f(\theta|\boldsymbol{x})}
\end{aligned}

一般的には、最尤推定と同様に、事後分布の対数を取り、それをパラメータで微分したものを0とおいてパラメータについて解くことで事後確率最大値を得る。

3.5.3 事後中央値

 3つ目は事後分布に基づいた中央値をパラメータの推定値として用いる方法であり、これを事後中央値(MED:Median A Posteriori)という。すなわち


\begin{aligned}
\hat{\theta}_{EAP}=\theta_0\ s.t.\ \displaystyle{\int_{-\infty}^{\theta_0}f(\theta|\boldsymbol{x})d\theta=\frac{1}{2}}
\end{aligned}

3.5.4. 事後分散・事後標準偏差

 これまでで述べた母数の推定値の“良さ”を評価するために、その散らばり具合を表す尺度である事後分散・事後標準偏差を定義する。
 事後分散は


\begin{aligned}
V[\theta]=V[\theta|\boldsymbol{x}]=E[(\theta-\hat{\theta}_{EAP})^2|\boldsymbol{x}]=\displaystyle{\int(\theta-\hat{\theta}_{EAP})^2f(\theta|\boldsymbol{x})d\theta}
\end{aligned}

で定義され、EAP定量の散らばりの尺度とする。

3.5.5 確信区間・信頼区間

 伝統的な統計学で言う信頼区間に相当する概念として、Bayes統計学には確信区間がある。信頼区間は「不断の分析に100(1-\alpha)\%信頼区間という方法を採用し、そのたびごとに具体的な100(1-\alpha)\%信頼区間を計算したとすると、それら無数の信頼区間のうち100(1-\alpha)\%が母数の真の値を含む」と解釈する。
 これに対し、確信区間は確率変数である母数が具体的なその区間に含まれる確率が100(1-\alpha)\%であると解釈できる。

*1:伝統的な統計学では母数は非確率変数と見なすからである。

*2:安道知寛(2010)「ベイズ統計モデリング」朝倉書店 PP.19-20参照。

*3:無論、これは恣意的な操作であるから、手許での分析に留めるべきである。

*4:豊田秀樹・編(2015)「基礎からのベイズ統計学」朝倉書店 P.50参照。

プライバシーポリシー お問い合わせ