「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

ベイズ統計学への入門(その02/X)

はじめに

 さまざまなテキスト

などを参照しながらベイズ統計学について学んでいきます。
 また理論だけでなく、可能な限りシミュレーションを含めていくこととし、それも\mathrm{R},\mathrm{Stan},\mathrm{Python}\mathrm{Julia}など幅広い言語で実装していきたい。

各種バージョン情報

  • OS

     Windows 11 Home 22H2
  • R

     R-4.1.3
  • RStudio

     RStudio 2022.02.2+485 "Prairie Trillium" Release (8acbd38b0d4ca3c86c570cf4112a8180c48cc6fb, 2022-04-19) for Windows
  • Python

     3.11.0
  • Jupyter Notebook

     6.4.12
  • Julia

     1.8.0

今回のまとめ

  • \mathrm{Bayes}の定理
    \begin{aligned}P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\\end{aligned}
  • \mathrm{Bayes}分析では①確率分布に関して意思決定主体が持つ主観的情報、②確率分布から生成されたデータがもたらす情報を\mathrm{Bayes}の定理を用いて融合した事後分布によって意思決定を行なう。

2 Bayesの定理

 ベイズ分析法は不確実性を持つ現象の統計的推測において非常に便利な道具である。ベイズ分析は、ある情報が与えられた下での主観的な確率に基づいて分析対象の不確実性を取り扱う。一般に確率には主観確率客観確率が存在する。前者は不確実性が事前情報が不足することに起因すると考える。
 ベイズ分析における確率も、ある事象の不確実性がその事象を観測する分析者の事前情報に起因すると捉える。そしてある事象の不確かさはその事象を観測する分析者の事前情報に依存し、事前情報に依存してある事象に対しての確率が変化することが知られている。これが\mathrm{Bayes}の定理である。

2.1 条件付き確率

 事象A,Bに対して、事象Bが起きたという条件の下での事象Aの確率をP(A|B)と書き、これを


\begin{aligned}
P(A|B)=\displaystyle{\frac{P(A\cap B)}{P(B)}}
\end{aligned}

にて定義する。これは、全事象\Omegaおよび任意の事象Xに対してP(\Omega)=1,P(X\cap \Omega)=P(X)が成り立つことから


\begin{aligned}
P(A)=P(A|\Omega)=\displaystyle{\frac{P(A\cap \Omega)}{P(\Omega)}}
\end{aligned}

が成り立つこととのアナロジーで考えればわかりやすい。すなわち起きたことを前提視した事象Bの確率P(B)を基準として事象Aの確率P(A)を測るものである。ただしP(B)を基準とするために、事象Aが起きているのに事象Bは起きないことを検討しても仕様が無いため、分子にはP(A\cap B)を用いている。
 定義より


\begin{aligned}
P(A\cap B)=P(B)P(A|B)
\end{aligned}
が成り立つ。

2.2 余事象

 事象Aに対して事象Aが起こらないことをA^{C}と書き、これを余事象という。余事象に関しては


\begin{aligned}
P(A^{C})=1-P(A)
\end{aligned}
が成り立つ。

2.3 Bayesの定理

 以上を踏まえ\mathrm{Bayes}の定理を導入する。
 条件付き確率の定義から


\begin{aligned}
P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\
&=\displaystyle{\frac{P(A|B)P(B)}{P(A)}}
\end{aligned}

ここで確率の加法定理および乗法定理を活用して


\begin{aligned}
P(A)&=P(A\cap B)+P(A\cap B^{C})\\
&=P(A|B)P(B)+P(A|B^{C})P(B^{C})
\end{aligned}

が得られる。これを代入することで


\begin{aligned}
P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\
&=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\
&=\displaystyle{\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^{C})P(B^{C})}}
\end{aligned}

これを\mathrm{Bayes}の定理という。
 \mathrm{Bayes}の定理はある条件下で起こりやすい(起きにくい)事象を観測したのであれば、その条件が満たされている可能性は高まった(低くなった)はずだという直観的な判断を数学的に表現・保障したものである。
 \mathrm{Bayes}の定理


\begin{aligned}
P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\
\end{aligned}

において、


\begin{aligned}
P(B),\ P(B^{C})
\end{aligned}

事前確率と呼び、その分布を事前分布という。これに対しP(B|A)事後確率という。
 この\mathrm{Bayes}の定理を繰り返し適用していくことで、もともとの事前確率P(B)が観測した事象=情報により修正されていく。

2.3.1 例題1:碁石*1

 真っ暗な部屋に同じ形の3つの赤い壺、青い壺、緑の壺が置いてある。それぞれの壺の中には形・大きさ・手触り・重さのまったく等しい碁石がそれぞれ10個入っている。そのうち黒い碁石はそれぞれに3個、4個、5個入っている。手探りで(無作為に)1つの壺を選びそこから碁石を1つ取り出したところ、それが黒だったとして、選んだ壺が赤であった確率を求めよ。

解答:
 \mathrm{Bayes}の定理を適用することで


\begin{aligned}
P(赤|黒)&=\displaystyle{\frac{P(黒|赤)P(赤)}{P(黒|赤)P(赤)+P(黒|青)P(青)+P(黒|緑)P(緑)}}\\
&=\displaystyle{\frac{0.3P(赤)}{0.3P(赤)+0.4P(青)+0.5P(緑)}}
\end{aligned}

ここで無作為に壺を選んだため、P(赤)=P(青)=P(緑)=1/3とすれば


\begin{aligned}
P(赤|黒)=\displaystyle{\frac{0.3\cdot1/3}{0.3\cdot1/3+0.4\cdot1/3+0.5\cdot1/3}}=0.25
\end{aligned}

である。

2.3.2 例題2:血液鑑定問題*2

 東京で殺人事件が発生した。現場に残された犯人の血液を鑑定した結果、この町に住むA氏の血液と特徴が一致した。その一致率が10万人に1人だとするとき、他に証拠が皆無であるとすれば、A氏が犯人である確率を求めよ。

解答:
 \mathrm{Bayes}の定理より


\begin{aligned}
P(犯人|一致)=\displaystyle{\frac{P(一致|犯人)P(犯人)}{P(一致|犯人)P(犯人)+P(一致|犯人でない)P(犯人でない)}}
\end{aligned}

ここでP(一致|犯人)=1,\ P(一致|犯人でない)=1/100,000であるとすれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}P(犯人でない)}}\\
&=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}(1-P(犯人))}}\\
\end{aligned}

 ここからが問題である。

  • 他に証拠(情報)が無いため、P(犯人)=0.5とすれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{0.5}{0.5+\frac{1}{100000}0.5}}\\
&=\displaystyle{\frac{100000}{100001}}\approx 0.99999
\end{aligned}

すなわち99.999\%有罪である。

  • 犯罪統計上、日本では約10万人に1人が犯罪を犯すため、それを事前確率として用いれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{\frac{1}{100000}}{\frac{1}{100000}\frac{1}{100000}+\frac{1}{100000}\frac{99999}{100000}}}\\
&=\displaystyle{\frac{1}{2}}=0.5
\end{aligned}

すなわちA氏が犯人か否かは五分五分である。

 このように事前確率として何を用いるかで結果が大きく変わる。またたとえ大量のデータを用いて極端な事前情報が与える影響を薄めようとしても、事前確率の主観性・恣意性に対する警戒は怠ることは出来ない。

2.3.3 例題3:ウィルス感染確率の分析*3

 世界全体の人口のうち3\%があるウィルスに感染しているとする。今ここから無作為に1人を抽出し、ある初期検査Xを受診させた。この初期検査X98\%で感染した人を特定し、40\%の確率で感染していない人を感染していると診断するものとする。また精密検査Y99\%で感染した人を特定でき、4\%で感染していない人を感染していると診断するものとする。このとき、

  (1) 初期検査Xが陽性と判断した人物が実際に感染者である確率を求めよ。
  (2) 初期検査Xが陽性と判断した人物を精密検査Yが陰性と判断した場合にその人物が実際には感染者である確率を求めよ。

 V_{+}を感染しているという事象、V_{-}を感染していない事象とする。このとき


\begin{aligned}
P(V_{+})=0.03,\ P(V_{-})=0.97
\end{aligned}

であり、またX_{+},X_{-}をそれぞれ初期検査Xが陽性、陰性であると診断する事象とすれば


\begin{aligned}
P(X_{+}|V_{+})=0.98,\ P(X_{+}|V_{-})=0.40
\end{aligned}

である。
 さらにY_{+},Y_{-}をそれぞれ精密検査Yが陽性、陰性であると診断する事象とすれば


\begin{aligned}
P(Y_{+}|V_{+})=0.99,\ P(Y_{+}|V_{-})=0.04
\end{aligned}

である。

(1) 初期検査Xが陽性と判断した人物が実際に感染者である確率P(V_{+}|X_{+})は、\mathrm{Bayes}の定理より


\begin{aligned}
P(V_{+}|X_{+})&=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+})}}\\
&=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+}|V_{+})P(V_{+})+P(X_{-}|V_{-})P(V_{-})}}\\
&=\displaystyle{\frac{0.98\cdot 0.03}{0.98\cdot0.03+0.40\cdot0.97}}\\
&\approx0.07
\end{aligned}

これは、初期検査Xで感染していると診断されたX_{+}という情報により、その人が実際に感染している確率が3\%から7\%に押し上げたことになることを意味する。

(2) 初期検査Xが陽性と判断した人物を精密検査Yが陰性と判断した場合にその人物が実際には感染者である確率をP(V_{+}|X_{+},Y_{-})とする。
 まず初期検査Xで陽性と診断された人物が精密検査Yで陽性である確率P(Y_{+}|X_{+})は、\mathrm{Bayes}の定理より


\begin{aligned}
P(Y_{+}|X_{+})&=P(Y_{+}|X_{+},V_{+})+P(Y_{+}|X_{+},V_{-})\\
&=P(Y_{+}|V_{+})P(V_{+}|X_{+})+P(Y_{+}|V_{-})P(V_{-}|X_{+})\\
&=0.99\times0.07+0.04+0.93\\
&\approx 0.11
\end{aligned}

であり、P(Y_{-}|X_{+})\approx0.89である。
 以上から


\begin{aligned}
P(V_{+}|X_{+},Y_{-})&=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|X_{+})}}\\
&=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|V_{+})P(V_{+}|X_{+})+P(Y_{-}|V_{-})P(V_{-}|X_{+})}}\\
&=\displaystyle{\frac{0.01\times0.07}{0.01\times0.07+(1-0.04)\times (1-0.07)}}\\
&\approx 0.00079
\end{aligned}

である。

3. Bayes推定

3.1 分布に関するBayesの定理

 分布関数をf(x)、パラメータを\thetaとして、条件付き確率の定義から


\begin{aligned}
f(x,\theta)=&f(x|\theta)f(\theta),\\
f(x,\theta)=&f(\theta|x)f(x)
\end{aligned}

が成り立つ。ここで前者では\thetaを確率変数と見なしていることになる*4
 {}^{\forall}x\in\mathbb{R}(f(x)\neq0)であると仮定して後者の式を変形した後に前者を代入することで



\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{f(x)}}
\end{aligned}


と分布に関する\mathrm{Bayes}の定理が得られる。この場合、f(\theta)を事前分布、f(\theta|x)を事後分布(f(x|\theta)を尤度)と呼ぶ。
 全確率の公式



\begin{aligned}
f(x)=\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}
\end{aligned}


を代入することで更に



\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}}
\end{aligned}


と書き換えることもできる。

3.2 カーネル・正規化定数

 \mathrm{Bayes}の定理



\begin{aligned}
f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}}
\end{aligned}


はさまざまな式から成り立っているが、このうち母数および変数を含んでいるという意味で中核をなす部分をカーネルという。
 たとえば二項分布



\begin{aligned}
f(x|\theta)={}_{n}C_x\theta^x(1-\theta)^{n-x}
\end{aligned}


の場合、カーネル



\begin{aligned}
\theta^x(1-\theta)^{n-x}
\end{aligned}


である。カーネルは母数および変数を含むから、その確率分布の本質的な性質を決定する。これを強調するために考えている分布のカーネル



\begin{aligned}
f(x|\theta)\propto\theta^x(1-\theta)^{n-x}
\end{aligned}


と表現する。これに対して二項分布の{}_{n}C_xは全事象の確率が1になるように規格化するための定数と考えられ、これを正規化定数(係数)という。

参考文献

*1:豊田秀樹(2015)「基礎からのベイズ統計学ハミルトニアンモンテカルロ法による実践的入門」朝倉書店 P.16参照

*2:同前掲書 PP.17-8参照

*3:安道知寛(2010)「ベイズ統計モデリング」朝倉書店 PP.16-19参照

*4:伝統的な統計学では母数は非確率変数と見なす。

プライバシーポリシー お問い合わせ