「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

【ベイズ統計学】入門 ベイズ統計学(02/X)

 Bayes統計学

を主に参照しつつ学んでいく。

●今回のまとめ

  • Bayesの定理


\begin{aligned}
P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\
\end{aligned}

  • Bayes分析では①確率分布に関して意思決定主体が持つ主観的情報、②確率分布から生成されたデータがもたらす情報をBayesの定理を用いて融合した事後分布によって意思決定を行なう。

2 Bayesの定理

2.1 条件付き確率

 事象A,Bに対して、事象Bが起きたという条件の下での事象Aの確率をP(A|B)と書き、これを


\begin{aligned}
P(A|B)=\displaystyle{\frac{P(A\cap B)}{P(B)}}
\end{aligned}

にて定義する。これは、全事象\Omegaおよび任意の事象Xに対してP(\Omega)=1,\ P(X\cap \Omega)=P(X)が成り立つことから


\begin{aligned}
P(A)=P(A|\Omega)=\displaystyle{\frac{P(A\cap \Omega)}{P(\Omega)}}
\end{aligned}

が成り立つこととのアナロジーで考えればわかりやすい。すなわち起きたことを前提視した事象Bの確率P(B)を基準として事象Aの確率P(A)を測るものである。ただしP(B)を基準とするために、事象Aが起きているのに事象Bは起きないことを検討しても仕様が無いため、分子にはP(A\cap B)を用いている。
 定義より


\begin{aligned}
P(A\cap B)=P(B)P(A|B)
\end{aligned}
が成り立つ。

2.2 余事象

 事象Aに対して事象Aが起こらないことをA^{C}と書き、これを余事象という。余事象に関しては


\begin{aligned}
P(A^{C})=1-P(A)
\end{aligned}
が成り立つ。

2.3 Bayesの定理

 以上を踏まえることでBayesの定理を導入する。
 条件付き確率の定義から


\begin{aligned}
P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\
&=\displaystyle{\frac{P(A|B)P(B)}{P(A)}}
\end{aligned}

ここで確率の加法定理および乗法定理を活用して


\begin{aligned}
P(A)&=P(A\cap B)+P(A\cap B^{C})\\
&=P(A|B)P(B)+P(A|B^{C})P(B^{C})
\end{aligned}

が得られる。これを代入することで


\begin{aligned}
P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\
&=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\
&=\displaystyle{\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^{C})P(B^{C})}}
\end{aligned}

これをBayesの定理という。
 Bayesの定理はある条件下で起こりやすい(起きにくい)事象を観測したのであれば、その条件が満たされている可能性は高まった(低くなった)はずだという直観的な判断を数学的に表現・保障したものである。
 Bayesの定理


\begin{aligned}
P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\
\end{aligned}
において、

\begin{aligned}
P(B),\ P(B^{C})
\end{aligned}

事前確率と呼び、その分布を事前分布という。これに対しP(B|A)事後確率という。
 このBayesの定理を繰り返し適用していくことで、もともとの事前確率P(B)が観測した事象=情報により修正されていく。

2.4 例題1:碁石*1

 真っ暗な部屋に同じ形の3つの赤い壺、青い壺、緑の壺が置いてある。それぞれの壺の中には形・大きさ・手触り・重さのまったく等しい碁石がそれぞれ10個入っている。そのうち黒い碁石はそれぞれに3個、4個、5個入っている。手探りで(無作為に)1つの壺を選びそこから碁石を1つ取り出したところ、それが黒だったとして、選んだ壺が赤であった確率を求めよ。

解答:
 Bayesの定理を適用することで


\begin{aligned}
P(赤|黒)&=\displaystyle{\frac{P(黒|赤)P(赤)}{P(黒|赤)P(赤)+P(黒|青)P(青)+P(黒|緑)P(緑)}}\\
&=\displaystyle{\frac{0.3P(赤)}{0.3P(赤)+0.4P(青)+0.5P(緑)}}
\end{aligned}

ここで無作為に壺を選んだため、P(赤)=P(青)=P(緑)=1/3とすれば


\begin{aligned}
P(赤|黒)=\displaystyle{\frac{0.3\cdot1/3}{0.3\cdot1/3+0.4\cdot1/3+0.5\cdot1/3}}=0.25
\end{aligned}

である。

2.5 例題2:血液鑑定問題*2

 東京で殺人事件が発生した。現場に残された犯人の血液を鑑定した結果、この町に住むA氏の血液と特徴が一致した。その一致率が10万人に1人だとするとき、他に証拠が皆無であるとすれば、A氏が犯人である確率を求めよ。

解答:
 Bayesの定理より


\begin{aligned}
P(犯人|一致)=\displaystyle{\frac{P(一致|犯人)P(犯人)}{P(一致|犯人)P(犯人)+P(一致|犯人でない)P(犯人でない)}}
\end{aligned}

ここでP(一致|犯人)=1,\ P(一致|犯人でない)=1/100,000であるとすれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}P(犯人でない)}}\\
&=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}(1-P(犯人))}}\\
\end{aligned}

 ここからが問題である。

  • 他に証拠(情報)が無いため、P(犯人)=0.5とすれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{0.5}{0.5+\frac{1}{100000}0.5}}\\
&=\displaystyle{\frac{100000}{100001}}\approx 0.99999
\end{aligned}

すなわち99.999\%有罪である。

  • 犯罪統計上、日本では約10万人に1人が犯罪を犯すため、それを事前確率として用いれば


\begin{aligned}
P(犯人|一致)&=\displaystyle{\frac{\frac{1}{100000}}{\frac{1}{100000}\frac{1}{100000}+\frac{1}{100000}\frac{99999}{100000}}}\\
&=\displaystyle{\frac{1}{2}}=0.5
\end{aligned}

すなわちA氏が犯人か否かは五分五分である。

このように事前確率として何を用いるかで結果が大きく変わる。またたとえ大量のデータを用いて極端な事前情報が与える影響を薄めようとしても、事前確率の主観性・恣意性に対する警戒は怠ることは出来ない。

2.6 例題3:ウィルス感染確率の分析*3

 世界全体の人口のうち3%があるウィルスに感染しているとする。今ここから無作為に1人を抽出し、ある初期検査Xを受診させた。この初期検査X98\%で感染した人を特定し、40\%の確率で感染していない人を感染していると診断するものとする。また精密検査Y99\%で感染した人を特定でき、4\%で感染していない人を感染していると診断するものとする。このとき、

(1) 初期検査Xが陽性と判断した人物が実際に感染者である確率を求めよ。
(2) 初期検査Xが陽性と判断した人物を精密検査Yが陰性と判断した場合にその人物が実際には感染者である確率を求めよ。

 V_{+}を感染しているという事象、V_{-}を感染していない事象とする。このとき


\begin{aligned}
P(V_{+})=0.03,\ P(V_{-})=0.97
\end{aligned}

であり、またX_{+},X_{-}をそれぞれ初期検査Xが陽性、陰性であると診断する事象とすれば


\begin{aligned}
P(X_{+}|V_{+})=0.98,\ P(X_{+}|V_{-})=0.40
\end{aligned}

である。
 さらにY_{+},Y_{-}をそれぞれ精密検査Yが陽性、陰性であると診断する事象とすれば


\begin{aligned}
P(Y_{+}|V_{+})=0.99,\ P(Y_{+}|V_{-})=0.04
\end{aligned}

である。

(1) 初期検査Xが陽性と判断した人物が実際に感染者である確率P(V_{+}|X_{+})は、Bayesの定理より


\begin{aligned}
P(V_{+}|X_{+})&=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+})}}\\
&=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+}|V_{+})P(V_{+})+P(X_{-}|V_{-})P(V_{-})}}\\
&=\displaystyle{\frac{0.98\cdot 0.03}{0.98\cdot0.03+0.40\cdot0.97}}\\
&\approx0.07
\end{aligned}

これは、初期検査Xで感染していると診断されたX_{+}という情報により、その人が実際に感染している確率が3\%から7\%に押し上げたことになることを意味する。

(2) 初期検査Xが陽性と判断した人物を精密検査Yが陰性と判断した場合にその人物が実際には感染者である確率をP(V_{+}|X_{+},Y_{-})とする。
 まず初期検査Xで陽性と診断された人物が精密検査Yで陽性である確率P(Y_{+}|X_{+})は、Bayesの定理より


\begin{aligned}
P(Y_{+}|X_{+})&=P(Y_{+}|X_{+},V_{+})+P(Y_{+}|X_{+},V_{-})\\
&=P(Y_{+}|V_{+})P(V_{+}|X_{+})+P(Y_{+}|V_{-})P(V_{-}|X_{+})\\
&=0.99\times0.07+0.04+0.93\\
&\approx 0.11
\end{aligned}

であり、P(Y_{-}|X_{+})\approx0.89である。
 以上から


\begin{aligned}
P(V_{+}|X_{+},Y_{-})&=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|X_{+})}}\\
&=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|V_{+})P(V_{+}|X_{+})+P(Y_{-}|V_{-})P(V_{-}|X_{+})}}\\
&=\displaystyle{\frac{0.01\times0.07}{0.01\times0.07+(1-0.04)\times (1-0.07)}}\\
&\approx 0.00079
\end{aligned}

である。

*1:豊田秀樹(2015)「基礎からのベイズ統計学ハミルトニアンモンテカルロ法による実践的入門」朝倉書店 P.16参照

*2:豊田秀樹(2015)「基礎からのベイズ統計学ハミルトニアンモンテカルロ法による実践的入門」朝倉書店 PP.17-8参照

*3:安道知寛(2010)「ベイズ統計モデリング」朝倉書店 PP.16-19参照

プライバシーポリシー お問い合わせ