ベイズ統計学への入門（その02/X） - 「大人の教養・知識・気付き」を伸ばすブログ

はじめに

　さまざまなテキスト

ベイズ統計の理論と方法

作者:渡辺澄夫
コロナ社

Amazon

実践Ｄａｔａ　Ｓｃｉｅｎｃｅシリーズ　ＲとＳｔａｎではじめる　ベイズ統計モデリングによるデータ分析入門 (ＫＳ情報科学専門書)

作者:馬場真哉
講談社

Amazon

などを参照しながらベイズ統計学について学んでいきます。
　また理論だけでなく、可能な限りシミュレーションを含めていくこととし、それも $\mathrm{R}$ , $\mathrm{Stan},$ $\mathrm{Python}$ や $\mathrm{Julia}$ など幅広い言語で実装していきたい。

各種バージョン情報

OS
　Windows 11 Home 22H2

R
　R-4.1.3

RStudio
　RStudio 2022.02.2+485 "Prairie Trillium" Release (8acbd38b0d4ca3c86c570cf4112a8180c48cc6fb, 2022-04-19) for Windows

Python
　3.11.0

Jupyter Notebook
　6.4.12

Julia
　1.8.0

前回

power-of-awareness.com

はじめに
前回
今回のまとめ
2　Bayesの定理
3.　Bayes推定
- 3.1　分布に関するBayesの定理
- 3.2　カーネル・正規化定数
参考文献

今回のまとめ

$\mathrm{Bayes}$ の定理
$\begin{aligned}P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\\end{aligned}$

$\mathrm{Bayes}$ 分析では①確率分布に関して意思決定主体が持つ主観的情報、②確率分布から生成されたデータがもたらす情報を $\mathrm{Bayes}$ の定理を用いて融合した事後分布によって意思決定を行なう。

2　Bayesの定理

　ベイズ分析法は不確実性を持つ現象の統計的推測において非常に便利な道具である。ベイズ分析は、ある情報が与えられた下での主観的な確率に基づいて分析対象の不確実性を取り扱う。一般に確率には主観確率と客観確率が存在する。前者は不確実性が事前情報が不足することに起因すると考える。
　ベイズ分析における確率も、ある事象の不確実性がその事象を観測する分析者の事前情報に起因すると捉える。そしてある事象の不確かさはその事象を観測する分析者の事前情報に依存し、事前情報に依存してある事象に対しての確率が変化することが知られている。これが $\mathrm{Bayes}$ の定理である。

2.1　条件付き確率

　事象 $A,B$ に対して、事象 $B$ が起きたという条件の下での事象 $A$ の確率を $P(A|B)$ と書き、これを

$\begin{aligned} P(A|B)=\displaystyle{\frac{P(A\cap B)}{P(B)}} \end{aligned}$

にて定義する。これは、全事象 $\Omega$ および任意の事象 $X$ に対して $P(\Omega)=1,$ $P(X\cap \Omega)$ $=P(X)$ が成り立つことから

$\begin{aligned} P(A)=P(A|\Omega)=\displaystyle{\frac{P(A\cap \Omega)}{P(\Omega)}} \end{aligned}$

が成り立つこととのアナロジーで考えればわかりやすい。すなわち起きたことを前提視した事象 $B$ の確率 $P(B)$ を基準として事象 $A$ の確率 $P(A)$ を測るものである。ただし $P(B)$ を基準とするために、事象 $A$ が起きているのに事象 $B$ は起きないことを検討しても仕様が無いため、分子には $P(A\cap B)$ を用いている。
　定義より

$\begin{aligned} P(A\cap B)=P(B)P(A|B) \end{aligned}$

が成り立つ。

2.2　余事象

　事象 $A$ に対して事象 $A$ が起こらないことを $A^{C}$ と書き、これを余事象という。余事象に関しては

$\begin{aligned} P(A^{C})=1-P(A) \end{aligned}$

が成り立つ。

2.3　Bayesの定理

　以上を踏まえ $\mathrm{Bayes}$ の定理を導入する。
　条件付き確率の定義から

$\begin{aligned} P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\ &=\displaystyle{\frac{P(A|B)P(B)}{P(A)}} \end{aligned}$

ここで確率の加法定理および乗法定理を活用して

$\begin{aligned} P(A)&=P(A\cap B)+P(A\cap B^{C})\\ &=P(A|B)P(B)+P(A|B^{C})P(B^{C}) \end{aligned}$

が得られる。これを代入することで

$\begin{aligned} P(B|A)&=\displaystyle{\frac{P(A\cap B)}{P(A)}}\\ &=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\ &=\displaystyle{\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^{C})P(B^{C})}} \end{aligned}$

これを $\mathrm{Bayes}$ の定理という。
　 $\mathrm{Bayes}$ の定理は「ある条件下で起こりやすい（起きにくい）事象を観測したのであれば、その条件が満たされている可能性は高まった（低くなった）はずだ」という直観的な判断を数学的に表現・保障したものである。
　 $\mathrm{Bayes}$ の定理

$\begin{aligned} P(B|A)=\displaystyle{\frac{P(A|B)}{P(A)}}P(B)\\ \end{aligned}$

において、

$\begin{aligned} P(B),\ P(B^{C}) \end{aligned}$

を事前確率と呼び、その分布を事前分布という。これに対し $P(B|A)$ を事後確率という。
　この $\mathrm{Bayes}$ の定理を繰り返し適用していくことで、もともとの事前確率 $P(B)$ が観測した事象＝「情報」により修正されていく。

2.3.1　例題1：碁石 *1

　真っ暗な部屋に同じ形の3つの赤い壺、青い壺、緑の壺が置いてある。それぞれの壺の中には形・大きさ・手触り・重さのまったく等しい碁石がそれぞれ10個入っている。そのうち黒い碁石はそれぞれに3個、4個、5個入っている。手探りで（無作為に）1つの壺を選びそこから碁石を1つ取り出したところ、それが黒だったとして、選んだ壺が赤であった確率を求めよ。

解答：
　 $\mathrm{Bayes}$ の定理を適用することで

$\begin{aligned} P(赤|黒)&=\displaystyle{\frac{P(黒|赤)P(赤)}{P(黒|赤)P(赤)+P(黒|青)P(青)+P(黒|緑)P(緑)}}\\ &=\displaystyle{\frac{0.3P(赤)}{0.3P(赤)+0.4P(青)+0.5P(緑)}} \end{aligned}$

ここで無作為に壺を選んだため、 $P(赤)=P(青)=P(緑)=1/3$ とすれば

$\begin{aligned} P(赤|黒)=\displaystyle{\frac{0.3\cdot1/3}{0.3\cdot1/3+0.4\cdot1/3+0.5\cdot1/3}}=0.25 \end{aligned}$

である。

2.3.2　例題2：血液鑑定問題*2

　東京で殺人事件が発生した。現場に残された犯人の血液を鑑定した結果、この町に住むA氏の血液と特徴が一致した。その一致率が10万人に1人だとするとき、他に証拠が皆無であるとすれば、A氏が犯人である確率を求めよ。

解答：
　 $\mathrm{Bayes}$ の定理より

$\begin{aligned} P(犯人|一致)=\displaystyle{\frac{P(一致|犯人)P(犯人)}{P(一致|犯人)P(犯人)+P(一致|犯人でない)P(犯人でない)}} \end{aligned}$

ここで $P(一致|犯人)=1,\ P(一致|犯人でない)=1/100,000$ であるとすれば

$\begin{aligned} P(犯人|一致)&=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}P(犯人でない)}}\\ &=\displaystyle{\frac{P(犯人)}{P(犯人)+\frac{1}{100000}(1-P(犯人))}}\\ \end{aligned}$

　ここからが問題である。

他に証拠（情報）が無いため、 $P(犯人)=0.5$ とすれば

$\begin{aligned} P(犯人|一致)&=\displaystyle{\frac{0.5}{0.5+\frac{1}{100000}0.5}}\\ &=\displaystyle{\frac{100000}{100001}}\approx 0.99999 \end{aligned}$

すなわち $99.999\%$ 有罪である。

犯罪統計上、日本では約10万人に1人が犯罪を犯すため、それを事前確率として用いれば

$\begin{aligned} P(犯人|一致)&=\displaystyle{\frac{\frac{1}{100000}}{\frac{1}{100000}\frac{1}{100000}+\frac{1}{100000}\frac{99999}{100000}}}\\ &=\displaystyle{\frac{1}{2}}=0.5 \end{aligned}$

すなわちA氏が犯人か否かは五分五分である。

　このように事前確率として何を用いるかで結果が大きく変わる。またたとえ大量のデータを用いて極端な事前情報が与える影響を薄めようとしても、事前確率の主観性・恣意性に対する警戒は怠ることは出来ない。

2.3.3　例題3：ウィルス感染確率の分析*3

　世界全体の人口のうち $3\%$ があるウィルスに感染しているとする。今ここから無作為に1人を抽出し、ある初期検査 $X$ を受診させた。この初期検査 $X$ は $98\%$ で感染した人を特定し、 $40\%$ の確率で感染していない人を感染していると診断するものとする。また精密検査 $Y$ は $99\%$ で感染した人を特定でき、 $4\%$ で感染していない人を感染していると診断するものとする。このとき、
　　(1) 初期検査 $X$ が陽性と判断した人物が実際に感染者である確率を求めよ。
　　(2) 初期検査 $X$ が陽性と判断した人物を精密検査 $Y$ が陰性と判断した場合にその人物が実際には感染者である確率を求めよ。

　 $V_{+}$ を感染しているという事象、 $V_{-}$ を感染していない事象とする。このとき

$\begin{aligned} P(V_{+})=0.03,\ P(V_{-})=0.97 \end{aligned}$

であり、また $X_{+},X_{-}$ をそれぞれ初期検査 $X$ が陽性、陰性であると診断する事象とすれば

$\begin{aligned} P(X_{+}|V_{+})=0.98,\ P(X_{+}|V_{-})=0.40 \end{aligned}$

である。
　さらに $Y_{+},Y_{-}$ をそれぞれ精密検査 $Y$ が陽性、陰性であると診断する事象とすれば

$\begin{aligned} P(Y_{+}|V_{+})=0.99,\ P(Y_{+}|V_{-})=0.04 \end{aligned}$

である。

(1) 初期検査 $X$ が陽性と判断した人物が実際に感染者である確率 $P(V_{+}|X_{+})$ は、 $\mathrm{Bayes}$ の定理より

$\begin{aligned} P(V_{+}|X_{+})&=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+})}}\\ &=\displaystyle{\frac{P(X_{+}|V_{+})P(V_{+})}{P(X_{+}|V_{+})P(V_{+})+P(X_{-}|V_{-})P(V_{-})}}\\ &=\displaystyle{\frac{0.98\cdot 0.03}{0.98\cdot0.03+0.40\cdot0.97}}\\ &\approx0.07 \end{aligned}$

これは、初期検査 $X$ で感染していると診断された $X_{+}$ という情報により、その人が実際に感染している確率が $3\%$ から $7\%$ に押し上げたことになることを意味する。

(2) 初期検査 $X$ が陽性と判断した人物を精密検査 $Y$ が陰性と判断した場合にその人物が実際には感染者である確率を $P(V_{+}|X_{+},Y_{-})$ とする。
　まず初期検査 $X$ で陽性と診断された人物が精密検査 $Y$ で陽性である確率 $P(Y_{+}|X_{+})$ は、 $\mathrm{Bayes}$ の定理より

$\begin{aligned} P(Y_{+}|X_{+})&=P(Y_{+}|X_{+},V_{+})+P(Y_{+}|X_{+},V_{-})\\ &=P(Y_{+}|V_{+})P(V_{+}|X_{+})+P(Y_{+}|V_{-})P(V_{-}|X_{+})\\ &=0.99\times0.07+0.04+0.93\\ &\approx 0.11 \end{aligned}$

であり、 $P(Y_{-}|X_{+})\approx0.89$ である。
　以上から

$\begin{aligned} P(V_{+}|X_{+},Y_{-})&=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|X_{+})}}\\ &=\displaystyle{\frac{P(Y_{-}|V_{+})P(V_{+}|X_{+})}{P(Y_{-}|V_{+})P(V_{+}|X_{+})+P(Y_{-}|V_{-})P(V_{-}|X_{+})}}\\ &=\displaystyle{\frac{0.01\times0.07}{0.01\times0.07+(1-0.04)\times (1-0.07)}}\\ &\approx 0.00079 \end{aligned}$

である。

3.　Bayes推定

3.1　分布に関するBayesの定理

　分布関数を $f(x)$ 、パラメータを $\theta$ として、条件付き確率の定義から

$\begin{aligned} f(x,\theta)=&f(x|\theta)f(\theta),\\ f(x,\theta)=&f(\theta|x)f(x) \end{aligned}$

が成り立つ。ここで前者では $\theta$ を確率変数と見なしていることになる*4。
　 ${}^{\forall}x\in\mathbb{R}(f(x)\neq0)$ であると仮定して後者の式を変形した後に前者を代入することで

$\begin{aligned} f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{f(x)}} \end{aligned}$

と分布に関する $\mathrm{Bayes}$ の定理が得られる。この場合、 $f(\theta)$ を事前分布、 $f(\theta|x)$ を事後分布（ $f(x|\theta)$ を尤度）と呼ぶ。
　全確率の公式

$\begin{aligned} f(x)=\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta} \end{aligned}$

を代入することで更に

$\begin{aligned} f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}} \end{aligned}$

と書き換えることもできる。

3.2　カーネル・正規化定数

　 $\mathrm{Bayes}$ の定理

$\begin{aligned} f(\theta|x)=\displaystyle{\frac{f(x,\theta)}{f(x)}}=\displaystyle{\frac{f(x|\theta)f(\theta)}{\displaystyle{\int_{-\infty}^{\infty}f(x|\theta)f(\theta)d\theta}}} \end{aligned}$

はさまざまな式から成り立っているが、このうち母数および変数を含んでいるという意味で中核をなす部分をカーネルという。
　たとえば二項分布

$\begin{aligned} f(x|\theta)={}_{n}C_x\theta^x(1-\theta)^{n-x} \end{aligned}$

の場合、カーネルは

$\begin{aligned} \theta^x(1-\theta)^{n-x} \end{aligned}$

である。カーネルは母数および変数を含むから、その確率分布の本質的な性質を決定する。これを強調するために考えている分布のカーネルを

$\begin{aligned} f(x|\theta)\propto\theta^x(1-\theta)^{n-x} \end{aligned}$

と表現する。これに対して二項分布の ${}_{n}C_x$ は全事象の確率が $1$ になるように規格化するための定数と考えられ、これを正規化定数（係数）という。

参考文献

安道知寛(2010)「ベイズ統計モデリング」(朝倉書店)
鎌谷研吾・著　駒木文保・編(2020)「モンテカルロ統計計算」(講談社サイエンティフィック)
豊田秀樹・編著(2015)「基礎からのベイズ統計学」(朝倉書店)
中妻照雄(2007)「入門　ベイズ統計学」(朝倉書店)
中妻照雄(2013)「実践　ベイズ統計学」(朝倉書店)
馬場真哉(2019)「RとStanではじめるベイズ統計モデリングによるデータ分析入門」(講談社サイエンティフィック)
松浦健太郎(2016)「StanとRでベイズ統計モデリング」(共立出版)
渡辺澄夫(2012)「ベイズ統計の理論と方法」(コロナ社)
Andrew Gelman, John Carlin, Hal Stern, David Dunson, Aki Vehtari, and Donald Rubin (2014) "Bayesian Data Analysis", CRC Press

*1:豊田秀樹（2015）「基礎からのベイズ統計学―ハミルトニアンモンテカルロ法による実践的入門」朝倉書店　P.16参照

*2:同前掲書　PP.17-8参照

*3:安道知寛（2010）「ベイズ統計モデリング」朝倉書店　PP.16-19参照

*4:伝統的な統計学では母数は非確率変数と見なす。

はじめに

前回

今回のまとめ

2 Bayesの定理

2.1 条件付き確率

2.2 余事象

2.3 Bayesの定理

2.3.1 例題1：碁石*1

2.3.2 例題2：血液鑑定問題*2

2.3.3 例題3：ウィルス感染確率の分析*3

3. Bayes推定

3.1 分布に関するBayesの定理

3.2 カーネル・正規化定数

参考文献

2　Bayesの定理

2.1　条件付き確率

2.2　余事象

2.3　Bayesの定理

2.3.1　例題1：碁石 *1

2.3.2　例題2：血液鑑定問題*2

2.3.3　例題3：ウィルス感染確率の分析*3

3.　Bayes推定

3.1　分布に関するBayesの定理

3.2　カーネル・正規化定数