「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

【ベイズ統計学】入門 ベイズ統計学(04/X)

 Bayes統計学を今回は

を主に参照しつつ学んでいく。

3. Bayes推定

3.6 Bayes推定の実例:Bernoulli試行

 企業の信用力を評価すべく、納期に遅れる確率を考えることとし、納期に遅れる確率を\piと書くことにする。

3.6.1 逐次的にデータを活用した場合

 ある企業との取引について、i番目の取引について納期通りに納品された場合には0、納期に遅れた場合には1を取るような確率変数 


\begin{aligned}
X_i=\left\{
\begin{array}{ll}
1,\ \ 納期に遅れる,\\
0,\ \ 納期を守る
\end{array}
\right.
\end{aligned}
と定義する。
 このとき、X_iの確率分布は

\begin{aligned}
P\{X_i=x_i\}=\left\{
\begin{array}{ll}
\pi,\ \ &x_i=1,\\
1-\pi,\ \ &x_i=0,
\end{array}
\right.\\
p(x_i|\pi)=P\{X_i=x_i\}=\pi^{x_i}(1-\pi)^{1-x_i},\ \ x_i=0,1
\end{aligned}
である。
 このとき、納期の遅れのパターンからある企業X社が納期に遅れる確率をBayes統計学に基づいて推測する。
 まずX社が1回目の納期に遅れたときの納期に遅れる確率\piの推測を考える。Bayesの定理より

\begin{aligned}
p(\pi|x_1)=\displaystyle{\frac{p(x_1|\pi)p(\pi)}{\displaystyle{\int_{0}^{1}p(x_1|\pi)p(\pi)d\pi }}}\propto p(x_1|\pi)p(\pi)
\end{aligned}

が成り立つ。
 \piについて無情報事前分布を用いることとすれば、


\begin{aligned}
p(\pi)=\begin{cases}
1,\ 0\lt\pi\lt1,\\
0,\ \pi\leq0,1\leq\pi
\end{cases}
\end{aligned}

であり、またx_i=1であるとき、


\begin{aligned}
p(\pi|x_1=1)\propto \pi^{x_i}(1-\pi)^{1-x_i}=\pi
\end{aligned}

である。また


\begin{aligned}
\displaystyle{\int_{0}^{1}\pi d\pi}=\left[\displaystyle{\frac{1}{2}}\pi^2\right]^{1}_{0}=\displaystyle{\frac{1}{2}}
\end{aligned}

に注意すれば、


\begin{aligned}
p(\pi|x_1=1)=\begin{cases}
2\pi,&\ 0\lt\pi\lt1,\\
0,&\pi\lt0,1\lt\pi
\end{cases}
\end{aligned}

が成り立つ。
 次に2回目の納期にも遅れたと仮定する。このとき\piの事後分布のカーネルはBayesの定理から


\begin{aligned}
p(\pi|x_1=1,x_2=1)&\propto p(x_2=1|\pi)p(\pi|x_1=1),\\
&\propto \pi^1 (1-\pi)^{1-1}2\pi,\\
&\propto \pi^2
\end{aligned}

である。また\displaystyle{\int_{0}^{1}}\pi^2 d\pi=\displaystyle{\frac{1}{3}}であるから、


\begin{aligned}
p(\pi|x_1=1,x_2=1)=3\pi^2\boldsymbol{1}_{(0,1)}(\pi)
\end{aligned}

以上、帰納的にBayesの定理を適用することでn回続けて納期を遅れたという状況での\piの事後分布は


\begin{aligned}
p(\pi|x_1=1,\cdots,x_n=1)=(n+1)\pi^{n}\boldsymbol{1}_{(0,1)}(\pi)
\end{aligned}

である。

3.6.2 一括でデータを活用した場合

 前節では逐次的にデータを用いて事後分布を導出したが、次に過去の納期に関する情報をまとめて使って\piの事後分布を導出する。
 たとえば過去5回の納期に関するデータとして


\begin{aligned}
\mathcal{D}=(x_1,x_2,x_3,x_4,x_5)=(1,0,1,0,0)
\end{aligned}

を得たとしよう。
 X_i,i=1,2,3,4,5は互いに独立であるから、


\begin{aligned}
p(\mathcal{D}|\pi)=\displaystyle{\prod_{i=1}^{5}{p(x_i|\pi)}}=\displaystyle{\prod_{i=1}^{5}\pi^{x_i}(1-\pi)^{1-{x_i}}}=\displaystyle{\pi^{\sum_{i=1}^{5}x_i}(1-\pi)^{5-\sum_{i=1}^{5}x_i}}
\end{aligned}

であり、具体的に\mathcal{D}が与えられていることから


\begin{aligned}
p(\mathcal{D}|\pi)=\displaystyle{\prod_{i=1}^{5}\pi^{2}(1-\pi)^{3}}
\end{aligned}

である。\piの関数と見るとき、これを尤度という。
 Bayesの定理から


\begin{aligned}
p(\pi|\mathcal{D})=\displaystyle{\frac{\displaystyle{p(\mathcal{D}|\pi)p(\pi)}}{\displaystyle{\int_{0}^{1}p(\mathcal{D}|\pi)p(\pi)d\pi}}}\propto p(\mathcal{D}|\pi)p(\pi)\propto \pi^2(1-\pi)^3
\end{aligned}

が成り立つ。
 一般の場合として納期をn回の場合を考える。


\begin{aligned}
p(\mathcal{D}|\pi)=\displaystyle{\pi^{\sum_{i=1}^{n}x_i}(1-\pi)^{n-\sum_{i=1}^{n}x_i}}
\end{aligned}

ここでy_n=\displaystyle{\sum_{i=1}^{n}x_i}と定義すると


\begin{aligned}
p(\mathcal{D}|\pi)=\displaystyle{\pi^{y_n}(1-\pi)^{n-y_n}}
\end{aligned}

である。
 Bayesの定理より


\begin{aligned}
p(\pi|\mathcal{D})=\displaystyle{\frac{\pi^{y_n}(1-\pi)^{n-y_n}}{B(y_n+1,n-y_n+1)}}\boldsymbol{1}_{(0,1)}(\pi)
\end{aligned}

が成り立つ。ここでB(\cdot,\cdot)はベータ関数である。これはベータ分布である。すなわち


\begin{aligned}
\pi|\mathcal{D}\sim Be(y_n+1,n-y_n+1)
\end{aligned}

3.6.3 パラメータの推定:点推定

 Bayes推定における点推定ではパラメータの真の値の候補から最もふさわしい値を取ることにする。これはパラメータの真の値と点推定値との乖離を損失関数で測った上で最小化するような推定値を点推定値とする。
 Bayes推定では、

  • 二乗誤差損失L(\pi,\delta)=(\pi-\delta)^2
  • 絶対誤差損失L(\pi,\delta)=|\pi-\delta|
  • 0-1損失L(\pi,\delta)=1-\boldsymbol{1}_{\pi}(\delta)

が損失関数として使われる。
 これを用いてリスクR(\delta)=E[L(\pi,\delta)]、すなわち


\begin{aligned}
R(\delta|\mathcal{D})=E_{p(\pi|\mathcal{D})}\left[L(\pi,\delta)\right]=\displaystyle{\int_{0}^{1}L(\pi,\delta)p(\pi|\mathcal{D})d\pi}
\end{aligned}

を最小にするような\delta=\delta^{*}を推定値とする。つまり


\begin{aligned}
\delta^{*}=\displaystyle{\arg\min_{0\lt\delta\lt1}\displaystyle{\int_{0}^{1}L(\pi,\delta)p(\pi|\mathcal{D})d\pi}}
\end{aligned}

である。

3.6.4 パラメータの推定:区間推定

 パラメータ\piの事後分布p(\pi|\mathcal{D})が分かったとして、\piの真の値が区間[a,b]に含まれる確率は


\begin{aligned}
P_{p(\pi|\mathcal{D})}\left(\pi\in[a,b]\right)=\displaystyle{\int_{a}^{b}p(\pi|\mathcal{D})d\pi}
\end{aligned}

で与えられる。これを事後確率という。Bayes推定では上記は直に「パラメータ\piの真の値が区間[a,b]に含まれる確率」を意味する。
 ただし事後確率の値がある値になるような区間の取り方は一意ではないから、何らかの制約を掛けて区間を決定させる。

 100(1-\alpha)\%,\ 0\lt\alpha\lt1信用区間


\begin{aligned}
P_{p(\pi|\mathcal{D})}\left(\pi\lt a_{\alpha}\right)&=\displaystyle{\frac{\alpha}{2}},\\
P_{p(\pi|\mathcal{D})}\left(\pi\gt b_{\alpha}\right)&=\displaystyle{\frac{\alpha}{2}},
\end{aligned}

を満たすような区間[a_\alpha,b_\alpha]で与えられる。

 P_{p(\pi|\mathcal{D})}\{\pi\in\{\pi|p(\pi|\mathcal{D})\geq\kappa\}\}\geq1-\alphaを満たすような正の定数\kappaのうち最大のものを\kappa_{\alpha}と定義するとき、100(1-\alpha)\%最高事後密度区間


\begin{aligned}
S_{\alpha}=\{\pi|p(\pi|\mathcal{D})\geq\kappa_\alpha\}
\end{aligned}

と定義する。

3.6.5 パラメータの推定:仮説検定

 Bayes統計学における仮説検定H_0=\{\pi\in S_0\}は、パラメータの事後分布p(\pi|\mathcal{D})において仮説H_iが成り立つ事後確率


\begin{aligned}
p_i=P_{p(\pi|\mathcal{D})}\{\pi\in S_i\}=\displaystyle{\int_{S_i}p(\pi|\mathcal{D})d\pi}
\end{aligned}

を評価する。その仮説H_iの事後確率が1に近ければその仮説は正しいと評価してもよかろう。
 Bayes統計学における2つの仮説に対する仮説検定*1


\begin{aligned}
H_0=\{\pi\in S_0\}\ v.s.\ H_1=\{\pi\in S_1\}
\end{aligned}

では、Bayes Factor B_{01}(\mathcal{D})


\begin{aligned}
B_{01}(\mathcal{D}):=\displaystyle{\frac{\displaystyle{\int_{S_0}p(\pi|\mathcal{D})d\pi}}{\displaystyle{\int_{S_1}p(\pi|\mathcal{D})d\pi}}} \div 
\displaystyle{\frac{\displaystyle{\int_{S_0}p(\pi)d\pi}}{\displaystyle{\int_{S_1}p(\pi)d\pi}}}
\end{aligned}

で定義する。最右辺の除数を事前オッズ比、被除数を事後オッズ比という。事前オッズ比も事後オッズ比もBayes Factorが小さければ分母の対立仮説H_1が分子の帰無仮説H_0よりも正しい確率が大きいことを意味する。したがって

  • 事前オッズ比は事前情報において対立仮説H_1帰無仮説H_0に対してどれだけ蓋然性の高さで優位にあるかを意味する。
  • 事後オッズ比は情報\mathcal{D}が加わったことを考慮した対立仮説H_1帰無仮説H_0に対する蓋然性の高さの観点での優位性を意味する。

であり、Bayes Factorはデータ\mathcal{D}が加わったことで対立仮説H_1帰無仮説H_0に対する蓋然性の高さの観点での優位性がどれだけ変わったかを意味する。
 とはいえBayes Factorは事前情報にも依存している。事後確率は


\begin{aligned}
\displaystyle{\int_{S_i}p(\pi|\mathcal{D})d\pi}=\displaystyle{\int_{S_i}\frac{p(\mathcal{D}|\pi)p(\pi)}{\displaystyle{\int_{0}^{1}p(\mathcal{D}|\pi)p(\pi)d\pi}}}d\pi=\displaystyle{\frac{\displaystyle{\int_{S_i}p(\mathcal{D}|\pi)p(\pi)d\pi}}{\displaystyle{\int_{0}^{1}p(\mathcal{D}|\pi)p(\pi)d\pi}}}
\end{aligned}

であるから、事後オッズ比について


\begin{aligned}
\displaystyle{\frac{\displaystyle{\int_{S_0}p(\pi|\mathcal{D})d\pi}}{\displaystyle{\int_{S_1}p(\pi|\mathcal{D})d\pi}}}=\displaystyle{\frac{\displaystyle{\int_{S_0}p(\mathcal{D}|\pi)p(\pi)d\pi}}{\displaystyle{\int_{S_1}p(\mathcal{D}|\pi)p(\pi)d\pi}}}
\end{aligned}

が成り立つ。したがって


\begin{aligned}
B_{01}(\mathcal{D})&=\displaystyle{\frac{\displaystyle{\int_{S_0}p(\mathcal{D}|\pi)p(\pi)d\pi}}{\displaystyle{\int_{S_1}p(\mathcal{D}|\pi)p(\pi)d\pi}}}\div \displaystyle{\frac{\displaystyle{\int_{S_0}p(\pi)d\pi}}{\displaystyle{\int_{S_1}p(\pi)d\pi}}}\\
&=\displaystyle{\frac{\displaystyle{\int_{S_0}p(\mathcal{D}|\pi)\left\{\displaystyle{\frac{p(\pi)}{\displaystyle{\int_{S_0}p(\pi)d\pi}}}\right\}d\pi}}{\displaystyle{\int_{S_1}p(\mathcal{D}|\pi)\left\{\displaystyle{\frac{p(\pi)}{\displaystyle{\int_{S_1}p(\pi)d\pi}}}\right\}d\pi}}}\\
&=\displaystyle{\frac{\displaystyle{\int_{S_0}p(\mathcal{D}|\pi)p(\pi|\pi\in S_0)d\pi}}{\displaystyle{\int_{S_1}p(\mathcal{D}|\pi)p(\pi|\pi\in S_1)d\pi}}}
\end{aligned}

であり、このようにBayes Factorの評価には事前分布p(\pi)が加味されている。

3.6.6 将来予測と意思決定

 Bayes分析における予測の方法を考える。未観測の実現値を\tilde{x}とすれば、その分布は


\begin{aligned}
p(\tilde{x}|\mathcal{D})=\displaystyle{\frac{p(\tilde{x},\mathcal{D})}{p(\mathcal{D})}}
\end{aligned}

であり、これを予測分布という。ここで


\begin{aligned}
p(\tilde{x},\mathcal{D})=\displaystyle{\int_{0}^{1}p(\tilde{x},\mathcal{D}|\pi)p(\pi)}d\pi,\ p(\mathcal{D})=\displaystyle{\int_{0}^{1}p(\mathcal{D}|\pi)p(\pi)}d\pi
\end{aligned}

であるから、


\begin{aligned}
p(\tilde{x}|\mathcal{D})=\displaystyle{\frac{\displaystyle{\int_{0}^{1}p(\tilde{x},\mathcal{D}|\pi)p(\pi)}d\pi}{\displaystyle{\int_{0}^{1}p(\mathcal{D}|\pi)p(\pi)}d\pi}}
\end{aligned}

3.7 まとめ

 成功確率の事前分布に0および1の間の一様分布を用いると、成功確率の事後分布はベータ分布になる。また将来のBernoulli試行の結果の予測分布がBernoulli分布になり、予測分布を用いて評価した損失関数の期待値が不確実性の下での意思決定の基準となる。

*1:\ S_0\cup S_1=\emptysetと仮定する。

プライバシーポリシー お問い合わせ