Bayes統計学を今回は
を主に参照しつつ学んでいく。
3. Bayes推定
3.6 Bayes推定の実例:Bernoulli試行
企業の信用力を評価すべく、納期に遅れる確率を考えることとし、納期に遅れる確率をと書くことにする。
3.6.1 逐次的にデータを活用した場合
ある企業との取引について、番目の取引について納期通りに納品された場合には
、納期に遅れた場合には
を取るような確率変数
このとき、
このとき、納期の遅れのパターンからある企業
まず
が成り立つ。
について無情報事前分布を用いることとすれば、
であり、またであるとき、
である。また
に注意すれば、
が成り立つ。
次に2回目の納期にも遅れたと仮定する。このときの事後分布のカーネルはBayesの定理から
である。またであるから、
以上、帰納的にBayesの定理を適用することで回続けて納期を遅れたという状況での
の事後分布は
である。
3.6.2 一括でデータを活用した場合
前節では逐次的にデータを用いて事後分布を導出したが、次に過去の納期に関する情報をまとめて使っての事後分布を導出する。
たとえば過去5回の納期に関するデータとして
を得たとしよう。
は互いに独立であるから、
であり、具体的にが与えられていることから
である。の関数と見るとき、これを尤度という。
Bayesの定理から
が成り立つ。
一般の場合として納期を回の場合を考える。
ここでと定義すると
である。
Bayesの定理より
が成り立つ。ここではベータ関数である。これはベータ分布である。すなわち
3.6.3 パラメータの推定:点推定
Bayes推定における点推定ではパラメータの真の値の候補から最もふさわしい値を取ることにする。これはパラメータの真の値と点推定値との乖離を損失関数で測った上で最小化するような推定値を点推定値とする。
Bayes推定では、
- 二乗誤差損失:
- 絶対誤差損失:
損失:
が損失関数として使われる。
これを用いてリスク、すなわち
を最小にするようなを推定値とする。つまり
である。
3.6.4 パラメータの推定:区間推定
パラメータの事後分布
が分かったとして、
の真の値が区間
に含まれる確率は
で与えられる。これを事後確率という。Bayes推定では上記は直に「パラメータの真の値が区間
に含まれる確率」を意味する。
ただし事後確率の値がある値になるような区間の取り方は一意ではないから、何らかの制約を掛けて区間を決定させる。
- 信用区間
信用区間は
を満たすような区間で与えられる。
- 最高事後密度区間
を満たすような正の定数
のうち最大のものを
と定義するとき、
最高事後密度区間を
と定義する。
3.6.5 パラメータの推定:仮説検定
Bayes統計学における仮説検定は、パラメータの事後分布
において仮説
が成り立つ事後確率
を評価する。その仮説の事後確率が
に近ければその仮説は正しいと評価してもよかろう。
Bayes統計学における2つの仮説に対する仮説検定*1
では、Bayes Factor を
で定義する。最右辺の除数を事前オッズ比、被除数を事後オッズ比という。事前オッズ比も事後オッズ比もBayes Factorが小さければ分母の対立仮説が分子の帰無仮説
よりも正しい確率が大きいことを意味する。したがって
- 事前オッズ比は事前情報において対立仮説
が帰無仮説
に対してどれだけ蓋然性の高さで優位にあるかを意味する。
- 事後オッズ比は情報
が加わったことを考慮した対立仮説
の帰無仮説
に対する蓋然性の高さの観点での優位性を意味する。
であり、Bayes Factorはデータが加わったことで対立仮説
の帰無仮説
に対する蓋然性の高さの観点での優位性がどれだけ変わったかを意味する。
とはいえBayes Factorは事前情報にも依存している。事後確率は
であるから、事後オッズ比について
が成り立つ。したがって
であり、このようにBayes Factorの評価には事前分布が加味されている。
3.6.6 将来予測と意思決定
Bayes分析における予測の方法を考える。未観測の実現値をとすれば、その分布は
であり、これを予測分布という。ここで
であるから、
3.7 まとめ
成功確率の事前分布におよび
の間の一様分布を用いると、成功確率の事後分布はベータ分布になる。また将来のBernoulli試行の結果の予測分布がBernoulli分布になり、予測分布を用いて評価した損失関数の期待値が不確実性の下での意思決定の基準となる。
*1:と仮定する。