はじめに
さまざまなテキスト
などを参照しながらベイズ統計学について学んでいきます。
また理論だけでなく、可能な限りシミュレーションを含めていくこととし、それも,やなど幅広い言語で実装していきたい。
各種バージョン情報
前回
今回のまとめ
3. Bayes推定
3.3 Bayes推定の一般的な枠組み
真の分布に従う確率変数をとし、標本が得られたとする(すなわち各が各試行により得た1つ1つの標本を指す。)。また各標本は独立に真の分布に従うとする。
目標としてはこの標本を基に真の分布を推測するであるが、そのために統計モデルを導入する。すなわちを推測するという問題を、統計モデル用いて予測分布を推定する問題に置き換えるのである*1。
定数(逆温度という)を導入し、逆温度の母数の事後分布を
で定義する。ここでパラメータの確率分布を事前分布として設定している。または分配関数と呼ばれ、
で定義される規格化のための定数である。のときを周辺尤度という。
事後分布を用いて統計モデルの期待値を取ったもの
を予測分布という。推定とは、「真の分布はだいたいのところ予測分布であろう」と推測することに他ならない。
の場合、の定理に帰着でき、
が得られる。
母数の事前分布から得た
を事前予測分布といい、これに対して事後分布を用いて評価した
を事後予測分布という。
確率変数としてがあり、はの確率分布の母数だとする。このときので条件づけられた確率をとすれば、と書く。
3.4 事前分布の設定
事前分布は、統計学のアイディアから言えば自由に選べばよい。しかし
①科学的な客観性を担保するのに問題が生じ得る ②個人の想定する確率を数理的に表現しきることが困難であるという問題がある。そのため、どのような事前分布を選ぶかが重要な問題になる。3.4.1 自然共役事前分布
統計学では事後分布が常に計算可能だとは限らないという問題がある。そこで事後分布が求まるような事前分布を選ぶという方針によりこれを解消することができる。自然共役な事前分布は、計算機がそこまで発展していなかった時代に用いられることが多かった。今では数値的に計算することが容易になってきたことから、それほど使われなくなってきている。
図表1 自然共役事前分布と尤度の組み合わせ例
尤度 |
事前分布 |
事後分布 |
||
---|---|---|---|---|
(1) | Bernoulli分布 | Beta分布 | Beta分布 | |
(2) | 二項分布 | Beta分布 | Beta分布 | |
(3) | Poisson分布 | Gamma分布 | Gamma分布 | |
(4) | 正規分布の平均 | 正規分布 | 正規分布 | |
(5) | 正規分布の分散 | 逆ガンマ分布 | 逆ガンマ分布 |
出典:豊田(2015)*2
3.4.2 無情報事前分布
事前に何の情報もないことを事前分布として与えた場合、これを無情報事前分布と呼ぶ。
具体的な分布の与え方にはいくつかの考え方がある。1つは理由不充分の原則と呼ばれるもので、これはどのようなパラメータ値が出るのかは全く未知、すなわち確率が一様に分布していると考え、その状況を上手く表すような分布を事前分布として仮定するものである。
後述するように、無情報事前分布に対しては批判が存在するものの、
①現実的なデータ解析が採用した尺度上で利用されるのが普通で、(後述する)尺度変換を考慮する必要性が薄い場合が少なくない、 ②一様分布を用いると推定量が最尤推定量に一致するため便利である、という利点が存在する。よく一様分布が用いられるが、他に分散が充分に大きい正規分布を与える場合がある。一様分布を採用した場合、実数全体で定義すれば積分したときににならない場合があり得る。その場合を非正則といい、になる場合を正則という。非正則な事前分布を選んだとしても、事後分布が非正則になるとは限らない。したがって非正則な事前分布を選択することもあり得る。
他方で、無情報事前分布を用いることにはいくつかの問題がある:
- 常に漠然としている事前分布を探すことは常に誤解を招くように見える。もし尤度が与えられた問題において真に優勢であるならば、相対的に平坦な事前確率密度の範囲から選ぶのは重要ではない。無情報事前分布として特定の特徴を持たせることは自動的にそして場合によっては不適切な利用を助長するように見える。
- 多くの問題において、特に情報の無い事前分布の明確な選択肢がない。なぜならば、あるパラメータ化で平坦ないし一様な確率密度は別のパラメータ化ではそうでないからである。すなわち母数変換すると平坦さや一様性が失われるのである。
- 不適切な事前分布を持つ競合するモデルのモデル平均化法において更なる困難が生じる。
3.4.3 局所一様事前分布
無情報事前分布として一様分布を用いることは、実際には無情報を表し得ない側面がある。それは尺度変換に対して一様性が保てない点を指している。これに対処するのに、情報量の平方根に比例する分布を導入でき、これを局所一様事前分布もしくはの事前分布という。
具体的には、は事前情報が無い場合に設定すべき事前分布として、
を提案した。ここでは情報行列
である。局所一様事前分布は母数の1対1変換に対して不偏、すなわちになる点がメリットである。
3.4.4 弱情報事前分布
事前分布が、妥当ではあるものの実際に事前知識として用いることのできるあらゆるものよりもそれが持つ情報が意図的に少なくなっているのであれば、その事前分布は弱情報を持つという。一般論として、あらゆる問題において弱情報分布によるモデルを許容し得る何らかの制約条件が存在する。完全な無情報をモデル化しようとするよりも、事後分布が意味を成すことが充分に保障されるが実世界の情報を少量だけ含む弱情報事前分布を用いる方が大半の問題において好ましい。
あらゆる統計モデルが実質的に弱情報を有する。入力やそれらを結合する関数形の選び方により、統計モデルは常に何らかの情報を有している。しかし確率空間に関する事柄に関する事前の信条をすべて符号化することは不可能だし、場合によってはむしろそうしないことが望ましい。これを踏まえた上で、弱情報事前分布を設定するのに2つの原則を提案できる。
- 無情報事前分布を変形させたものから始め、推測が合理的であるように制約づけるのに十分な情報を加える。
- 強情報を持つ事前分布から始め事前の信条として存在する、また任意の経歴に基盤を持つ事前情報を新しいデータへ適用できるような不確実を説明するように拡張する。
3.5 事後分布の評価
すべての推測は事後分布を用いて行う。特定の値を推定によって得た値として用いて母数を評価する方法を点推定という。
点推定は、その推定した値(推定値という)が過大ないし過少に評価された場合に損失が増大すると見なし、その損失がなるべく小さくなるような値を推定値とするという考え方の下で構成される。より具体的には、母数およびその推定量*3の損失関数を定義し、その損失関数の大小から得るものとする。
推測では以下のような損失関数を用いるのが代表的である:
上述の通り、損失関数を具体的に計算するにはそれぞれの値が分からないとできない。しかしの値が不明であるからこそ、このような理論を構築しているのであるから、具体的にその値を計算することはできないことになる。そのため代わりに母数の事後分布による損失関数の期待値で定義されるリスク関数
を最小化するような推定値を求めることとする。
3.5.1 期待事後推定
1つ目は事後分布を用いた期待値をその母数の推定値として用いる方法であり、これを事後平均(: )という。すなわち
である。これは平均二乗誤差、すなわち二乗誤差損失関数の期待値を最小にするような推定量である。
実際、二乗誤差損失関数の期待値を計算すると、
である。最右辺の第1項は事後分布の分散でとは無関係である。したがって最右辺第2項を最小にするようなを求めればよく、その値は
に他ならない。
3.5.2 事後中央値
2つ目は事後分布に基づいた中央値をパラメータの推定値として用いる方法であり、これを事後中央値(: )という。すなわち
である。これは平均絶対誤差、すなわち絶対誤差損失関数の期待値を最小にするような推定量である。
実際、
である。
ここで最右辺第3項について部分積分から
であること、また最右辺第4項が事後分布によるの期待値に他ならないことに注意すれば、
を得る。これを最小にするような値をとおけば、それが満たすべき1階と2階の条件は
である。2階条件は確率密度関数の性質からの値に関わらず必ず満たされるから、求めるべきは
を満たすような推定量であるが、これはが事後分布の中央値であることに他ならない。
参考文献
- 安道知寛(2010)「ベイズ統計モデリング」(朝倉書店)
- 鎌谷研吾・著 駒木文保・編(2020)「モンテカルロ統計計算」(講談社サイエンティフィック)
- 豊田秀樹・編著(2015)「基礎からのベイズ統計学」(朝倉書店)
- 中妻照雄(2007)「入門 ベイズ統計学」(朝倉書店)
- 中妻照雄(2013)「実践 ベイズ統計学」(朝倉書店)
- 中妻照雄(2019)「実践 Pythonライブラリー Pythonによる ベイズ統計学入門」(朝倉書店)
- 馬場真哉(2019)「RとStanではじめるベイズ統計モデリングによるデータ分析入門」(講談社サイエンティフィック)
- 松浦健太郎(2016)「StanとRでベイズ統計モデリング」(共立出版)
- 渡辺澄夫(2012)「ベイズ統計の理論と方法」(コロナ社)
- Andrew Gelman, John Carlin, Hal Stern, David Dunson, Aki Vehtari, and Donald Rubin (2014) "Bayesian Data Analysis", CRC Press