目次
1.確率の基礎とコピュラの概要
1.1 確率論の基礎
1.1.1 確率変数
- ランダムに様々な値を取り得る変数を確率変数という(数学的には母集団から実数全体への関数
とする。)。
- 複数の確率変数の組
を
変量確率変数(確率ベクトル)という。
- 確率変数の確率的な特徴はその分布により規定される。分布関数は、で定義される*1。たとえば、区間
上の一様分布(uniform distribution)は、0から1までの実数を乱数として一様に発生させる。たとえば、確率変数
が区間
上の一様分布(
と書くことにする。)に従うことを
と書く。
- 確率変数はその定義から、試行を行い実際にその値を観測するまで特定の値を得ることができない。この観測した値のことを実現値や観測値という。慣習的に確率変数を大文字で、観測値はその小文字(と試行を識別するために添え字)で表現する。たとえば、一様乱数
を10,000回得るという試行では、
と書くことが多い*2。
- 確率変数の確率密度関数をで表す。たとえば、
に対し、
である。 - このため、確率、分布関数および確率密度関数には、という関係がある*3。
を生存関数という。定義から
が成り立つ。- 任意の連続型確率変数は一様確率変数
に変換することができる。実際、分布関数
*4を持つ確率変数
に対して確率変数
を定義すると、確率の定義から
であり、
が成り立つ。とおけば、
であり、これは
が一様分布であることに他ならない。したがって、一様乱数
を生成し、これを
で変換した
は、分布
に従う確率変数である。実際に計算機において任意の分布の乱数を生成するには、一般にこの方法を取る。こうした乱数の生成法を逆関数法という。
1.1.2 パラメトリック分布
1.2 なぜコピュラを用いるのか
1.2.1 2変量正規分布とコピュラ
- コピュラによる確率モデルの多くは、
と
のそれぞれが正規分布に従うことを仮定していない。周辺分布によらずに相関構造の実を定めるために用いるのがコピュラである。
- 確率変数
と
をそれぞれ一様分布
に従うように変換する。
1.2.2 コピュラによる相関構造
- コピュラを用いると様々な相関構造を定めることができる。多くの場合、相関の強さを表すパラメータを持つ。
- コピュラが定める確率変数間の相関構造は周辺分布に無関係である。周辺分布がどのような分布に従おうとも、2つの確率変数間の相関構造はコピュラで記述できる。それを明示的に示したのがSklarの定理である。コピュラを用いれば、周辺分布の方がどのようなものでも、それと無関係に相関構造をモデリングすることが可能となる。
- あらゆる方の相関構造がコピュラを用いることによりモデル化できる。ただし、実際の解析では数学的性質の優れたコピュラに利用が限定されることが多い。そのため、コピュラを運用するには、代表的なコピュラの種類と、それらの数学的性質をある程度理解すると便利である。
章末問題
1.
まず、
である。確率の定義から
だから、
である。
次に、に対し、
が存在することから、
が成り立つ。したがって、
で、
とおけば、
であり、
である。
2.
2. パラメータ
ここにはガンマ関数である。
(1) 平均、分散
を示せ。
(2) 平均、分散
となるガンマ分布の密度関数を書け。
- (1)平均と分散を求める。
- (2) 平均
分散
の場合。
(1)の結果から、
だから、
である。これらを代入することで、
である。
*1:確率は、試行(たとえば「コインを1枚投げて表が出ること」)と区間を対応付けるものである。これに対し、表が出ることを
,裏が出ることを
で表すと確率変数
を定義して、
と区間
を対応付けるのが分布関数である。こうすることで実数と実数を対応付けることができ、数学的な取り扱いが便利になる。
*2:慣習なので必ずしもこうというわけではない。
*3:確率変数が離散値を取る場合はこの限りではないが、ここでは議論を省略する。
*4:逆関数が存在すると仮定する。なお、一般には逆関数が存在しない確率分布でも同様の議論をできるように擬逆関数を定義するが、ここでは議論しない。
*5:他の分布であれば値の出やすさも一般に相違する。
*6:ここでは、が該当する。
*7:母数を定数と見るのは頻度論的解釈であり、ベイズ統計学の下では相違する。ここでは頻度論での議論をする。
*8:母数が複数ある場合はベクトル表記することもある。特定の分布では慣習的に決まったギリシア文字が当てられることが多い(たとえば正規分布であると平均は、分散は
)。
*9:必ずしも持つ分布を仮定するとは限らない。全くもってパラメータを持たない分布をノンパラメトリック分布と呼び、一部をパラメトリック分布のように明示的な関数形で考慮し、別の母数は明示的に取り込まないような分布をセミパラメトリック分布という。

