本気で学ぶ統計学(12/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
4.　多次元確率分布
- 4.1　期待値ベクトル
  - 4.1.1　条件つき期待値
  - 4.1.2　全確率の公式
- 4.2　分散共分散行列
  - 4.2.1　条件つき分散
次回
参考文献

4.　多次元確率分布

　複数の確率変数を組として見たとき、すなわちベクトルとして見たときにこの確率変数を成分に持つベクトルを確率ベクトルといい、確率ベクトルの分布を多次元確率分布という*1。
　確率ベクトルは

$\begin{aligned} \boldsymbol{X}=\begin{bmatrix}X_1\\X_ 2\\\vdots\\X_n \end{bmatrix} \end{aligned}$

と書かれることが多い。
　また確率ベクトルの確率に関して、同時確率において確率変数から $x_1,\cdots,x_n$ に注目を移した関数

$\begin{aligned} F(x_1,\cdots,x_n)=P\{X_1\leq x_1,\cdots,X_n\leq x_n\} \end{aligned}$

を確率ベクトル $X$ の（累積）分布関数という。また $\boldsymbol{x}={}^{t}(x_1,\cdots,x_n)$ に対して同時密度関数を

$\begin{aligned} f_{\boldsymbol{X}}(\boldsymbol{x})=\displaystyle{\frac{\partial F(\boldsymbol{x})}{\partial x_1\cdots\partial x_n}} \end{aligned}$

で定義する。
　多次元分布に固有なのが周辺分布と条件付き分布である。周辺分布関数は関心のない確率変数に関して分布関数を積分して得られる。たとえば $n-1$ 次元の周辺分布関数は

$\begin{aligned} F(x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_n)=\displaystyle{\int_{-\infty}^{\infty}F(x_1,\cdots,x_n) dx_i} \end{aligned}$

で定義される。
　また関心のない確率変数に関して密度関数を積分して得られるのが周辺密度関数である。たとえば1次元の周辺密度関数は

$\begin{aligned} f_{X_i}(x_i)=\displaystyle{\int_{[-\infty,\infty]^{n-1}}f_{\boldsymbol{X}}(x_1,\cdots,x_n)}dx_1\cdots dx_{i-1}dx_{i+1}\cdots dx_n \end{aligned}$

である。
　次に条件付き分布関数を与える。確率ベクトル $\boldsymbol{X}$ の各成分に関する事象 $A$ を考えたときに、 $\boldsymbol{X}$ の分布関数に対応する確率を $P(\cdot)$ とし、 $P(A)\gt0$ だとして

$\begin{aligned} F_{\boldsymbol{X}|A}(\boldsymbol{x})=\displaystyle{\frac{P(\{X_1\leq x_1,\cdots,X_n\leq x_n\}\cap A)}{P(A)}} \end{aligned}$

を条件付き分布関数という。
　また確率ベクトル $\boldsymbol{X}$ の各成分に関する事象 $A$ を考えたときに、観測された確率変数をまとめた確率ベクトルを $\boldsymbol{Y}=(y_{(1) },\cdots,y_{(k)})$ , 観測されなかった確率変数の確率ベクトルを $\boldsymbol{Z}=(z_{(1)},\cdots,z_{(l)})$ としたときに、確率ベクトル $\boldsymbol{X}$ の条件付き密度関数は、周辺密度関数を $f_{\boldsymbol{Y}}(y)\gt0$ として

$\begin{aligned} f_(X|A) (y)=\displaystyle{\frac{f_{\boldsymbol{X}} (y_{(1)},\cdots,y_{(k)},z_{(1)},\cdots,z_{(l)})}{f_{\boldsymbol{Y}}(y)}} \end{aligned}$

で与えられる。

4.1　期待値ベクトル

　多次元であっても1次元と同様に期待値を定義でき、これを期待値ベクトルといい、

$\begin{aligned} \mathbb{E}[\boldsymbol{X}]=\begin{bmatrix}E[X_1]\\E[X_2]\\\vdots\\E[X_n]\end{bmatrix} \end{aligned}$

と書く。特に母平均ベクトルを書く場合、短縮して $\boldsymbol{\mu}$ と書くことが多い。期待値ベクトルと1次元の期待値とを区別する必要がある場合には特に、 $\mathbb{E}[\cdot]$ で期待値を表す作用素とするが、誤解が無ければ1次元の期待値と同様に $E[\cdot]$ で表すことが多い。

4.1.1　条件つき期待値

　 $(X,Y)$ を2次元連続確率変数とし、その同時密度関数および $X=x$ を与えたときの $Y$ の条件つき密度関数を

$\begin{aligned} f_{Y|X}(y)=\displaystyle{\frac{f(x,y)}{f_X(x)}} \end{aligned}$

とする*2。
　このとき

$\begin{aligned} E[Y|X]=E[Y|X=x]=\displaystyle{\int_{-\infty}^{\infty} y f_{Y|X=x} (y)}dy \end{aligned}$

を条件つき期待値という。より一般に関数 $g(X,Y)$ の $X=x$ を与えたときの条件つき期待値を

$\begin{aligned} E[g(X,Y)|X]=E[g(X,Y)|X=x]=\displaystyle{\int_{-\infty}^{\infty}g(x,y)f_{Y|X=x}(y) }dy \end{aligned}$

で定義する。

4.1.2　全確率の公式

　条件つき期待値は $x$ の関数としても、 $X$ の関数としても見ることが出来る。そこで

$\begin{aligned} h(X)=E[Y|X] \end{aligned}$

とおくと

$\begin{aligned} E[h(X)]=E^X[E[Y|X]]=E[E[Y|X]]=E[Y] \end{aligned}$

が成り立つ*3。実際

$\begin{aligned} E[Y]&=\displaystyle{\iint yf(x,y)}dydx\\ &=\displaystyle{\int\left(\int y \frac{f(x,y)}{f_{X}(x)}\right)f_{X}(x)}dx\\ &=\displaystyle{\int E[Y|X=x]f_{X}(x)E^{X}[E[Y|X]]}dx\\ &=E[h(X)] \end{aligned}$

である。

4.2　分散共分散行列

　確率ベクトル $\boldsymbol{X}={}^{t}(X_1,\cdots,X_n)$ の各元の(共)分散を対応する $(i,j)$ 成分に持つ $n$ 次正方対称行列

$\begin{aligned} \mathbb{V}[\boldsymbol{X}]=\Sigma&=(σ_{ij})_{n\times n}=\mathbb{E}[(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}]) {}^{t}(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}])]\\ &=\begin{bmatrix} V[X_1]&\mathrm{Cov}[X_1,X_2]&\cdots&\mathrm{Cov}[X_1,X_n]\\ \mathrm{Cov}[X_2,X_1]&V[X_2]&\cdots&\mathrm{Cov}[X_2,X_n]\\ \vdots&\vdots&\ddots&\vdots\\ \mathrm{Cov}[X_n,X_1]&\mathrm{Cov}[X_n,X_2]&\cdots&V[X_n] \end{bmatrix} \end{aligned}$

を(分散)共分散行列という。定数ベクトル $\boldsymbol{a}$ および定数行列 $B$ に対して

$\begin{aligned} \mathbb{V}[\boldsymbol{a}+B\boldsymbol{X}]&=\mathbb{E}[(\boldsymbol{a}+B\boldsymbol{X}-\mathbb{E}[\boldsymbol{a}+B\boldsymbol{X}]){}^{t}(\boldsymbol{a}+B\boldsymbol{X}-\mathbb{E}[\boldsymbol{a}+B\boldsymbol{X}])]\\ &=\mathbb{E}[(B\boldsymbol{X}-\mathbb{E}[B\boldsymbol{X}]){}^{t}(B\boldsymbol{X}-\mathbb{E}[B\boldsymbol{X}])]\\ &=B\cdot\mathbb{E}[(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}]){}^{t}(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}])]\cdot{}^{t}B\\ &=B\cdot\mathbb{V}[\boldsymbol{X}]\cdot{}^{t}B \end{aligned}$

が成り立つ。
　 $\boldsymbol{X}$ と $\boldsymbol{Y}$ が独立であると仮定すると、

$\begin{aligned} \mathbb{V}[\boldsymbol{X}+\boldsymbol{Y}]=&\mathbb{E}[\left\{(\boldsymbol{X}+\boldsymbol{Y})-\mathbb{E}[\boldsymbol{X}+\boldsymbol{Y}]\right\}{}^{t}\left( (\boldsymbol{X}+\boldsymbol{Y})-\mathbb{E}[\boldsymbol{X}+\boldsymbol{Y}]\right)]\\ =&\mathbb{E}[\left\{(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}])+(\boldsymbol{Y}-\mathbb{E}[\boldsymbol{Y}])\right\}{}^{t}\left\{(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}])+(\boldsymbol{Y}-\mathbb{E}[\boldsymbol{Y}])\right\}]\\ =&\mathbb{E}[(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}]){}^{t}(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}])]+2\mathbb{E}[(\boldsymbol{X}-\mathbb{E}[\boldsymbol{X}]){}^{t}(\boldsymbol{Y}-\mathbb{E}[\boldsymbol{Y}])]\\ &+\mathbb{E}[(\boldsymbol{Y}-\mathbb{E}[\boldsymbol{Y}]){}^{t}(\boldsymbol{Y}-\mathbb{E}[\boldsymbol{Y}])]\\ =&\mathbb{V}[\boldsymbol{X}]+\mathbb{V}[\boldsymbol{Y}] \end{aligned}$

である。

4.2.1　条件つき分散

　条件つき分布の分散

$\begin{aligned} V[Y|X]=E[(Y-E[Y|X])^2|X] \end{aligned}$

を $X$ を与えたときの条件つき分散という。
　いま $h(X)=E[Y|X],k(X)=V[Y|X]$ とおき、

$\begin{aligned} V[h(X)]=E[h(X)^2]-\{E[h(X)]\}^2 \end{aligned}$

を $h(X)$ の分散とすれば、

$\begin{aligned} V[Y]=E[k(X)]+V[h(X)]=E[V[Y|X]]+V[E[Y|X]] \end{aligned}$

が成り立つ。実際、 $E[Y]=E^X[h(X)]=\mu$ とおくと

$\begin{aligned} V[Y]=&E[(Y-\mu)^2 ]=E^X [E[{(Y-h(X))+(h(X)-\mu)}^2 |X]]\\ =&E^X [E[(Y-h(X))^2 |X]]+E^X [E[(h(X)-\mu)^2 |X]]\\ &+2E^X [E[(Y-h(X))(h(X)-\mu)|X]]\\ =&E^X [V[Y|X]]+V[E[Y|X]]+2E^X [(h(X)-\mu)E[(Y-h(X))|X]]\\ =&E^X [V[Y|X]]+V[E[Y|X]] \end{aligned}$

が成り立つ。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1:以下、簡単のために連続の場合のみを考える。離散のときも同様に議論できる。

*2:3次元以上でも考えることができるが、簡単のためにここでは2次元とする。

*3: $E^{X}$ は期待値が $X$ に関する積分であることを強調するために用いる書き方である。

前回

4. 多次元確率分布

4.1 期待値ベクトル

4.1.1 条件つき期待値

4.1.2 全確率の公式

4.2 分散共分散行列

4.2.1 条件つき分散

次回