統計学のための線形代数（002/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
1.　線形代数の基礎
- 1.10　確率ベクトルと関連する統計的概念
次回

1.　線形代数の基礎

1.10　確率ベクトルと関連する統計的概念

　後の章における前提として統計理論の一部を概説する。

1.10.1　期待値

$\begin{aligned} E[g(X)]&=\displaystyle{\sum_{t\in R_X}g(t)p_X(t)},\\ E[g(X)]&=\displaystyle{\int_{-\infty}^{\infty}g(t)f_X(t)}dt \end{aligned}$

1.10.2　分散

$\begin{aligned} V[X]&=E[(X-E[X])^2]=E[X^2]-\{E[X]\}^2,\\ V[\alpha+\beta X]&=\beta^2V[X],\alpha,\beta\in\mathbb{R} \end{aligned}$

1.10.3　k次モーメント

$E[X^k]$

1.10.4　積率母関数

　 $0$ の近傍において $t$ に関して期待値が存在するならば、

$\begin{aligned} m_X(t)=E[e^{tX}] \end{aligned}$

もし積率母関数が存在するならば、

$\begin{aligned} \left.\displaystyle{\frac{d^k}{dt^k}}m_k(t)\right|_{t=0}=E[X^k] \end{aligned}$

1.10.5　特別な確率分布

正規分布： $X\sim N(\mu,\sigma^2)$

$\begin{aligned} f_X(x)&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}},\ -\infty\lt x\lt\infty,\\ m_X(t)&=e^{\mu t+\frac{\sigma^2t^2}{2}} \end{aligned}$

標準正規分布： $Z\sim N(0,1)$

　任意の $\mu\in\mathbb{R},0\lt\sigma\lt\infty$ に対して $z=\displaystyle{\frac{x-\mu}{\sigma}}$ とおけば、 $dx=\sigma dz$ である点に注意すると、

$\begin{aligned} f_X(x)&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}}\\ &=\displaystyle{\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\displaystyle{-\frac{Z^2}{2}}\right\}}\cdot\sigma\\ &=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left\{-\displaystyle{-\frac{Z^2}{2}}\right\}} \end{aligned}$

と標準正規分布に帰着できる。

自由度 $r$ のカイ二乗分布 $V\sim \chi_{r}^2$

$\begin{aligned} f_V(v)&=\displaystyle{\frac{t^{\frac{r}{2}-1}e^{-\frac{t}{2}}}{2^{\frac{r}{2}\Gamma\left(\displaystyle{\frac{r}{2}}\right)}}}\chi_{v\geq0}(v)\\ m_V(t)&=(1-2t)^{-\frac{r}{2}},t\leq\displaystyle{\frac{1}{2}} \end{aligned}$

　 $Z\sim N(0,1)$ のとき、 $Z^2\sim\chi_1^2$ である。さらに $Z_i\sim N(0,1),i.i.d.,i=1,2,\cdots,r$ ならば

$\begin{aligned} \displaystyle{\sum_{i=1}^{r}Z_i^2}\sim\chi_r^2 \end{aligned}$

である。

自由度 $r_1,r_2$ をもつ $F$ 分布： $Y\sim F(r_11,r_2)$

$\begin{aligned} f_Y(y)&=\displaystyle{\frac{\Gamma\left(\displaystyle{\frac{r_1+r_2}{2}}\right)}{\Gamma\left(\displaystyle{\frac{r_1}{2}}\right)\Gamma\left(\displaystyle{\frac{r_2}{2}}\right)}\left(\displaystyle{\frac{r_1}{r_2}}\right)y^{\frac{r_1-2}{2}}\left(1+\displaystyle{\frac{r_1}{r_2}y}\right)^{-\frac{r_1+r_2}{2}}}\chi_{y\geq0}(y) \end{aligned}$

　 $Y_1\sim\chi_{r_1}^2,Y_2\sim\chi_{r_2}^2$ が互いに独立ならば

$\begin{aligned} Y=\displaystyle{\frac{\displaystyle{\frac{Y_1}{r_1}}}{\displaystyle{\frac{Y_2}{r_2}}}}\sim F(r_1,r_2) \end{aligned}$

である。

1.10.6　確率ベクトル

　 $X_1,\cdots,X_n$ を確率変数としたとき、 $\boldsymbol{X}=(X_1,\cdots,X_n)^{\prime}$ を確率ベクトルという。

$\begin{aligned} F_{\boldsymbol{X}}(\boldsymbol{x})=\displaystyle{\int\cdots\int_{\mathbb{R}}f_{\boldsymbol{X}}(\boldsymbol{x})}d\boldsymbol{x} \end{aligned}$

　もし

$\begin{aligned} f_{\boldsymbol{X}}(\boldsymbol{x})=f_{X_1}(x_1)\cdot\cdots\cdot f_{X_n}(x_n) \end{aligned}$

が成り立つとき、 $X_1,\cdots,X_n$ は独立であるという。
　 $\boldsymbol{X}$ の平均ベクトル $\boldsymbol{\mu}$ は

$\begin{aligned} \boldsymbol{\mu}=(E[X_1],\cdots,E[X_n])^{\prime} \end{aligned}$

で定義される。
　共分散 $\mathrm{Cov}[X_i,X_j]$ を

$\begin{aligned} \mathrm{Cov}[X_i,X_j]=E[(X_i-E[X_i])(X_j-E[X_j])]=E[X_iX_j]-\mu_i\mu_j \end{aligned}$

で定義し、以降 $\sigma_{ij}$ と書くことにする。
　共分散を各成分に持つ行列

$\begin{aligned} \Sigma=\left(\sigma_{ij}\right)_{(i,j)}=E[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}]=E[\boldsymbol{X}\boldsymbol{X}^{\prime}]-\boldsymbol{\mu}\boldsymbol{\mu}^{\prime} \end{aligned}$

を共分散行列という。
　 $\boldsymbol{\alpha}\in\mathbb{R}^n$ とすれば、確率変数 $Y=\boldsymbol{\alpha}^{\prime}\boldsymbol{X}$ について

$\begin{aligned} E[Y]&=E[\boldsymbol{\alpha}^{\prime}\boldsymbol{X}]=E\left[\displaystyle{\sum_{i=1}^{n}\alpha_i X_i}\right]=\displaystyle{\sum_{i=1}^{n}\alpha_i E\left[X_i\right]}\\ &=\displaystyle{\sum_{i=1}^{n}\alpha_i \mu_i}=\boldsymbol{\alpha}^{\prime}\boldsymbol{\mu} \end{aligned}$

である。
　また $\boldsymbol{\beta}=(\beta_1,\cdots,\beta_n)\in\mathbb{R}^n$ とし $W=\boldsymbol{\beta}^{\prime}\boldsymbol{X}$ ならば

$\begin{aligned} \mathrm{Cov}[Y,W]&=\mathrm{Cov}[\boldsymbol{\alpha}^{\prime}\boldsymbol{X},\boldsymbol{\beta}^{\prime}\boldsymbol{X}]=\mathrm{Cov}\left[\displaystyle{\sum_{i=1}^{n}\alpha_i X_i},\displaystyle{\sum_{j=1}^{n}\beta_j X_j}\right]\\ &=\displaystyle{\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\beta_j\mathrm{Cov}[X_i,X_j]}=\displaystyle{\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\beta_j\sigma_{ij}}\\ &=\boldsymbol{\alpha}^{\prime}\Sigma\boldsymbol{\beta} \end{aligned}$

　一般に $A=(a_{ij})_{p\times n},a_{ij}\in\mathbb{R}$ に対して $\boldsymbol{Y}=A\boldsymbol{X}$ ならば、

$\begin{aligned} \mathbb{E}[\boldsymbol{Y}]&=E[A\boldsymbol{X}]=AE[\boldsymbol{X}]=A\boldsymbol{\mu},\\ \mathbb{V}[\boldsymbol{Y}]&=E[(\boldsymbol{Y}-E[\boldsymbol{Y}])(\boldsymbol{Y}-E[\boldsymbol{Y}])^{\prime}]=E[(A\boldsymbol{X}-A\boldsymbol{\mu})(A\boldsymbol{X}-A\boldsymbol{\mu})^{\prime}]\\ &=E[A(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}A^{\prime}]\\ &=A E[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}]A^{\prime}\\ &=A\Sigma A^{\prime} \end{aligned}$

である。したがって変換された確率ベクトル $A\boldsymbol{X}$ の平均ベクトルおよび共分散行列は $A\boldsymbol{\mu},A\Sigma A^{\prime}$ である。
　 $X_i,X_j$ 間の線形関係を測る尺度として相関係数がある。

$\begin{aligned} \rho_{ij}=\displaystyle{\frac{\mathrm{Cov}[X_i,X_j]}{\sqrt{V[X_i]V[X_j]}}}=\displaystyle{\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}}} \end{aligned}$

　行列 $P=(\rho_{ij})_{(i,j)}$ を相関行列と呼ぶ。 $D_{\Sigma}^{-\frac{1}{2}}=\mathrm{diag}(\sigma_{11}^{-\frac{1}{2}},\cdots,\sigma_{nn}^{-\frac{1}{2}})$ とすれば

$\begin{aligned} P=D_{\Sigma}^{-\frac{1}{2}}\Sigma D_{\Sigma}^{-\frac{1}{2}} \end{aligned}$

で表される。また $\boldsymbol{\alpha}\in\mathbb{R}^n$ に対して $\boldsymbol{\beta}=D_{\Sigma}^{-\frac{1}{2}}\boldsymbol{\alpha}$ とおけば

$\begin{aligned} \boldsymbol{\alpha}^{\prime}P\boldsymbol{\alpha}=\boldsymbol{\alpha}^{\prime}D_{\Sigma}^{-\frac{1}{2}}\Sigma D_{\Sigma}^{-\frac{1}{2}}\boldsymbol{\alpha}=\boldsymbol{\beta}^{\prime}\Sigma\boldsymbol{\beta} \end{aligned}$

である。
　単位行列 $I_n$ を

$\begin{aligned} I_n=\begin{bmatrix} 1&0&\cdots&0&0\\ 0&1&\cdots&0&0\\ \vdots&&\ddots&\vdots&\vdots\\ 0&0&\cdots&1&0\\ 0&0&\cdots&0&1 \end{bmatrix} \end{aligned}=(\boldsymbol{e}_1 \boldsymbol{e}_2\cdots\boldsymbol{e}_n)$

とおくと

$\begin{aligned} (\boldsymbol{e}_i+\boldsymbol{e}_j)^{\prime}P(\boldsymbol{e}_i+\boldsymbol{e}_j)&=(P)_{ii}+(P)_{ij}+(P)_{ji}(P)_{jj}\\ &=2(1+\rho_{ij})\geq0 \end{aligned}$

であり

$\begin{aligned} (\boldsymbol{e}_i-\boldsymbol{e}_j)^{\prime}P(\boldsymbol{e}_i-\boldsymbol{e}_j)&=(P)_{ii}-(P)_{ij}-(P)_{ji}(P)_{jj}\\ &=2(1-\rho_{ij})\geq0 \end{aligned}$

であるから、 $-1\leq\rho_{ij}\leq1$ を得る。

　平均や分散、共分散は通常未知であるから、標本から推定する。
　いま $X_1,\cdots,X_n$ を確率変数 $X\sim F(\mu,\sigma^2)$ から無作為に得た標本とする。このとき

$\begin{aligned} \bar{X}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}X_i},\\ s^2&=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}=\displaystyle{\frac{1}{n-1}\left(\displaystyle{\sum_{i=1}^{n}X_i^2}-n\bar{X}^2\right)},\\ \end{aligned}$

で与えられる。
　多変量の場合でも同様に与えることが出来る。 $\boldsymbol{X}_1,\cdots,\boldsymbol{X}_n$ が確率ベクトル $\boldsymbol{X}\sim F(\boldsymbol{\mu},\Sigma)$ から無作為に得られた標本だとする。このとき標本平均ベクトルおよび標本共分散行列は

$\begin{aligned} \bar{\boldsymbol{X}}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\boldsymbol{X}_i},\\ S&=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(\boldsymbol{X}_i-\bar{\boldsymbol{X}})(\boldsymbol{X}_i-\bar{\boldsymbol{X}})^{\prime}}\\ &=\displaystyle{\frac{1}{n-1}\left(\displaystyle{\sum_{i=1}^{n}\boldsymbol{X}_i\boldsymbol{X}_i^{\prime}}-n\bar{\boldsymbol{X}}\bar{\boldsymbol{X}^{\prime}}\right)},\\ \end{aligned}$

で与えられる。
　この標本共分散行列を用いることで、対角行列 $D_S^{-\frac{1}{2}}=\mathrm{diag}(s_{11}^{-\frac{1}{2}},\cdots,s_{mm}^{-\frac{1}{2}})$ と共に標本相関行列を

$\begin{aligned} R=D_S^{-\frac{1}{2}}SD_S^{-\frac{1}{2}} \end{aligned}$

で得る。

　多変量確率分布の議論で頻用されるのが、多変量正規分布である。多変量正規分布は行列およびベクトルを用いることで簡潔に表すことが出来る。 $\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma)$ とすると

$\begin{aligned} f_{\boldsymbol{X}}(\boldsymbol{x})=\displaystyle{\frac{1}{(2\pi|\Sigma|)^{\frac{m}{2}}}\exp\left\{-\displaystyle{\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\prime}\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})} \right\}} \end{aligned}$

と書ける。
　もし $\mathrm{rank}(\Sigma)=r$ で $U=(u_{ij})_{m\times r}=UU^{\prime}=\Sigma$ を満たすとする。このとき $\boldsymbol{Z}\sim\mathcal{N}_r(\boldsymbol{0},I_r)$ の下で $\boldsymbol{X}=\boldsymbol{\mu}+U\boldsymbol{Z}$ ならば、 $\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma)$ が成り立つ。

　多変量正規分布の重要な性質として、多変量正規ベクトルの線形変換は別の多変量積ベクトルを生成する。実際、 $\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma),\ A=(a_{ij})_{p\times m}$ ならば、 $\boldsymbol{Y}=A\boldsymbol{X}\sim\mathcal{N}_p(A\boldsymbol{\mu},A\Sigma A^{\prime})$ が成り立つ。

　次に多変量正規分布の拡張として、球形分布および楕円分布を考える。球形分布は標準多変量正規分布 $\mathcal{N}_m(\boldsymbol{0},I_m)$ の、楕円分布は多変量正規分布 $\mathcal{N}_m(\boldsymbol{\mu},\Sigma)$ の拡張版である。
　すべての $m\times m$ 直交行列 $P$ について $m\times1$ 確率ベクトル $\boldsymbol{X}$ および $P\boldsymbol{X}$ が同じ分布に従うとき、 $\boldsymbol{X}$ は球形分布に従うという。もし $\boldsymbol{X}$ が密度関数をもった球形分布ならば、この密度関数は $\boldsymbol{X}^{\prime}\boldsymbol{X}$ にのみ依存する。
　今度は球形分布から楕円分布に拡張する。確率ベクトル $\boldsymbol{Y}$ が

$\begin{aligned} \boldsymbol{Y}&=\boldsymbol{\mu}+T\boldsymbol{X},\\ T&=(t_{ij})_{m\times r},\ TT^{\prime}=\Sigma,\mathrm{\Omega}=r \end{aligned}$

で表現できるならば、 $\boldsymbol{Y}$ は母数 $\boldsymbol{\mu},\Sigma$ の楕円分布に従うという。
　もし $\boldsymbol{u}\in\left\{\left.(x_1,\cdots,x_m)\in\mathbb{R}^m\right|\displaystyle{\sum_{i}^{m}x_i^2=k^2,k\gt0}\right\}$ が無作為に得られたものであるならば、 $\boldsymbol{X}$ が球形分布に従う場合、非負の確率変数 $W$ を用いて

$\begin{aligned} \boldsymbol{X}=W\boldsymbol{U} \end{aligned}$

と書ける。これを用いると

$\begin{aligned} \boldsymbol{Y}=\boldsymbol{\mu}+WT\boldsymbol{U} \end{aligned}$

と書ける。
　回帰分析

$\begin{aligned} \boldsymbol{y}&=X\boldsymbol{\beta}+\boldsymbol{\varepsilon} \end{aligned}$

を考える。ここで

$\begin{aligned} \boldsymbol{y}=\begin{bmatrix} y_1\\ \vdots\\ y_N \end{bmatrix},\ \boldsymbol{\beta}=\begin{bmatrix} \beta_1\\ \vdots\\ \beta_k \end{bmatrix},\ X=\begin{bmatrix} 1 &x_{11}&\cdots&x_{1k}\\ 1 &x_{21}&\cdots&x_{2k}\\ \vdots &\vdots& &\vdots\\ 1 &x_{N1}&\cdots&x_{Nk} \end{bmatrix} \end{aligned}$