「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

統計学のための線形代数(002/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

1. 線形代数の基礎

1.10 確率ベクトルと関連する統計的概念

 後の章における前提として統計理論の一部を概説する。

1.10.1 期待値


\begin{aligned}
E[g(X)]&=\displaystyle{\sum_{t\in R_X}g(t)p_X(t)},\\
E[g(X)]&=\displaystyle{\int_{-\infty}^{\infty}g(t)f_X(t)}dt
\end{aligned}

1.10.2 分散


\begin{aligned}
V[X]&=E[(X-E[X])^2]=E[X^2]-\{E[X]\}^2,\\
V[\alpha+\beta X]&=\beta^2V[X],\alpha,\beta\in\mathbb{R}
\end{aligned}

1.10.3 k次モーメント

E[X^k]

1.10.4 積率母関数

 0の近傍においてtに関して期待値が存在するならば、


\begin{aligned}
m_X(t)=E[e^{tX}]
\end{aligned}

もし積率母関数が存在するならば、


\begin{aligned}
\left.\displaystyle{\frac{d^k}{dt^k}}m_k(t)\right|_{t=0}=E[X^k]
\end{aligned}

1.10.5 特別な確率分布


\begin{aligned}
f_X(x)&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}},\ -\infty\lt x\lt\infty,\\
m_X(t)&=e^{\mu t+\frac{\sigma^2t^2}{2}}
\end{aligned}

 任意の\mu\in\mathbb{R},0\lt\sigma\lt\inftyに対してz=\displaystyle{\frac{x-\mu}{\sigma}}とおけば、dx=\sigma dzである点に注意すると、


\begin{aligned}
f_X(x)&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}}\\
&=\displaystyle{\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\displaystyle{-\frac{Z^2}{2}}\right\}}\cdot\sigma\\
&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left\{-\displaystyle{-\frac{Z^2}{2}}\right\}}
\end{aligned}

と標準正規分布に帰着できる。


\begin{aligned}
f_V(v)&=\displaystyle{\frac{t^{\frac{r}{2}-1}e^{-\frac{t}{2}}}{2^{\frac{r}{2}\Gamma\left(\displaystyle{\frac{r}{2}}\right)}}}\chi_{v\geq0}(v)\\
m_V(t)&=(1-2t)^{-\frac{r}{2}},t\leq\displaystyle{\frac{1}{2}}
\end{aligned}

 Z\sim N(0,1)のとき、Z^2\sim\chi_1^2である。さらにZ_i\sim N(0,1),i.i.d.,i=1,2,\cdots,rならば


\begin{aligned}
\displaystyle{\sum_{i=1}^{r}Z_i^2}\sim\chi_r^2
\end{aligned}

である。

  • 自由度r_1,r_2をもつF分布:Y\sim F(r_11,r_2)


\begin{aligned}
f_Y(y)&=\displaystyle{\frac{\Gamma\left(\displaystyle{\frac{r_1+r_2}{2}}\right)}{\Gamma\left(\displaystyle{\frac{r_1}{2}}\right)\Gamma\left(\displaystyle{\frac{r_2}{2}}\right)}\left(\displaystyle{\frac{r_1}{r_2}}\right)y^{\frac{r_1-2}{2}}\left(1+\displaystyle{\frac{r_1}{r_2}y}\right)^{-\frac{r_1+r_2}{2}}}\chi_{y\geq0}(y)
\end{aligned}

 Y_1\sim\chi_{r_1}^2,Y_2\sim\chi_{r_2}^2が互いに独立ならば


\begin{aligned}
Y=\displaystyle{\frac{\displaystyle{\frac{Y_1}{r_1}}}{\displaystyle{\frac{Y_2}{r_2}}}}\sim F(r_1,r_2)
\end{aligned}

である。

1.10.6 確率ベクトル

 X_1,\cdots,X_nを確率変数としたとき、\boldsymbol{X}=(X_1,\cdots,X_n)^{\prime}を確率ベクトルという。


\begin{aligned}
F_{\boldsymbol{X}}(\boldsymbol{x})=\displaystyle{\int\cdots\int_{\mathbb{R}}f_{\boldsymbol{X}}(\boldsymbol{x})}d\boldsymbol{x}
\end{aligned}
 もし

\begin{aligned}
f_{\boldsymbol{X}}(\boldsymbol{x})=f_{X_1}(x_1)\cdot\cdots\cdot f_{X_n}(x_n)
\end{aligned}

が成り立つとき、X_1,\cdots,X_nは独立であるという。
 \boldsymbol{X}の平均ベクトル\boldsymbol{\mu}


\begin{aligned}
\boldsymbol{\mu}=(E[X_1],\cdots,E[X_n])^{\prime}
\end{aligned}

で定義される。
 共分散\mathrm{Cov}[X_i,X_j]


\begin{aligned}
\mathrm{Cov}[X_i,X_j]=E[(X_i-E[X_i])(X_j-E[X_j])]=E[X_iX_j]-\mu_i\mu_j
\end{aligned}

で定義し、以降\sigma_{ij}と書くことにする。
 共分散を各成分に持つ行列


\begin{aligned}
\Sigma=\left(\sigma_{ij}\right)_{(i,j)}=E[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}]=E[\boldsymbol{X}\boldsymbol{X}^{\prime}]-\boldsymbol{\mu}\boldsymbol{\mu}^{\prime}
\end{aligned}

を共分散行列という。
 \boldsymbol{\alpha}\in\mathbb{R}^nとすれば、確率変数Y=\boldsymbol{\alpha}^{\prime}\boldsymbol{X}について


\begin{aligned}
E[Y]&=E[\boldsymbol{\alpha}^{\prime}\boldsymbol{X}]=E\left[\displaystyle{\sum_{i=1}^{n}\alpha_i X_i}\right]=\displaystyle{\sum_{i=1}^{n}\alpha_i E\left[X_i\right]}\\
&=\displaystyle{\sum_{i=1}^{n}\alpha_i \mu_i}=\boldsymbol{\alpha}^{\prime}\boldsymbol{\mu}
\end{aligned}

である。
 また\boldsymbol{\beta}=(\beta_1,\cdots,\beta_n)\in\mathbb{R}^nとしW=\boldsymbol{\beta}^{\prime}\boldsymbol{X}ならば


\begin{aligned}
\mathrm{Cov}[Y,W]&=\mathrm{Cov}[\boldsymbol{\alpha}^{\prime}\boldsymbol{X},\boldsymbol{\beta}^{\prime}\boldsymbol{X}]=\mathrm{Cov}\left[\displaystyle{\sum_{i=1}^{n}\alpha_i X_i},\displaystyle{\sum_{j=1}^{n}\beta_j X_j}\right]\\
&=\displaystyle{\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\beta_j\mathrm{Cov}[X_i,X_j]}=\displaystyle{\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\beta_j\sigma_{ij}}\\
&=\boldsymbol{\alpha}^{\prime}\Sigma\boldsymbol{\beta}
\end{aligned}

 一般にA=(a_{ij})_{p\times n},a_{ij}\in\mathbb{R}に対して\boldsymbol{Y}=A\boldsymbol{X}ならば、


\begin{aligned}
\mathbb{E}[\boldsymbol{Y}]&=E[A\boldsymbol{X}]=AE[\boldsymbol{X}]=A\boldsymbol{\mu},\\
\mathbb{V}[\boldsymbol{Y}]&=E[(\boldsymbol{Y}-E[\boldsymbol{Y}])(\boldsymbol{Y}-E[\boldsymbol{Y}])^{\prime}]=E[(A\boldsymbol{X}-A\boldsymbol{\mu})(A\boldsymbol{X}-A\boldsymbol{\mu})^{\prime}]\\
&=E[A(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}A^{\prime}]\\
&=A E[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\prime}]A^{\prime}\\
&=A\Sigma A^{\prime}
\end{aligned}

である。したがって変換された確率ベクトルA\boldsymbol{X}の平均ベクトルおよび共分散行列はA\boldsymbol{\mu},A\Sigma A^{\prime}である。
 X_i,X_j間の線形関係を測る尺度として相関係数がある。


\begin{aligned}
\rho_{ij}=\displaystyle{\frac{\mathrm{Cov}[X_i,X_j]}{\sqrt{V[X_i]V[X_j]}}}=\displaystyle{\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}}}
\end{aligned}

 行列P=(\rho_{ij})_{(i,j)}を相関行列と呼ぶ。D_{\Sigma}^{-\frac{1}{2}}=\mathrm{diag}(\sigma_{11}^{-\frac{1}{2}},\cdots,\sigma_{nn}^{-\frac{1}{2}})とすれば


\begin{aligned}
P=D_{\Sigma}^{-\frac{1}{2}}\Sigma D_{\Sigma}^{-\frac{1}{2}}
\end{aligned}

で表される。また\boldsymbol{\alpha}\in\mathbb{R}^nに対して\boldsymbol{\beta}=D_{\Sigma}^{-\frac{1}{2}}\boldsymbol{\alpha}とおけば


\begin{aligned}
\boldsymbol{\alpha}^{\prime}P\boldsymbol{\alpha}=\boldsymbol{\alpha}^{\prime}D_{\Sigma}^{-\frac{1}{2}}\Sigma D_{\Sigma}^{-\frac{1}{2}}\boldsymbol{\alpha}=\boldsymbol{\beta}^{\prime}\Sigma\boldsymbol{\beta}
\end{aligned}

である。
 単位行列I_n


\begin{aligned}
I_n=\begin{bmatrix}
1&0&\cdots&0&0\\
0&1&\cdots&0&0\\
\vdots&&\ddots&\vdots&\vdots\\
0&0&\cdots&1&0\\
0&0&\cdots&0&1
\end{bmatrix}
\end{aligned}=(\boldsymbol{e}_1 \boldsymbol{e}_2\cdots\boldsymbol{e}_n)

とおくと


\begin{aligned}
(\boldsymbol{e}_i+\boldsymbol{e}_j)^{\prime}P(\boldsymbol{e}_i+\boldsymbol{e}_j)&=(P)_{ii}+(P)_{ij}+(P)_{ji}(P)_{jj}\\
&=2(1+\rho_{ij})\geq0
\end{aligned}

であり


\begin{aligned}
(\boldsymbol{e}_i-\boldsymbol{e}_j)^{\prime}P(\boldsymbol{e}_i-\boldsymbol{e}_j)&=(P)_{ii}-(P)_{ij}-(P)_{ji}(P)_{jj}\\
&=2(1-\rho_{ij})\geq0
\end{aligned}

であるから、-1\leq\rho_{ij}\leq1を得る。

 平均や分散、共分散は通常未知であるから、標本から推定する。
 いまX_1,\cdots,X_nを確率変数X\sim F(\mu,\sigma^2)から無作為に得た標本とする。このとき


\begin{aligned}
\bar{X}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}X_i},\\
s^2&=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}=\displaystyle{\frac{1}{n-1}\left(\displaystyle{\sum_{i=1}^{n}X_i^2}-n\bar{X}^2\right)},\\
\end{aligned}

で与えられる。
 多変量の場合でも同様に与えることが出来る。\boldsymbol{X}_1,\cdots,\boldsymbol{X}_nが確率ベクトル\boldsymbol{X}\sim F(\boldsymbol{\mu},\Sigma)から無作為に得られた標本だとする。このとき標本平均ベクトルおよび標本共分散行列は


\begin{aligned}
\bar{\boldsymbol{X}}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\boldsymbol{X}_i},\\
S&=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(\boldsymbol{X}_i-\bar{\boldsymbol{X}})(\boldsymbol{X}_i-\bar{\boldsymbol{X}})^{\prime}}\\
&=\displaystyle{\frac{1}{n-1}\left(\displaystyle{\sum_{i=1}^{n}\boldsymbol{X}_i\boldsymbol{X}_i^{\prime}}-n\bar{\boldsymbol{X}}\bar{\boldsymbol{X}^{\prime}}\right)},\\
\end{aligned}

で与えられる。
 この標本共分散行列を用いることで、対角行列D_S^{-\frac{1}{2}}=\mathrm{diag}(s_{11}^{-\frac{1}{2}},\cdots,s_{mm}^{-\frac{1}{2}})と共に標本相関行列を


\begin{aligned}
R=D_S^{-\frac{1}{2}}SD_S^{-\frac{1}{2}}
\end{aligned}

で得る。

 多変量確率分布の議論で頻用されるのが、多変量正規分布である。多変量正規分布は行列およびベクトルを用いることで簡潔に表すことが出来る。\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma)とすると


\begin{aligned}
f_{\boldsymbol{X}}(\boldsymbol{x})=\displaystyle{\frac{1}{(2\pi|\Sigma|)^{\frac{m}{2}}}\exp\left\{-\displaystyle{\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\prime}\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})} \right\}}
\end{aligned}

と書ける。
 もし\mathrm{rank}(\Sigma)=rU=(u_{ij})_{m\times r}=UU^{\prime}=\Sigmaを満たすとする。このとき\boldsymbol{Z}\sim\mathcal{N}_r(\boldsymbol{0},I_r)の下で\boldsymbol{X}=\boldsymbol{\mu}+U\boldsymbol{Z}ならば、\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma)が成り立つ。

 多変量正規分布の重要な性質として、多変量正規ベクトルの線形変換は別の多変量積ベクトルを生成する。実際、\boldsymbol{X}\sim\mathcal{N}_m(\boldsymbol{\mu},\Sigma),\ A=(a_{ij})_{p\times m}ならば、\boldsymbol{Y}=A\boldsymbol{X}\sim\mathcal{N}_p(A\boldsymbol{\mu},A\Sigma A^{\prime})が成り立つ。

 次に多変量正規分布の拡張として、球形分布および楕円分布を考える。球形分布は標準多変量正規分布\mathcal{N}_m(\boldsymbol{0},I_m)の、楕円分布は多変量正規分布\mathcal{N}_m(\boldsymbol{\mu},\Sigma)の拡張版である。
 すべてのm\times m直交行列Pについてm\times1確率ベクトル\boldsymbol{X}およびP\boldsymbol{X}が同じ分布に従うとき、\boldsymbol{X}は球形分布に従うという。もし\boldsymbol{X}が密度関数をもった球形分布ならば、この密度関数は\boldsymbol{X}^{\prime}\boldsymbol{X}にのみ依存する。
 今度は球形分布から楕円分布に拡張する。確率ベクトル\boldsymbol{Y}


\begin{aligned}
\boldsymbol{Y}&=\boldsymbol{\mu}+T\boldsymbol{X},\\
T&=(t_{ij})_{m\times r},\ TT^{\prime}=\Sigma,\mathrm{\Omega}=r
\end{aligned}

で表現できるならば、\boldsymbol{Y}は母数\boldsymbol{\mu},\Sigmaの楕円分布に従うという。
 もし\boldsymbol{u}\in\left\{\left.(x_1,\cdots,x_m)\in\mathbb{R}^m\right|\displaystyle{\sum_{i}^{m}x_i^2=k^2,k\gt0}\right\}が無作為に得られたものであるならば、\boldsymbol{X}が球形分布に従う場合、非負の確率変数Wを用いて


\begin{aligned}
\boldsymbol{X}=W\boldsymbol{U}
\end{aligned}

と書ける。これを用いると


\begin{aligned}
\boldsymbol{Y}=\boldsymbol{\mu}+WT\boldsymbol{U}
\end{aligned}

と書ける。
 回帰分析


\begin{aligned}
\boldsymbol{y}&=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}
\end{aligned}

を考える。ここで


\begin{aligned}
\boldsymbol{y}=\begin{bmatrix}
y_1\\
\vdots\\
y_N
\end{bmatrix},\ \boldsymbol{\beta}=\begin{bmatrix}
\beta_1\\
\vdots\\
\beta_k
\end{bmatrix},\ X=\begin{bmatrix}
1         &x_{11}&\cdots&x_{1k}\\
1         &x_{21}&\cdots&x_{2k}\\
\vdots &\vdots&          &\vdots\\
1         &x_{N1}&\cdots&x_{Nk}
\end{bmatrix}
\end{aligned}

とし、観測値i=1,2,\cdots,Nに対してN\gt k+1とする。
 このモデルが成り立つならば、


\begin{aligned}
\boldsymbol{y}&\approx X\boldsymbol{\beta}
\end{aligned}

を得る。
 \boldsymbol{\beta}を推定する方法の1つに最小二乗法がある。これは


\begin{aligned}
f(\hat{\beta})=(\boldsymbol{Y}-X\hat{\boldsymbol{\beta}})^{\prime}(\boldsymbol{Y}-X\hat{\boldsymbol{\beta}})
\end{aligned}

が与える誤差の平方和(残差平方和)を最小化するような\hat{\boldsymbol{\beta}}を得る。それは正規方程式


\begin{aligned}
\left(X^{\prime}X\right)^{-1}\hat{\boldsymbol{\beta}}=X^{\prime} \boldsymbol{Y}
\end{aligned}

として表される。
 もしXが最大列階数をもつ、すなわち\mathrm{rank}(X)=k+1ならば、\left(X^{\prime}X\right)^{-1}が存在する。したがって\boldsymbol{\beta}の最小二乗推定量は一意に定まり


\begin{aligned}
\hat{\boldsymbol{\beta}}=\left(X^{\prime}X\right)^{-1}X^{\prime}\boldsymbol{Y}
\end{aligned}

を得る。

プライバシーポリシー お問い合わせ