「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計学のための線形代数(003/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

2. ベクトル空間

 今回はベクトル空間を扱う。
 統計学においてベクトル空間は統計学で推定や仮説検定での重要な応用性を有している。また線形独立・線形従属は行列の階数の決定や理解に役立つ。

 ただしベクトル空間の基礎は過去稿と内容が大きく重複するため、内容を大幅に省略し、本書に独自ないしこの後の頁に関係し得る点のみ記述していく。

2.1 非直交変換

 \mathbb{R}^mの部分空間Sに対して線形変換f_A:S\rightarrow\mathbb{R}^m, \boldsymbol{u}=A\boldsymbol{x}, \boldsymbol{x}\in Sを考える。
 Am\times m正則行列\boldsymbol{x}\in\mathbb{R}^mであるとき、\boldsymbol{u}=A\boldsymbol{x}\mathbb{R}^mから\mathbb{R}^mへの一対一変換を定義する。任意の\mathbb{R}^m\ni\boldsymbol{x}=x_1\boldsymbol{e}_1+\cdots+x_m\boldsymbol{e}_m, |\boldsymbol{e}_i|=1(x_1,\cdots,x_m)という座標空間上の1点を与える。
 一方で\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m\mathbb{R}^mの別の基底であるならば、u_1,\cdots,u_m\in\mathbb{R}が存在し、\boldsymbol{u}=(u_1,\cdots,u_m)^{\prime}およびX=(\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m)に対して


\begin{aligned}
\boldsymbol{x}=\displaystyle{\sum_{i=1}^{m}u_i\boldsymbol{x}_i}=X\boldsymbol{u}
\end{aligned}

が成り立つ。すなわち\boldsymbol{u}=(u_1,\cdots,u_m)^{\prime}は座標軸\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_mに対応する点\boldsymbol{x}の座標を与える。基準座標系から座標軸\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_mで定義される1つの座標系への変換はA=X^{-1}とするとき、変換\boldsymbol{u}=A\boldsymbol{x}で与えられる。原点から\boldsymbol{u}までのEuclid距離の二乗、すなわち


\begin{aligned}
\boldsymbol{u}^{\prime}\boldsymbol{u}=(A\boldsymbol{x})^{\prime}(A\boldsymbol{x})=\boldsymbol{x}^{\prime}A^{\prime}A\boldsymbol{x}
\end{aligned}

は、行列Aあるいは同等にXが直交行列であることが、原点から\boldsymbol{x}までのEuclid距離とこれが等しくなることの必要十分条件である。この場合、\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m\mathbb{R}^mの正規直交基底を形成する。

 直交変換は一般的に用いられる変換だが、非直交変換が有用となる場合もある。

例:
 3次元ベクトル\boldsymbol{x}_1,\cdots,\boldsymbol{x}_rを考え、それらが同じ正定値共分散行列\Omegaをもつ分布からの観測ベクトルだとする。これらの相違度合いに興味がある場合、\mathbb{R}^3内にこれらの点を描くことは有用である。しかし\Omega単位行列でない場合、Euclid距離を用いるのは適切とは言い難く、観測されたr個の点の間の違いを比較し解釈するのは困難になる。しかし適切な変換を行うことでこの困難を解決できる。
 \Omegaは正定値であるから、正則行列Tが存在し、\Omega=TT^{\prime}が成り立つ。\boldsymbol{u}_i=T^{-1}\boldsymbol{x}_iとすると、\boldsymbol{x}_i,\boldsymbol{x}_jのMahalanobis距離は


\begin{aligned}
d_{\Omega}(\boldsymbol{x}_i,\boldsymbol{x}_j)&=\{(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\prime}\Omega^{-1}(\boldsymbol{x}_i-\boldsymbol{x}_j)\}^{\frac{1}{2}}\\
&=\{(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\prime}T^{-1\prime}T^{-1}(\boldsymbol{x}_i-\boldsymbol{x}_j)\}^{\frac{1}{2}}\\
&=\{(T^{-1}\boldsymbol{x}_i-T^{-1}\boldsymbol{x}_j)^{\prime}(T^{-1}\boldsymbol{x}_i-T^{-1}\boldsymbol{x}_j)\}^{\frac{1}{2}}\\
&=\{\boldsymbol{u}_i-\boldsymbol{u}_j)^{\prime}(\boldsymbol{u}_i-\boldsymbol{u}_j)\}^{\frac{1}{2}}\\
&=d_{I}(\boldsymbol{u}_i,\boldsymbol{u}_j)
\end{aligned}

となり、一方で\boldsymbol{u}_iの分散は


\begin{aligned}
V[\boldsymbol{u}_i]&=V[T^{-1}\boldsymbol{x}_i]=T^{-1}V[\boldsymbol{x}_i]T^{-1}\\
&=T^{-1}\Omega T^{-1}=T^{-1}TT^{\prime}T^{-1}=I
\end{aligned}

である。すなわち\boldsymbol{u}_i=T^{-1}\boldsymbol{x}_iという変換は各点間の距離の適切な速度がEuclid距離関数となるようなベクトルを生成する。

例:中心化

 \boldsymbol{x}=(x_1,\cdots,x_n)^{\prime}について\bar{x}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}とするとき、


\begin{aligned}
\boldsymbol{v}=\left(I_n-\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}\right)\boldsymbol{x}
=\begin{bmatrix}x_1-\bar{x}\\x_2-\bar{x}\\\vdots\\x_n-\bar{x}\end{bmatrix}
\end{aligned}

の各成分の平均は0である。この変換は各説明変数を中心化するために用いられる。
 重回帰モデルにおける利用例を述べる。


\begin{aligned}
\boldsymbol{y}&=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}=[\boldsymbol{1}_n\ X_1]\begin{bmatrix}\beta_0\\\boldsymbol{\beta}_1\end{bmatrix}+\boldsymbol{\varepsilon}\\
&=\beta_0\boldsymbol{1}_n+X_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}
\end{aligned}

は以下のように表現できる。


\begin{aligned}
\boldsymbol{y}&=\beta_0\boldsymbol{1}_n+\left\{\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}+\left(I_n-\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}\right)\right\}X_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}\\
&=\gamma_0\boldsymbol{1}_n+V_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}=V\boldsymbol{\gamma}+\boldsymbol{\varepsilon}
\end{aligned}

ここでV=[\boldsymbol{1}_n\ V_1]=[\boldsymbol{1}_n\ (\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime})X_1]であり、\displaystyle{\gamma}=(\gamma_0,\boldsymbol{\beta}_1^{\prime})^{\prime}=\left(\beta_0+\displaystyle{\frac{1}{n}}\boldsymbol{1}_n^{\prime}X_1\boldsymbol{\beta}_1,\boldsymbol{\beta}_1^{\prime}\right)^{\prime}である。V_1の列は\boldsymbol{1}_nに対して直交しているから、\boldsymbol{\gamma}の最小二乗推定量


\begin{aligned}
\hat{\boldsymbol{\gamma}}&=\begin{bmatrix}\hat{\gamma}_0\\\hat{\boldsymbol{\beta}}_1\end{bmatrix}=(V^{\prime}V)^{-1}V^{\prime}\boldsymbol{y}\\
&=\begin{bmatrix}\displaystyle{\frac{1}{n}}&\boldsymbol{0}^{\prime}\\\boldsymbol{0}&(V_1^{\prime}V_1)^{-1}\end{bmatrix}\begin{bmatrix}\displaystyle{\sum_{i=1}^{n}y_i}\\V_1^{\prime}\boldsymbol{y}\end{bmatrix}\\
&=\begin{bmatrix}\bar{y}\\(V_1^{\prime}V_1)^{-1}V_1^{\prime}\boldsymbol{y}\end{bmatrix}
\end{aligned}

のように単純化される。したがって\hat{\gamma}_0=\bar{y}である。推定量\hat{\boldsymbol{\beta}}_1は行列[\boldsymbol{y}\ X_1]の行を構成するn個の(k+1)\times1ベクトルから計算される標本共分散行列によって表現することができる。この標本共分散行列をSとし、


\begin{aligned}
S=\begin{bmatrix}s_{11}&\boldsymbol{s}_{21}^{\prime}\\\boldsymbol{s}_{21}&S_{22}\end{bmatrix}
\end{aligned}

のように分割すると、\displaystyle{\frac{1}{n-1}}V_1^{\prime}V_1=S_{22}となり、V_1^{\prime}\boldsymbol{1}_n=\boldsymbol{0}であるから、


\begin{aligned}
\displaystyle{\frac{1}{n-1}}V_1^{\prime}\boldsymbol{y}=\displaystyle{\frac{1}{n-1}}V_1^{\prime}(\boldsymbol{y}-\bar{y}\boldsymbol{1}_n)=\boldsymbol{s}_{21}
\end{aligned}

となるから、\hat{\boldsymbol{\beta}}_1=S_{22}^{-1}\boldsymbol{s}_{21}を得る。
 一方で元の回帰モデルに対するその他の調整方法には説明変数の標準化がある。この場合、


\begin{aligned}
\boldsymbol{y}=\delta_0\boldsymbol{1}_n+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}=Z\boldsymbol{\delta}+\boldsymbol{\varepsilon}
\end{aligned}

となる。ここで\boldsymbol{\delta}=(\delta_0,\boldsymbol{\delta}_1^{\prime})^{\prime},\ Z=[\boldsymbol{1}_n\ Z_1],\ \delta_0=\gamma_0,\ Z_1=V_1 D_{S_{22}}^{-\frac{1}{2}}であり、\boldsymbol{\delta}_1=D_{S_{22}}^{\frac{1}{2}}\boldsymbol{\beta}_1である。最小二乗推定量


\begin{aligned}
\hat{\delta}_0&=\bar{y},\\
\hat{\boldsymbol{\delta}}_1&=R_{22}^{-1}\boldsymbol{r}_{21}
\end{aligned}

と書ける。ここで行列[\boldsymbol{y}\ X_1]の列を構成するn個の(k+1)\times1ベクトルから計算される相関行列RSの場合と同様に分割した。

 上述した説明変数の中心化はX_1の列に対する線形変換が関わっている。ある状況ではX_1,V_1,Z_1の行について線形変換を実行した方が有利な場合もある。たとえばTk\times k正則行列とし、W_1=Z_1T,\alpha_0=\delta_0,\boldsymbol{\alpha}_1=T^{-1}\boldsymbol{\delta}_1と定義すると、回帰モデル


\begin{aligned}
\boldsymbol{y}=\delta_0\boldsymbol{1}_n+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}=Z\boldsymbol{\delta}+\boldsymbol{\varepsilon}
\end{aligned}


\begin{aligned}
\boldsymbol{y}=\alpha_0\boldsymbol{1}_n+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon}=W\boldsymbol{\alpha}+\boldsymbol{\varepsilon}
\end{aligned}

と表される。ここでW=[\boldsymbol{1}_n\ W_1]である。2番目のモデルは最初のモデルとは異なる説明変数の組を用いている。すなわちそのi番目の説明変数は最初のモデルの説明変数とTの第i列によって与えられる係数との線形結合である。しかし2つのモデルはデータに適合させた後の値において同一の結果を与える。
 実際、


\begin{aligned}
T_{*}=\begin{bmatrix}1&\boldsymbol{0}^{\prime}\\\boldsymbol{0}&T\end{bmatrix}
\end{aligned}

とすると、W=ZT_{*}であり、2番目のモデルからの予測値ベクトル


\begin{aligned}
\hat{\boldsymbol{y}}&=W\hat{\boldsymbol{\alpha}}=W(W^{\prime}W)^{-1}W^{\prime}\boldsymbol{y}\\
&=ZT_{*}(T_{*}^{\prime}Z^{\prime}ZT_{*})^{-1}T_{*}^{\prime}Z^{\prime}\boldsymbol{y}\\
&=ZT_{*}T_{*}^{-1}(Z^{\prime}Z)^{-1}T{*}^{-1\prime}T_{*}^{\prime}Z^{\prime}\boldsymbol{y}\\
&=Z(Z^{\prime}Z)^{-1}Z^{\prime}\boldsymbol{y}
\end{aligned}

が最初のモデルから得られるものと同一となる。

例:重み付き最小二乗法

 重回帰モデル


\begin{aligned}
\boldsymbol{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}
\end{aligned}

を考える。ここでV[\boldsymbol{\varepsilon}]\neq\sigma^2 I_nとする。この場合、\boldsymbol{\beta}の推定量\hat{\boldsymbol{\beta}}=(X^{\prime}Z)^{-1}X^{\prime}\boldsymbol{y}はここでも\boldsymbol{\beta}の推定量であるが、V[\boldsymbol{\varepsilon}]=\sigma^2 I_nのときに成り立つような最適な性質は保持されない。ここでは\varepsilon_iが無相関であるものの、その分散がすべて同一というわけではない、すなわちV[\boldsymbol{\varepsilon}]=\sigma^2C, C=\mathrm{diag}(c_1^2,\cdots,c_N^2),c_iは既知ような状況を考える。このような状況での回帰は重み付き最小二乗回帰と呼ぶ。
 行列C^{-\frac{1}{2}}=\mathrm{diag}(c_1^{-1},\cdots,c_n^{-1})と定義し、回帰モデルに[tex:C^{-\frac{1}{2}}を左から掛けることで、


\begin{aligned}
C^{-\frac{1}{2}}\boldsymbol{y}=C^{-\frac{1}{2}}X\boldsymbol{\beta}+C^{-\frac{1}{2}}\boldsymbol{\varepsilon}
\end{aligned}

を得る。新たに\boldsymbol{y}_{*}=C^{-\frac{1}{2}}\boldsymbol{y},\boldsymbol{X}_{*}=C^{-\frac{1}{2}}X,\boldsymbol{\varepsilon}_{*}=C^{-\frac{1}{2}}\boldsymbol{\varepsilon}とおき


\begin{aligned}
\boldsymbol{y}_{*}=X_{*}\boldsymbol{\beta}+\boldsymbol{\varepsilon}_{*}
\end{aligned}

とおく。このとき\boldsymbol{\varepsilon}_{*}の共分散行列は


\begin{aligned}
V[\boldsymbol{\varepsilon}_{*}]&=V[C^{-\frac{1}{2}}\boldsymbol{\varepsilon}]=C^{-\frac{1}{2}}V[\boldsymbol{\varepsilon}]C^{-\frac{1}{2}}\\
&=C^{-\frac{1}{2}}(\sigma^2C)C^{-\frac{1}{2}}=\sigma^2 I_n
\end{aligned}

である。したがって変換後のモデルには通常の最小二乗法を適用できるから、


\begin{aligned}
\hat{\boldsymbol{\beta}}=(X_{*}^{\prime}X_{*})^{-1}X_{*}^{\prime}\boldsymbol{y}_{*}
\end{aligned}

と表現でき、それは


\begin{aligned}
\hat{\boldsymbol{\beta}}&=(X^{\prime}C^{-\frac{1}{2}}C^{-\frac{1}{2}}X)^{-1}X^{\prime}C^{-\frac{1}{2}}C^{-\frac{1}{2}}\boldsymbol{y}\\
&=(X^{\prime}CX)^{-1}X^{\prime}C\boldsymbol{y}
\end{aligned}

で得られる。

 線形変換に関する良く知られた適用例は、既知の定数から成る行列Aとベクトル\boldsymbol{u}ならびに変数ベクトル\boldsymbol{x}があるときにA\boldsymbol{x}=\boldsymbol{u}を満たすような\boldsymbol{x}を決定する問題である。

プライバシーポリシー お問い合わせ