統計学のための線形代数（003/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
2.　ベクトル空間
- 2.1　非直交変換
次回

2.　ベクトル空間

　今回はベクトル空間を扱う。
　統計学においてベクトル空間は統計学で推定や仮説検定での重要な応用性を有している。また線形独立・線形従属は行列の階数の決定や理解に役立つ。

　ただしベクトル空間の基礎は過去稿と内容が大きく重複するため、内容を大幅に省略し、本書に独自ないしこの後の頁に関係し得る点のみ記述していく。

2.1　非直交変換

　 $\mathbb{R}^m$ の部分空間 $S$ に対して線形変換 $f_A:S\rightarrow\mathbb{R}^m, \boldsymbol{u}=A\boldsymbol{x}, \boldsymbol{x}\in S$ を考える。
　 $A$ が $m\times m$ 正則行列で $\boldsymbol{x}\in\mathbb{R}^m$ であるとき、 $\boldsymbol{u}=A\boldsymbol{x}$ は $\mathbb{R}^m$ から $\mathbb{R}^m$ への一対一変換を定義する。任意の $\mathbb{R}^m\ni\boldsymbol{x}=x_1\boldsymbol{e}_1+\cdots+x_m\boldsymbol{e}_m, |\boldsymbol{e}_i|=1$ は $(x_1,\cdots,x_m)$ という座標空間上の1点を与える。
　一方で $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ が $\mathbb{R}^m$ の別の基底であるならば、 $u_1,\cdots,u_m\in\mathbb{R}$ が存在し、 $\boldsymbol{u}=(u_1,\cdots,u_m)^{\prime}$ および $X=(\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m)$ に対して

$\begin{aligned} \boldsymbol{x}=\displaystyle{\sum_{i=1}^{m}u_i\boldsymbol{x}_i}=X\boldsymbol{u} \end{aligned}$

が成り立つ。すなわち $\boldsymbol{u}=(u_1,\cdots,u_m)^{\prime}$ は座標軸 $\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m$ に対応する点 $\boldsymbol{x}$ の座標を与える。基準座標系から座標軸 $\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m$ で定義される1つの座標系への変換は $A=X^{-1}$ とするとき、変換 $\boldsymbol{u}=A\boldsymbol{x}$ で与えられる。原点から $\boldsymbol{u}$ までのEuclid距離の二乗、すなわち

$\begin{aligned} \boldsymbol{u}^{\prime}\boldsymbol{u}=(A\boldsymbol{x})^{\prime}(A\boldsymbol{x})=\boldsymbol{x}^{\prime}A^{\prime}A\boldsymbol{x} \end{aligned}$

は、行列 $A$ あるいは同等に $X$ が直交行列であることが、原点から $\boldsymbol{x}$ までのEuclid距離とこれが等しくなることの必要十分条件である。この場合、 $\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m$ は $\mathbb{R}^m$ の正規直交基底を形成する。

　直交変換は一般的に用いられる変換だが、非直交変換が有用となる場合もある。

例：
　3次元ベクトル $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_r$ を考え、それらが同じ正定値共分散行列 $\Omega$ をもつ分布からの観測ベクトルだとする。これらの相違度合いに興味がある場合、 $\mathbb{R}^3$ 内にこれらの点を描くことは有用である。しかし $\Omega$ が単位行列でない場合、Euclid距離を用いるのは適切とは言い難く、観測された $r$ 個の点の間の違いを比較し解釈するのは困難になる。しかし適切な変換を行うことでこの困難を解決できる。
　 $\Omega$ は正定値であるから、正則行列 $T$ が存在し、 $\Omega=TT^{\prime}$ が成り立つ。 $\boldsymbol{u}_i=T^{-1}\boldsymbol{x}_i$ とすると、 $\boldsymbol{x}_i,\boldsymbol{x}_j$ のMahalanobis距離は
$\begin{aligned} d_{\Omega}(\boldsymbol{x}_i,\boldsymbol{x}_j)&=\{(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\prime}\Omega^{-1}(\boldsymbol{x}_i-\boldsymbol{x}_j)\}^{\frac{1}{2}}\\ &=\{(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\prime}T^{-1\prime}T^{-1}(\boldsymbol{x}_i-\boldsymbol{x}_j)\}^{\frac{1}{2}}\\ &=\{(T^{-1}\boldsymbol{x}_i-T^{-1}\boldsymbol{x}_j)^{\prime}(T^{-1}\boldsymbol{x}_i-T^{-1}\boldsymbol{x}_j)\}^{\frac{1}{2}}\\ &=\{\boldsymbol{u}_i-\boldsymbol{u}_j)^{\prime}(\boldsymbol{u}_i-\boldsymbol{u}_j)\}^{\frac{1}{2}}\\ &=d_{I}(\boldsymbol{u}_i,\boldsymbol{u}_j) \end{aligned}$
となり、一方で $\boldsymbol{u}_i$ の分散は
$\begin{aligned} V[\boldsymbol{u}_i]&=V[T^{-1}\boldsymbol{x}_i]=T^{-1}V[\boldsymbol{x}_i]T^{-1}\\ &=T^{-1}\Omega T^{-1}=T^{-1}TT^{\prime}T^{-1}=I \end{aligned}$
である。すなわち $\boldsymbol{u}_i=T^{-1}\boldsymbol{x}_i$ という変換は各点間の距離の適切な速度がEuclid距離関数となるようなベクトルを生成する。

例：中心化
　 $\boldsymbol{x}=(x_1,\cdots,x_n)^{\prime}$ について $\bar{x}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}$ とするとき、
$\begin{aligned} \boldsymbol{v}=\left(I_n-\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}\right)\boldsymbol{x} =\begin{bmatrix}x_1-\bar{x}\\x_2-\bar{x}\\\vdots\\x_n-\bar{x}\end{bmatrix} \end{aligned}$
の各成分の平均は $0$ である。この変換は各説明変数を中心化するために用いられる。
　重回帰モデルにおける利用例を述べる。
$\begin{aligned} \boldsymbol{y}&=X\boldsymbol{\beta}+\boldsymbol{\varepsilon}=[\boldsymbol{1}_n\ X_1]\begin{bmatrix}\beta_0\\\boldsymbol{\beta}_1\end{bmatrix}+\boldsymbol{\varepsilon}\\ &=\beta_0\boldsymbol{1}_n+X_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon} \end{aligned}$
は以下のように表現できる。
$\begin{aligned} \boldsymbol{y}&=\beta_0\boldsymbol{1}_n+\left\{\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}+\left(I_n-\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime}\right)\right\}X_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}\\ &=\gamma_0\boldsymbol{1}_n+V_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}=V\boldsymbol{\gamma}+\boldsymbol{\varepsilon} \end{aligned}$
ここで $V=[\boldsymbol{1}_n\ V_1]=[\boldsymbol{1}_n\ (\displaystyle{\frac{1}{n}}\boldsymbol{1}_n\boldsymbol{1}_n^{\prime})X_1]$ であり、 $\displaystyle{\gamma}=(\gamma_0,\boldsymbol{\beta}_1^{\prime})^{\prime}=\left(\beta_0+\displaystyle{\frac{1}{n}}\boldsymbol{1}_n^{\prime}X_1\boldsymbol{\beta}_1,\boldsymbol{\beta}_1^{\prime}\right)^{\prime}$ である。 $V_1$ の列は $\boldsymbol{1}_n$ に対して直交しているから、 $\boldsymbol{\gamma}$ の最小二乗推定量は
$\begin{aligned} \hat{\boldsymbol{\gamma}}&=\begin{bmatrix}\hat{\gamma}_0\\\hat{\boldsymbol{\beta}}_1\end{bmatrix}=(V^{\prime}V)^{-1}V^{\prime}\boldsymbol{y}\\ &=\begin{bmatrix}\displaystyle{\frac{1}{n}}&\boldsymbol{0}^{\prime}\\\boldsymbol{0}&(V_1^{\prime}V_1)^{-1}\end{bmatrix}\begin{bmatrix}\displaystyle{\sum_{i=1}^{n}y_i}\\V_1^{\prime}\boldsymbol{y}\end{bmatrix}\\ &=\begin{bmatrix}\bar{y}\\(V_1^{\prime}V_1)^{-1}V_1^{\prime}\boldsymbol{y}\end{bmatrix} \end{aligned}$
のように単純化される。したがって $\hat{\gamma}_0=\bar{y}$ である。推定量 $\hat{\boldsymbol{\beta}}_1$ は行列 $[\boldsymbol{y}\ X_1]$ の行を構成する $n$ 個の $(k+1)\times1$ ベクトルから計算される標本共分散行列によって表現することができる。この標本共分散行列を $S$ とし、
$\begin{aligned} S=\begin{bmatrix}s_{11}&\boldsymbol{s}_{21}^{\prime}\\\boldsymbol{s}_{21}&S_{22}\end{bmatrix} \end{aligned}$
のように分割すると、 $\displaystyle{\frac{1}{n-1}}V_1^{\prime}V_1=S_{22}$ となり、 $V_1^{\prime}\boldsymbol{1}_n=\boldsymbol{0}$ であるから、
$\begin{aligned} \displaystyle{\frac{1}{n-1}}V_1^{\prime}\boldsymbol{y}=\displaystyle{\frac{1}{n-1}}V_1^{\prime}(\boldsymbol{y}-\bar{y}\boldsymbol{1}_n)=\boldsymbol{s}_{21} \end{aligned}$
となるから、 $\hat{\boldsymbol{\beta}}_1=S_{22}^{-1}\boldsymbol{s}_{21}$ を得る。
　一方で元の回帰モデルに対するその他の調整方法には説明変数の標準化がある。この場合、
$\begin{aligned} \boldsymbol{y}=\delta_0\boldsymbol{1}_n+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}=Z\boldsymbol{\delta}+\boldsymbol{\varepsilon} \end{aligned}$
となる。ここで $\boldsymbol{\delta}=(\delta_0,\boldsymbol{\delta}_1^{\prime})^{\prime},\ Z=[\boldsymbol{1}_n\ Z_1],\ \delta_0=\gamma_0,\ Z_1=V_1 D_{S_{22}}^{-\frac{1}{2}}$ であり、 $\boldsymbol{\delta}_1=D_{S_{22}}^{\frac{1}{2}}\boldsymbol{\beta}_1$ である。最小二乗推定量は
$\begin{aligned} \hat{\delta}_0&=\bar{y},\\ \hat{\boldsymbol{\delta}}_1&=R_{22}^{-1}\boldsymbol{r}_{21} \end{aligned}$
と書ける。ここで行列 $[\boldsymbol{y}\ X_1]$ の列を構成する $n$ 個の $(k+1)\times1$ ベクトルから計算される相関行列 $R$ を $S$ の場合と同様に分割した。

　上述した説明変数の中心化は $X_1$ の列に対する線形変換が関わっている。ある状況では $X_1,V_1,Z_1$ の行について線形変換を実行した方が有利な場合もある。たとえば $T$ を $k\times k$ 正則行列とし、 $W_1=Z_1T,\alpha_0=\delta_0,\boldsymbol{\alpha}_1=T^{-1}\boldsymbol{\delta}_1$ と定義すると、回帰モデル

$\begin{aligned} \boldsymbol{y}=\delta_0\boldsymbol{1}_n+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}=Z\boldsymbol{\delta}+\boldsymbol{\varepsilon} \end{aligned}$

は

$\begin{aligned} \boldsymbol{y}=\alpha_0\boldsymbol{1}_n+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon}=W\boldsymbol{\alpha}+\boldsymbol{\varepsilon} \end{aligned}$

と表される。ここで $W=[\boldsymbol{1}_n\ W_1]$ である。2番目のモデルは最初のモデルとは異なる説明変数の組を用いている。すなわちその $i$ 番目の説明変数は最初のモデルの説明変数と $T$ の第 $i$ 列によって与えられる係数との線形結合である。しかし2つのモデルはデータに適合させた後の値において同一の結果を与える。
　実際、

$\begin{aligned} T_{*}=\begin{bmatrix}1&\boldsymbol{0}^{\prime}\\\boldsymbol{0}&T\end{bmatrix} \end{aligned}$

とすると、 $W=ZT_{*}$ であり、2番目のモデルからの予測値ベクトル

$\begin{aligned} \hat{\boldsymbol{y}}&=W\hat{\boldsymbol{\alpha}}=W(W^{\prime}W)^{-1}W^{\prime}\boldsymbol{y}\\ &=ZT_{*}(T_{*}^{\prime}Z^{\prime}ZT_{*})^{-1}T_{*}^{\prime}Z^{\prime}\boldsymbol{y}\\ &=ZT_{*}T_{*}^{-1}(Z^{\prime}Z)^{-1}T{*}^{-1\prime}T_{*}^{\prime}Z^{\prime}\boldsymbol{y}\\ &=Z(Z^{\prime}Z)^{-1}Z^{\prime}\boldsymbol{y} \end{aligned}$

が最初のモデルから得られるものと同一となる。

例：重み付き最小二乗法
　重回帰モデル
$\begin{aligned} \boldsymbol{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon} \end{aligned}$
を考える。ここで $V[\boldsymbol{\varepsilon}]\neq\sigma^2 I_n$ とする。この場合、 $\boldsymbol{\beta}$ の推定量 $\hat{\boldsymbol{\beta}}=(X^{\prime}Z)^{-1}X^{\prime}\boldsymbol{y}$ はここでも $\boldsymbol{\beta}$ の推定量であるが、 $V[\boldsymbol{\varepsilon}]=\sigma^2 I_n$ のときに成り立つような最適な性質は保持されない。ここでは $\varepsilon_i$ が無相関であるものの、その分散がすべて同一というわけではない、すなわち $V[\boldsymbol{\varepsilon}]=\sigma^2C, C=\mathrm{diag}(c_1^2,\cdots,c_N^2),c_i$ は既知ような状況を考える。このような状況での回帰は重み付き最小二乗回帰と呼ぶ。
　行列 $C^{-\frac{1}{2}}=\mathrm{diag}(c_1^{-1},\cdots,c_n^{-1})$ と定義し、回帰モデルに[tex:C^{-\frac{1}{2}}を左から掛けることで、
$\begin{aligned} C^{-\frac{1}{2}}\boldsymbol{y}=C^{-\frac{1}{2}}X\boldsymbol{\beta}+C^{-\frac{1}{2}}\boldsymbol{\varepsilon} \end{aligned}$
を得る。新たに $\boldsymbol{y}_{*}=C^{-\frac{1}{2}}\boldsymbol{y},\boldsymbol{X}_{*}=C^{-\frac{1}{2}}X,\boldsymbol{\varepsilon}_{*}=C^{-\frac{1}{2}}\boldsymbol{\varepsilon}$ とおき
$\begin{aligned} \boldsymbol{y}_{*}=X_{*}\boldsymbol{\beta}+\boldsymbol{\varepsilon}_{*} \end{aligned}$
とおく。このとき $\boldsymbol{\varepsilon}_{*}$ の共分散行列は
$\begin{aligned} V[\boldsymbol{\varepsilon}_{*}]&=V[C^{-\frac{1}{2}}\boldsymbol{\varepsilon}]=C^{-\frac{1}{2}}V[\boldsymbol{\varepsilon}]C^{-\frac{1}{2}}\\ &=C^{-\frac{1}{2}}(\sigma^2C)C^{-\frac{1}{2}}=\sigma^2 I_n \end{aligned}$
である。したがって変換後のモデルには通常の最小二乗法を適用できるから、
$\begin{aligned} \hat{\boldsymbol{\beta}}=(X_{*}^{\prime}X_{*})^{-1}X_{*}^{\prime}\boldsymbol{y}_{*} \end{aligned}$
と表現でき、それは
$\begin{aligned} \hat{\boldsymbol{\beta}}&=(X^{\prime}C^{-\frac{1}{2}}C^{-\frac{1}{2}}X)^{-1}X^{\prime}C^{-\frac{1}{2}}C^{-\frac{1}{2}}\boldsymbol{y}\\ &=(X^{\prime}CX)^{-1}X^{\prime}C\boldsymbol{y} \end{aligned}$
で得られる。

　線形変換に関する良く知られた適用例は、既知の定数から成る行列 $A$ とベクトル $\boldsymbol{u}$ ならびに変数ベクトル $\boldsymbol{x}$ があるときに $A\boldsymbol{x}=\boldsymbol{u}$ を満たすような $\boldsymbol{x}$ を決定する問題である。

次回

power-of-awareness.com

前回

2. ベクトル空間

2.1 非直交変換

次回

2.　ベクトル空間

2.1　非直交変換