統計学のための線形代数（019/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
4.　行列の因数分解と行列ノルム
- 4.1　特異値分解
次回

4.　行列の因数分解と行列ノルム

4.1　特異値分解

例：多重共線性と特異値分解
　標準化された回帰モデル

$\begin{aligned} \boldsymbol{y}=\delta_0\boldsymbol{1}+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon} \end{aligned}$

を考える。これのパラメータに推定値 $\delta_0=\bar{y},\boldsymbol{\delta}_1=\hat{\boldsymbol{\delta}}_1$ を代入して得た予測値

$\begin{aligned} \hat{\boldsymbol{y}}=\bar{y}\boldsymbol{1}+Z_1\hat{\boldsymbol{\delta}}_1 \end{aligned}$

は $\mathbb{R}^{k+1}$ 内の超平面上に点を与える。
　いま $Z_1=VDU^{\prime}$ は $N\times k$ 行列 $Z_1$ の特異値分解だとする。すなわち $V$ は $n$ 次正方行列で、 $U$ は $k$ 次直交行列であり、 $D$ は $Z_1^{\prime}Z_1$ の固有値の平方根を対角要素に配し、それ以外の要素が $0$ であるような $N\times k$ 行列である。
　モデル $\boldsymbol{y}=\delta_0\boldsymbol{1}+Z_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}$ は $\alpha_0=\delta_0,\boldsymbol{\alpha}_1=U^{\prime}\boldsymbol{\delta}_1,W_1=VD$ と定義することで、

$\begin{aligned} \boldsymbol{y}=\alpha_0\boldsymbol{1}+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon} \end{aligned}$

と書き換えることができる。
　 $D$ の対角要素のうち、ちょうど $r$ 個、特に最後の $r$ 個が $0$ で、 $D$ を $U,V$ に適切に分割することで $Z_1=V_1D_1U_1^{\prime}$ が得られると仮定する。ここで $D_1$ は $(k-r)$ 次対角行列である。これは $Z_1$ の行空間が $\mathbb{R}^k$ の $(k-r)$ 次元部分空間であり、その部分空間は $U_1$ の列によって張られていることを意味している。すなわち当てはめられた回帰超平面上の点は $k$ 次元の標準化された説明変数空間上に射影されると、実質的に $(k-r)$ 次元部分空間に留まる。
　またモデル $\boldsymbol{y}=\alpha_0\boldsymbol{1}+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon}$ は

$\begin{aligned} \boldsymbol{y}=\alpha_0\boldsymbol{1}+W_{11}\boldsymbol{\alpha}_{11}+\boldsymbol{\varepsilon} \end{aligned}$

に簡約化される。ここで $W_{11}=V_1D_1,\boldsymbol{\alpha}_{11}=U_1^{\prime}\boldsymbol{\delta}_1$ であり、

$\begin{aligned} \hat{\boldsymbol{\alpha}}_{11}&=(W_{11}^{\prime}W_{11})^{-1}W_{11}^{\prime}\boldsymbol{y}\\ &=( (V_1D_1)^{\prime}(V_1D_1))^{-1}v^{\prime}\boldsymbol{y}\\ &=D_1^{-1}V_1^{\prime}\boldsymbol{y} \end{aligned}$

で与えられる。また $\hat{\boldsymbol{\alpha}}_{11}=U_1^{\prime}\hat{\boldsymbol{\delta}}_1$ でなければならないため、 $\hat{\boldsymbol{\alpha}}_{11}$ は $\boldsymbol{\delta}_1$ の最小二乗推定量を得るのにも利用できる。
　更に $\hat{\boldsymbol{\delta}}_{11}\in\mathbb{R}^{k-r}$ を用いて $\hat{\boldsymbol{\delta}}_1=(\hat{\boldsymbol{\delta}}_{11}^{\prime},\hat{\boldsymbol{\delta}}_{12}^{\prime})^{\prime}, U_1^{\prime}=(U_{11}^{\prime},U_{12}^{\prime})$ と分割すると

$\begin{aligned} \hat{\boldsymbol{\alpha}}_{11}=U_{11}^{\prime}\hat{\boldsymbol{\delta}}_{11}+U_{12}^{\prime}\hat{\boldsymbol{\delta}}_{12} \end{aligned}$

を得、両辺に左から $U_{11}^{\prime-1}$ を掛けることで

$\begin{aligned} \hat{\boldsymbol{\delta}}_{11}=U_{11}^{\prime-1}\hat{\boldsymbol{\alpha}}_{11}-U_{11}^{\prime-1}U_{12}^{\prime}\hat{\boldsymbol{\delta}}_{12} \end{aligned}$

を得る。この恒等式を満たしている限り、任意に選択した $\hat{\boldsymbol{\delta}}_{12}$ に対して $\hat{\boldsymbol{\delta}}_1=(\hat{\boldsymbol{\delta}}_{11},\hat{\boldsymbol{\delta}}_{12})^{\prime}$ は最小二乗推定量になるから、 $\boldsymbol{\delta}_1$ の最小二乗推定量は一意でない。
　今度は、 $\boldsymbol{z}\in\mathbb{R}^k$ で与えられた値を標準化された説明変数として持つような観測対象に対応している目的変数 $y$ の推定が目的であると想定する。最小二乗推定量 $\hat{\boldsymbol{\delta}}_1$ を用いることで推定値 $\hat{y}=\bar{y}+\boldsymbol{z}^{\prime}\hat{\boldsymbol{\delta}}_1$ が得られる。この推定値 $\hat{y}$ は一意でない可能性がある。なぜならば、 $\boldsymbol{z}_1\in\mathbb{R}^{k-r}$ を用いて $\boldsymbol{z}=(\boldsymbol{z}_1^{\prime},\boldsymbol{z}_2^{\prime})^{\prime}$ と分割すると、

$\begin{aligned} \hat{y}&=\bar{y}+\boldsymbol{z}^{\prime}\hat{\boldsymbol{\delta}}_1\\ &=\bar{y}+\boldsymbol{z}^{\prime}_1\hat{\boldsymbol{\delta}}_{11}+\boldsymbol{z}^{\prime}_2\hat{\boldsymbol{\delta}}_{12}\\ &=\bar{y}+\boldsymbol{z}^{\prime}_1U_{11}^{\prime-1}\hat{\boldsymbol{\alpha}}_{11}+(\boldsymbol{z}^{\prime}_2-\boldsymbol{z}^{\prime}_1U_{11}^{\prime-1}U_{12}^{\prime})\hat{\boldsymbol{\delta}}_{12} \end{aligned}$

が得られるからである。すなわち

$\begin{aligned} \boldsymbol{z}^{\prime}_2-\boldsymbol{z}^{\prime}_1U_{11}^{\prime-1}U_{12}^{\prime}=\boldsymbol{0}^{\prime} \end{aligned}$
が成立する場合にのみ $\hat{y}$ は一意になり、このとき唯一の推定値は $\hat{y}=\bar{y}+\boldsymbol{z}^{\prime}_1U_{11}^{\prime-1}\hat{\boldsymbol{\alpha}}_{11}+(\boldsymbol{z}^{\prime}_2$ で与えられる。 $\boldsymbol{z}^{\prime}_2-\boldsymbol{z}^{\prime}_1U_{11}^{\prime-1}U_{12}^{\prime}=\boldsymbol{0}^{\prime}$ を満たすすべてのベクトル $\boldsymbol{z}=(\boldsymbol{z}_1^{\prime},\boldsymbol{z}_2^{\prime})^{\prime}$ の集合は $U_1$ の列空間である。したがって $\hat{\boldsymbol{\delta}}_1$ を計算するために得られる規格化された説明変数で成立するすべてのベクトルの集まりで張られた空間に $\boldsymbol{z}$ が含まれている場合にのみ、 $y$ は一意に推定される。
　多重共線が生じている場合において、 $Z_1$ は最大階数となるため、行列 $D$ は対角要素に $0$ を持たない代わりに、他の値に比べて値が非常に小さい $r$ 個の成分を対角成分に持つ。この場合 $Z_1$ の行空間が $\mathbb{R}^k$ のすべてであるが、 $Z_1$ の行に対応する点はすべて $\mathbb{R}^k$ の $(k-r)$ 次元部分集合 $S$ に近接している。これらの点に対応する目的変数の値へ与える小さな変動は、 $S$ の外側に離れて位置するベクトル $\boldsymbol{z}$ に対して当てはめられた回帰超平面 $\hat{y}=\bar{y}+\boldsymbol{z}^{\prime}\hat{\boldsymbol{\delta}}_1$ の位置合いを実質的に変化させる。
　目的変数の小さな変動は交点の直線の位置と平面の傾きの双方に小さな変動をもたらす。しかし回帰平面の傾きは、微小な変動でさえ $S$ から離れたベクトル $\boldsymbol{z}$ についてこの平面の表面に大きな変動をもたらす。
　この傾きへの影響は主成分回帰により打ち消すことができる。

次回

power-of-awareness.com

前回

4. 行列の因数分解と行列ノルム

4.1 特異値分解

次回

4.　行列の因数分解と行列ノルム

4.1　特異値分解