統計学のための線形代数（005/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
3.　固有値と固有ベクトル
- 3.1　対称行列
次回

3.　固有値と固有ベクトル

3.1　対称行列

　統計学における固有値や固有ベクトルに関連する応用の多くは対称行列を扱うものである。対称行列が固有値や固有ベクトルに対して良い性質を持っているからである。
　
　関連する固有値がすべて互いに異なるならば、 $m\times m$ 行列 $A$ の固有ベクトルの集合は線形独立であった。いま $A$ が対称行列ならば、更なる性質を導くことができる。 $\boldsymbol{x},\boldsymbol{y}$ がそれぞれ固有値 $\lambda,\gamma(\lambda\neq\gamma)$ に対応する固有ベクトルであると仮定する。 $A$ の対称性から

$\begin{aligned} \lambda\boldsymbol{x}^{\prime}\boldsymbol{y}&=(\lambda\boldsymbol{x})^{\prime}\boldsymbol{y}=(A\boldsymbol{x})^{\prime}\boldsymbol{y}=\boldsymbol{x}^{\prime}A^{\prime}\boldsymbol{y}\\ &=\boldsymbol{x}^{\prime}(A\boldsymbol{y})=\boldsymbol{x}^{\prime}\gamma\boldsymbol{y}=\gamma\boldsymbol{x}^{\prime}\boldsymbol{y} \end{aligned}$

が成り立つ。 $\lambda\neq\gamma$ であったから、 $\boldsymbol{x}^{\prime}\boldsymbol{y}=0$ でなければならない。すなわち異なる固有値に対応する固有ベクトルは互いに直交しなければならない。
　ここまでの議論は $A$ が重複する固有値を持つ場合であっても成り立つ。そのために以下の補題を示す。

固有ベクトルを含む空間　 $A$ を $m\times m$ 対称行列とし、 $\boldsymbol{x}\in\mathbb{R}^{m\times1}$ とする。このとき $r\geq1$ に対してベクトル $\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}$ によって生成されるベクトル空間は $A$ の固有ベクトルを含む。

( $\because$ 　 $\boldsymbol{x},A\boldsymbol{x},\cdots,A^{k}\boldsymbol{x}$ が線形従属となるような最小の整数 $k=r$ とする。このとき

$\begin{aligned} \alpha_0\boldsymbol{x}+\alpha_1 A\boldsymbol{x}+\cdots+\alpha_r A^r\boldsymbol{x}=(\alpha_0+I_m+\alpha_1 A+\cdots+A^r)\boldsymbol{x} \end{aligned}$

を満たすような少なくとも1つが非零であるような $\alpha_0,\alpha_1,\cdots,\alpha_r$ が存在する。一般性を失うことなく $\alpha_r=1$ とできる。なぜならばそのように $r$ を選ぶことで $\alpha_r\neq0$ が保証されるからである。
　上式の $\alpha_0+I_m+\alpha_1 A+\cdots+A^r$ は行列 $A$ に関する $r$ 次多項式であり、 $\alpha_0=(-1)^r\gamma_1\gamma_2\cdots\gamma_r,\cdots,\alpha_{r-1}=-(\gamma_1+\gamma_2+\cdots+\gamma_r)$ を満たすような多項式の解を用いて

$\begin{aligned} (A-\gamma_1I_m)(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m) \end{aligned}$

と因数分解できる。

$\begin{aligned} \boldsymbol{y}&=(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m)\boldsymbol{x}\\ &=(-1)^{r-1}\gamma_2\cdots\gamma_r\boldsymbol{x}+\cdots+A^{r-1}\boldsymbol{x} \end{aligned}$

とすれば $\boldsymbol{y}\neq\boldsymbol{0}$ である。なぜならば、もしそうでなければ $r$ が定義に反して $\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}$ は線形従属な集合になる。したがって $\boldsymbol{y}$ はこれらから生成される空間に含まれており、

$\begin{aligned} (A-\gamma_1I_m)\boldsymbol{y}&=(A-\gamma_1I_m)(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m)\boldsymbol{x}\boldsymbol{0} \end{aligned}$

が成り立つ。したがって $\boldsymbol{y}$ は固有値 $\gamma_1$ に対応する $A$ の固有ベクトルである。　 $\blacksquare$ )

重複する固有値があるときの直交性 $m\times m$ 行列 $A$ が対称ならば $A$ の $m$ 個の固有ベクトルの集合を正規直交性を持つように構成できる。

( $\because$ 　 $1\leq h\leq m$ においてもし正規直交性を持つ固有ベクトル $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h$ が得られれば、これらのベクトルそれぞれと直交するような別の正規化された固有ベクトル $\boldsymbol{x}_{h+1}$ を求めることができる。
　実際、ベクトル $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h$ のそれぞれと直交するような任意のベクトル $\boldsymbol{x}$ を選ぶ。このとき ${}^{\forall}k\in\mathbb{N}(A^k\boldsymbol{x}\perp\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h)$ である。なぜならばもし $\lambda_i$ が $\boldsymbol{x}_i$ に対応する固有値ならば $A$ の対称性および過去に示した定理から

$\begin{aligned} \boldsymbol{x}_i^{\prime}A^k\boldsymbol{x}=\{(A^k)^{\prime}\boldsymbol{x}_i\}^{\prime}\boldsymbol{x}=(A^k\boldsymbol{x}_i)^{\prime}\boldsymbol{x}=\lambda_i^k\boldsymbol{x}^{\prime}\boldsymbol{x}=0 \end{aligned}$

が成り立つからである。前述の定理より、ある $r$ においてベクトル $\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}$ によって生成される空間は $A$ の固有ベクトルを含む。そのベクトルを $\boldsymbol{y}$ とすればそれもまた $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h$ と直交するベクトルによって生成されるベクトル空間に含まれるから、 $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h$ と直交していなければならない。したがって

$\begin{aligned} \boldsymbol{x}_{h+1}=(\boldsymbol{y}^{\prime}\boldsymbol{y})^{-\frac{1}{2}}\boldsymbol{y} \end{aligned}$

を得る。 $A$ の任意の固有ベクトルから始め、ここまでの議論を $m-1$ 回繰り返せばよい。　 $\blacksquare$ )

　 $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ が正規直交ベクトルであるとき、 $m\times m$ 行列 $X=(\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m)$ とし、さらに $\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_m)$ とすると、 $i=1,2,\cdots,m$ における固有値および固有ベクトルが満たす方程式 $A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i$ は、まとめて

$\begin{aligned} AX=X\Lambda \end{aligned}$

で表すことが可能である。 $X$ の各列は正規直交ベクトルであるから、 $X$ は直交行列である。両辺に左から $X^{\prime}$ を掛けることで

$\begin{aligned} X^{\prime}AX=X^{\prime}X\Lambda=\Lambda \end{aligned}$

であり、またこれと同等だが、

$\begin{aligned} A=X\Lambda X^{\prime} \end{aligned}$

を得る。これは $A$ のスペクトル分解として知られている。これの一般化として直交行列 $P\in\mathbb{R}^{m\times m},Q\in\mathbb{R}^{n\times n}$ および $i\neq j\Rightarrow d_{ij}$ であるような $D=(d_{ij})_{1\leq i\leq m,1\leq n\leq n}$ を用いて

$\begin{aligned} A=PDQ^{\prime} \end{aligned}$

が成り立つ特異値分解が知られている。

例：多重共線が生じている回帰分析
　統計学において固有値分析が必要となるのは説明変数に多重共線が生じている場合である。この場合、説明変数のいくつかが目的変数について冗長な情報を与えている。結果として $\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}$ における $\boldsymbol{\beta}$ の推定量
$\begin{aligned} \hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y} \end{aligned}$
は不正確になると推察される。なぜならば $\boldsymbol{X}^{\prime}\boldsymbol{X}$ がほぼ正則でないため、 $\boldsymbol{\beta}$ の分散共分散行列は
$\begin{aligned} \mathbb{V}[\boldsymbol{\beta}]&=\mathbb{V}[\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y}]\\ &=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{X}\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\\ &=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\{\sigma^2 I\}\boldsymbol{X}\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\\ &=\sigma^2\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1} \end{aligned}$
においていくつかの成分が大きな値を有するからである。もし説明変数のうち $X_j$ が別の説明変数 $X_l,l\neq j$ のほぼスカラー倍ならば単にモデルからこれらの説明変数のうちの1つを除けばよい。しかし大抵の場合はそれほど単純ではないが、固有値分解をすることで従属性を明らかにすることができる。
　説明変数を規格化して
$\begin{aligned} \boldsymbol{Y}=\delta_0\boldsymbol{1}_{N}+\boldsymbol{Z}_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon} \end{aligned}$
を得たとする。 $\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_k)$ は $\boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1$ の固有値を降順に含んでいるものとし、 $\boldsymbol{U}$ はその列に固有値と対応する正規化された $\boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1$ の固有ベクトルを有する直交行列であるとする。すなわち
$\begin{aligned} \boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1=U\Lambda U^{\prime} \end{aligned}$
である。このとき $\boldsymbol{Y}$ の推定は説明変数の正則変換によって影響を受けることは無い。すなわち
$\begin{aligned} \boldsymbol{Y}=\alpha_0\boldsymbol{1}_N+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon} \end{aligned}$
というモデルでうまく説明できる。ここで $\alpha_0=\delta_0,$ $\boldsymbol{\alpha}_1=T^{-1}\boldsymbol{\delta}_1,$ $W_1=Z_1 T$ であり、 $T$ は正則である。主成分回帰と呼ばれるこの手法は、規格化された説明変数と母数ベクトルに関する直交変換
$\begin{aligned} W_1&=Z_1U,\\ \boldsymbol{\alpha}&=U^{\prime}\boldsymbol{\delta}_1 \end{aligned}$
を用いることで多重共線性に関連する問題を扱う。
　 $k$ 個の新たな説明変数を主成分という。すなわち $W_1$ の第 $i$ 列に対応する変数は第 $i$ 主成分と呼ばれる。 $W_1^{\prime}W_1=U^{\prime}Z_1^{\prime}Z_1U=\Lambda,$ そして $\boldsymbol{1}_N^{\prime}W_1=\boldsymbol{1}_N^{\prime}Z_1U=\boldsymbol{0}^{\prime}U=\boldsymbol{0}^{\prime}$ であるから $\boldsymbol{\alpha}_1$ の最小二乗推定量は
$\begin{aligned} \hat{\boldsymbol{\alpha}}_1=\left(W_1^{\prime}W_1\right)^{-1} \end{aligned}$
である。これに対してその分散共分散行列は
$\begin{aligned} \mathbb{V}[\hat{\boldsymbol{\alpha}}_1]=\sigma^2\left(W_1^{\prime}W_1\right)=\sigma\Lambda^{-1} \end{aligned}$
と簡略化できる。もし $Z_1^{\prime}Z_1$ もまたほぼ正則でなく、そのために $W_1^{\prime}W_1$ もまたほぼ正則でないならば、 $\lambda_i$ の中の少なくとも1つは非常に小さくなる一方で、それに対応する $\alpha_i$ の分散は非常に大きくなり得る。説明変数は標準化されているため、 $W_1^{\prime}W_1$ は $N$ 個の観測値から算出された主成分の標本相関行列の $N-1$ 倍である。したがって $\lambda_i\approx0$ ならば、第 $i$ 主成分は観測値にかかわらずほぼ一定であり、そのため $\boldsymbol{Y}$ の推定にはほぼ影響を与えない。
$i=k-r+1,\cdots,k$ において $\lambda_i\approx0$ ならば最後の $r$ 個の主成分をモデルから除外することで多重共線性に関連する問題を回避できる。すなわち $W_1$ と $\boldsymbol{\alpha}_1^{\prime}$ の最後の $r$ 列を取り除くことで、 $W_{11},\boldsymbol{\alpha}_{11}$ が得られるとき、主成分回帰モデルは
$\begin{aligned} \boldsymbol{Y}=\alpha_0\boldsymbol{1}_N+W_{11}\boldsymbol{\alpha}_{11}+\displaystyle{\varepsilon} \end{aligned}$
という主成分回帰モデルを得られる。 $\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_{k-r})$ とすれば
$\begin{aligned} \boldsymbol{\alpha}_{11}=\left(W_{11}^{\prime}W_{11}\right)^{-1}W_{11}^{\prime}\boldsymbol{Y}=\Lambda_{1}^{-1}W_{11}^{\prime}\boldsymbol{Y} \end{aligned}$
と書き表すことができる。主成分の直交性から $\hat{\boldsymbol{\alpha}}_11$ は $\hat{\boldsymbol{\alpha}}_1$ の最初から $k-t$ 個の成分は一致する。もともとの規格化モデルにおける $\boldsymbol{\delta}_1$ の主成分回帰の推定量を求めるべく推定量 $\boldsymbol{\alpha}_{11}$ を用いることができる。ここで $\boldsymbol{\delta}_{1},\boldsymbol{\alpha}_{1}$ は恒等式
$\begin{aligned} \boldsymbol{\delta}_{1}=U\boldsymbol{\alpha}_{1} \end{aligned}$
を通した関連していた。最後の $r$ 個の主成分を除外することでこの恒等式を $\boldsymbol{\delta}_{1}=U\boldsymbol{\alpha}_{11}$ と置き換える。ここで $U=\begin{bmatrix}U_1&U_2\end{bmatrix}$ であり、 $U_1$ の次数は $k\times(k-r)$ である。したがって $\boldsymbol{\delta}_1$ の主成分回帰の推定量は
$\begin{aligned} \hat{\boldsymbol{\delta}}_1=U_1\hat{\boldsymbol{\alpha}}_{11}=U_1\Lambda_1^{-1}W_{11}^{\prime}\boldsymbol{Y} \end{aligned}$
である。

次回

power-of-awareness.com

前回

3. 固有値と固有ベクトル

3.1 対称行列

次回

3.　固有値と固有ベクトル

3.1　対称行列