「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計学のための線形代数(005/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

3. 固有値固有ベクトル

3.1 対称行列

 統計学における固有値固有ベクトルに関連する応用の多くは対称行列を扱うものである。対称行列が固有値固有ベクトルに対して良い性質を持っているからである。
 
 関連する固有値がすべて互いに異なるならば、m\times m行列A固有ベクトルの集合は線形独立であった。いまAが対称行列ならば、更なる性質を導くことができる。\boldsymbol{x},\boldsymbol{y}がそれぞれ固有値\lambda,\gamma(\lambda\neq\gamma)に対応する固有ベクトルであると仮定する。Aの対称性から


\begin{aligned}
\lambda\boldsymbol{x}^{\prime}\boldsymbol{y}&=(\lambda\boldsymbol{x})^{\prime}\boldsymbol{y}=(A\boldsymbol{x})^{\prime}\boldsymbol{y}=\boldsymbol{x}^{\prime}A^{\prime}\boldsymbol{y}\\
&=\boldsymbol{x}^{\prime}(A\boldsymbol{y})=\boldsymbol{x}^{\prime}\gamma\boldsymbol{y}=\gamma\boldsymbol{x}^{\prime}\boldsymbol{y}
\end{aligned}

が成り立つ。\lambda\neq\gammaであったから、\boldsymbol{x}^{\prime}\boldsymbol{y}=0でなければならない。すなわち異なる固有値に対応する固有ベクトルは互いに直交しなければならない。
 ここまでの議論はAが重複する固有値を持つ場合であっても成り立つ。そのために以下の補題を示す。


固有ベクトルを含む空間 Am\times m対称行列とし、\boldsymbol{x}\in\mathbb{R}^{m\times1}とする。このときr\geq1に対してベクトル\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}によって生成されるベクトル空間はA固有ベクトルを含む。
(\because \boldsymbol{x},A\boldsymbol{x},\cdots,A^{k}\boldsymbol{x}が線形従属となるような最小の整数k=rとする。このとき

\begin{aligned}
\alpha_0\boldsymbol{x}+\alpha_1 A\boldsymbol{x}+\cdots+\alpha_r A^r\boldsymbol{x}=(\alpha_0+I_m+\alpha_1 A+\cdots+A^r)\boldsymbol{x}
\end{aligned}

を満たすような少なくとも1つが非零であるような\alpha_0,\alpha_1,\cdots,\alpha_rが存在する。一般性を失うことなく\alpha_r=1とできる。なぜならばそのようにrを選ぶことで\alpha_r\neq0が保証されるからである。
 上式の\alpha_0+I_m+\alpha_1 A+\cdots+A^rは行列Aに関するr多項式であり、\alpha_0=(-1)^r\gamma_1\gamma_2\cdots\gamma_r,\cdots,\alpha_{r-1}=-(\gamma_1+\gamma_2+\cdots+\gamma_r)を満たすような多項式の解を用いて


\begin{aligned}
(A-\gamma_1I_m)(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m)
\end{aligned}

因数分解できる。


\begin{aligned}
\boldsymbol{y}&=(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m)\boldsymbol{x}\\
&=(-1)^{r-1}\gamma_2\cdots\gamma_r\boldsymbol{x}+\cdots+A^{r-1}\boldsymbol{x}
\end{aligned}

とすれば\boldsymbol{y}\neq\boldsymbol{0}である。なぜならば、もしそうでなければrが定義に反して\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}は線形従属な集合になる。したがって\boldsymbol{y}はこれらから生成される空間に含まれており、


\begin{aligned}
(A-\gamma_1I_m)\boldsymbol{y}&=(A-\gamma_1I_m)(A-\gamma_2 I_m)\cdots(A-\gamma_rI_m)\boldsymbol{x}\boldsymbol{0}
\end{aligned}

が成り立つ。したがって\boldsymbol{y}固有値\gamma_1に対応するA固有ベクトルである。 \blacksquare)


重複する固有値があるときの直交性m\times m行列Aが対称ならばAm個の固有ベクトルの集合を正規直交性を持つように構成できる。
(\because 1\leq h\leq mにおいてもし正規直交性を持つ固有ベクトル\boldsymbol{x}_1,\cdots,\boldsymbol{x}_hが得られれば、これらのベクトルそれぞれと直交するような別の正規化された固有ベクトル\boldsymbol{x}_{h+1}を求めることができる。
 実際、ベクトル\boldsymbol{x}_1,\cdots,\boldsymbol{x}_hのそれぞれと直交するような任意のベクトル\boldsymbol{x}を選ぶ。このとき{}^{\forall}k\in\mathbb{N}(A^k\boldsymbol{x}\perp\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h)である。なぜならばもし\lambda_i\boldsymbol{x}_iに対応する固有値ならばAの対称性および過去に示した定理から

\begin{aligned}
\boldsymbol{x}_i^{\prime}A^k\boldsymbol{x}=\{(A^k)^{\prime}\boldsymbol{x}_i\}^{\prime}\boldsymbol{x}=(A^k\boldsymbol{x}_i)^{\prime}\boldsymbol{x}=\lambda_i^k\boldsymbol{x}^{\prime}\boldsymbol{x}=0
\end{aligned}

が成り立つからである。前述の定理より、あるrにおいてベクトル\boldsymbol{x},A\boldsymbol{x},\cdots,A^{r-1}\boldsymbol{x}によって生成される空間はA固有ベクトルを含む。そのベクトルを\boldsymbol{y}とすればそれもまた\boldsymbol{x}_1,\cdots,\boldsymbol{x}_hと直交するベクトルによって生成されるベクトル空間に含まれるから、\boldsymbol{x}_1,\cdots,\boldsymbol{x}_hと直交していなければならない。したがって


\begin{aligned}
\boldsymbol{x}_{h+1}=(\boldsymbol{y}^{\prime}\boldsymbol{y})^{-\frac{1}{2}}\boldsymbol{y}
\end{aligned}

を得る。Aの任意の固有ベクトルから始め、ここまでの議論をm-1回繰り返せばよい。 \blacksquare)

 \boldsymbol{x}_1,\cdots,\boldsymbol{x}_mが正規直交ベクトルであるとき、m\times m行列X=(\boldsymbol{x}_1\ \cdots\ \boldsymbol{x}_m)とし、さらに\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_m)とすると、i=1,2,\cdots,mにおける固有値および固有ベクトルが満たす方程式A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_iは、まとめて


\begin{aligned}
AX=X\Lambda
\end{aligned}

で表すことが可能である。Xの各列は正規直交ベクトルであるから、Xは直交行列である。両辺に左からX^{\prime}を掛けることで


\begin{aligned}
X^{\prime}AX=X^{\prime}X\Lambda=\Lambda
\end{aligned}

であり、またこれと同等だが、


\begin{aligned}
A=X\Lambda X^{\prime}
\end{aligned}

を得る。これはAのスペクトル分解として知られている。これの一般化として直交行列P\in\mathbb{R}^{m\times m},Q\in\mathbb{R}^{n\times n}およびi\neq j\Rightarrow d_{ij}であるようなD=(d_{ij})_{1\leq i\leq m,1\leq n\leq n}を用いて


\begin{aligned}
A=PDQ^{\prime}
\end{aligned}

が成り立つ特異値分解が知られている。

例:多重共線が生じている回帰分析
 統計学において固有値分析が必要となるのは説明変数に多重共線が生じている場合である。この場合、説明変数のいくつかが目的変数について冗長な情報を与えている。結果として\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}における\boldsymbol{\beta}の推定量


\begin{aligned}
\hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y}
\end{aligned}

は不正確になると推察される。なぜならば\boldsymbol{X}^{\prime}\boldsymbol{X}がほぼ正則でないため、\boldsymbol{\beta}の分散共分散行列は


\begin{aligned}
\mathbb{V}[\boldsymbol{\beta}]&=\mathbb{V}[\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y}]\\
&=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{X}\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\\
&=\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\prime}\{\sigma^2 I\}\boldsymbol{X}\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}\\
&=\sigma^2\left(\boldsymbol{X}^{\prime}\boldsymbol{X}\right)^{-1}
\end{aligned}

においていくつかの成分が大きな値を有するからである。もし説明変数のうちX_jが別の説明変数X_l,l\neq jのほぼスカラー倍ならば単にモデルからこれらの説明変数のうちの1つを除けばよい。しかし大抵の場合はそれほど単純ではないが、固有値分解をすることで従属性を明らかにすることができる
 説明変数を規格化して


\begin{aligned}
\boldsymbol{Y}=\delta_0\boldsymbol{1}_{N}+\boldsymbol{Z}_1\boldsymbol{\delta}_1+\boldsymbol{\varepsilon}
\end{aligned}

を得たとする。\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_k)\boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1固有値を降順に含んでいるものとし、\boldsymbol{U}はその列に固有値と対応する正規化された\boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1固有ベクトルを有する直交行列であるとする。すなわち


\begin{aligned}
\boldsymbol{Z}_1^{\prime}\boldsymbol{Z}_1=U\Lambda U^{\prime}
\end{aligned}

である。このとき\boldsymbol{Y}の推定は説明変数の正則変換によって影響を受けることは無い。すなわち


\begin{aligned}
\boldsymbol{Y}=\alpha_0\boldsymbol{1}_N+W_1\boldsymbol{\alpha}_1+\boldsymbol{\varepsilon}
\end{aligned}

というモデルでうまく説明できる。ここで\alpha_0=\delta_0,\boldsymbol{\alpha}_1=T^{-1}\boldsymbol{\delta}_1,W_1=Z_1 Tであり、Tは正則である。主成分回帰と呼ばれるこの手法は、規格化された説明変数と母数ベクトルに関する直交変換


\begin{aligned}
W_1&=Z_1U,\\
\boldsymbol{\alpha}&=U^{\prime}\boldsymbol{\delta}_1
\end{aligned}

を用いることで多重共線性に関連する問題を扱う。
 k個の新たな説明変数を主成分という。すなわちW_1の第i列に対応する変数は第i主成分と呼ばれる。W_1^{\prime}W_1=U^{\prime}Z_1^{\prime}Z_1U=\Lambda,そして\boldsymbol{1}_N^{\prime}W_1=\boldsymbol{1}_N^{\prime}Z_1U=\boldsymbol{0}^{\prime}U=\boldsymbol{0}^{\prime}であるから\boldsymbol{\alpha}_1の最小二乗推定量


\begin{aligned}
\hat{\boldsymbol{\alpha}}_1=\left(W_1^{\prime}W_1\right)^{-1}
\end{aligned}

である。これに対してその分散共分散行列は


\begin{aligned}
\mathbb{V}[\hat{\boldsymbol{\alpha}}_1]=\sigma^2\left(W_1^{\prime}W_1\right)=\sigma\Lambda^{-1}
\end{aligned}

と簡略化できる。もしZ_1^{\prime}Z_1もまたほぼ正則でなく、そのためにW_1^{\prime}W_1もまたほぼ正則でないならば、\lambda_iの中の少なくとも1つは非常に小さくなる一方で、それに対応する\alpha_iの分散は非常に大きくなり得る。説明変数は標準化されているため、W_1^{\prime}W_1N個の観測値から算出された主成分の標本相関行列のN-1倍である。したがって\lambda_i\approx0ならば、第i主成分は観測値にかかわらずほぼ一定であり、そのため\boldsymbol{Y}の推定にはほぼ影響を与えない。
i=k-r+1,\cdots,kにおいて\lambda_i\approx0ならば最後のr個の主成分をモデルから除外することで多重共線性に関連する問題を回避できる。すなわちW_1\boldsymbol{\alpha}_1^{\prime}の最後のr列を取り除くことで、W_{11},\boldsymbol{\alpha}_{11}が得られるとき、主成分回帰モデルは


\begin{aligned}
\boldsymbol{Y}=\alpha_0\boldsymbol{1}_N+W_{11}\boldsymbol{\alpha}_{11}+\displaystyle{\varepsilon}
\end{aligned}

という主成分回帰モデルを得られる。\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_{k-r})とすれば


\begin{aligned}
\boldsymbol{\alpha}_{11}=\left(W_{11}^{\prime}W_{11}\right)^{-1}W_{11}^{\prime}\boldsymbol{Y}=\Lambda_{1}^{-1}W_{11}^{\prime}\boldsymbol{Y}
\end{aligned}

と書き表すことができる。主成分の直交性から\hat{\boldsymbol{\alpha}}_11\hat{\boldsymbol{\alpha}}_1の最初からk-t個の成分は一致する。もともとの規格化モデルにおける\boldsymbol{\delta}_1の主成分回帰の推定量を求めるべく推定量\boldsymbol{\alpha}_{11}を用いることができる。ここで\boldsymbol{\delta}_{1},\boldsymbol{\alpha}_{1}恒等式


\begin{aligned}
\boldsymbol{\delta}_{1}=U\boldsymbol{\alpha}_{1}
\end{aligned}

を通した関連していた。最後のr個の主成分を除外することでこの恒等式\boldsymbol{\delta}_{1}=U\boldsymbol{\alpha}_{11}と置き換える。ここでU=\begin{bmatrix}U_1&U_2\end{bmatrix}であり、U_1の次数はk\times(k-r)である。したがって\boldsymbol{\delta}_1の主成分回帰の推定量


\begin{aligned}
\hat{\boldsymbol{\delta}}_1=U_1\hat{\boldsymbol{\alpha}}_{11}=U_1\Lambda_1^{-1}W_{11}^{\prime}\boldsymbol{Y}
\end{aligned}

である。

プライバシーポリシー お問い合わせ