「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計学のための線形代数(008/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

3. 固有値固有ベクトル

3.3 固有値極値特性

 固有値極値特性を考える意義を検討するのに以下の例を考える。

例 正準変量分析
 k個の異なった集団からの各個人i=1,2,\cdots,kについてm個の変数\boldsymbol{x}_i=(\boldsymbol{x}_{i1},\cdots,\boldsymbol{x}_{im})が測定され、各集団間の平均\boldsymbol{\mu}_{i}=\displaystyle{\frac{1}{m}\sum_{j=1}^{m}\boldsymbol{x}_{ij}}で見た差異を同定したいとする。このために全体平均


\begin{aligned}
\boldsymbol{\mu}=\displaystyle{\frac{1}{k}\sum_{i=1}^{k}\boldsymbol{\mu}_i}
\end{aligned}

を用いて集団平均に対するその集団の平均の偏差\boldsymbol{\mu}_i-\boldsymbol{\mu}を用いることとする。また以下の平均和積和行列(sum of squares and cross products matrix)を構成する:


\begin{aligned}
A=\displaystyle{\sum_{i=1}^{k}(\boldsymbol{\mu}-\boldsymbol{\mu}_i)(\boldsymbol{\mu}-\boldsymbol{\mu}_i)^{\prime}}
\end{aligned}

 ある特定の単位ベクトル\boldsymbol{e}に対して\boldsymbol{e}^{\prime}A\boldsymbol{e}\boldsymbol{e}の方向におけるk個の集団間の差異に関する指標を与える。この値が0である場合、集団がこの方向において同一の平均を有することを意味する。これに対して\boldsymbol{e}^{\prime}A\boldsymbol{e}が大きければその方向において集団間に大きな差異が存在することを意味する。
 \boldsymbol{x}_1,\cdots,\boldsymbol{x}_mAの順序付けられた固有値\lambda_1\geq\cdots\geq\lambda_mに対応する規格化された固有ベクトルであるならば、これまでの定理から、全体平均からの偏差という観点におけるk個の集団間の最も大きな差は\boldsymbol{e}_1=\displaystyle{\frac{1}{|\boldsymbol{x}_1|}}\boldsymbol{x}_1で与えられる方向に生じる。そして\boldsymbol{e}_1に直交するすべての方向のうち、\boldsymbol{e}_2=\displaystyle{\frac{1}{|\boldsymbol{x}_2|}}\boldsymbol{x}_2k個の集団間における差を表す。もし一部の固有値が相対的に非常に小さければ、それ(ら)を無視することで次元を効率的に減らすことができる。

例:主成分分析
 今度は分散を用いて集団間の差異を把握する分析を考える。確率ベクトル\boldsymbol{X}\sim\mathbb{R}^{m}は分散共分散行列\Omegaを持つものとする。また\boldsymbol{a}_1^{\prime}\boldsymbol{X}の分散を可能な限り小さくする\boldsymbol{a}_1\in\mathbb{R}^mを見つけ出したいとする。このとき


\begin{aligned}
V[\boldsymbol{a}_1^{\prime}\boldsymbol{X}]=\boldsymbol{a}_1^{\prime}\mathbb{V}[\boldsymbol{X}]\boldsymbol{a}_1=\boldsymbol{a}_1^{\prime}\Omega\boldsymbol{a}_1
\end{aligned}

である。
 ある\alpha\in\mathbb{R}に対して\boldsymbol{a}_1=\alpha\boldsymbol{c}となるような\boldsymbol{c}\neq\boldsymbol{0}を取り、\alpha\rightarrow\inftyとしていくことで分散を恣意的に大きくすることができるため、\boldsymbol{a}_1の尺度の大きさから受ける影響を減らすべく、たとえば\boldsymbol{a}_1^{\prime}\boldsymbol{a}_1=1となるような\boldsymbol{a}_1に対して分散を最大化するように考えればよい。このとき\boldsymbol{R}^m内におけるある軸(直線)の方向を探していることになる。この直線はそこに射影された\boldsymbol{X}の観測値が最大化されるものである。この方向は\Omegaの最も大きな固有値に対応するような規格化された固有ベクトルによって与えられる。2つ目の方向は\Omegaの2番目に大きい固有値に対応するような規格化された固有ベクトルで与えられる。このような手順を繰り返すことでm個の方向を得られる。
 ここまでの操作は元来の軸を新しい直交軸の集合とする回転を見出すことである。そして各軸はその軸に対する観測値\boldsymbol{X}の分散を最大化するように選択される。
 変換後の\boldsymbol{a}_1^{\prime}\boldsymbol{X},\cdots,\boldsymbol{a}_m^{\prime}\boldsymbol{X}の要素は\Omegaの主成分と呼ばれ、それらは無相関になる。それは、i\neq jとしたときに


\begin{aligned}
\mathrm{Cov}[\boldsymbol{a}_i^{\prime}\boldsymbol{X},\boldsymbol{a}_j^{\prime}\boldsymbol{X}]=\boldsymbol{a}_i^{\prime}\Omega\boldsymbol{a}_j^{\prime}=\boldsymbol{a}_i^{\prime}\left(\lambda_j\boldsymbol{a}_j^{\prime}\right)=\lambda_j\boldsymbol{a}_i^{\prime}\boldsymbol{a}_j^{\prime}=0
\end{aligned}

だからである。


\mathrm{Courant}-\mathrm{Fischer}ミニマックス定理 A固有値\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_mを持つm次対称行列だとする。h=1,2,\cdots,mにおいてB_hB_h^{\prime}B_h=I_{h-1}を満たすような任意のm\times (h-1)行列C_hC_h^{\prime}C_h=I_{m-h}を満たすような任意のm\times(m-h)行列だとする。このとき

\begin{aligned}
\lambda_h=\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}
\end{aligned}

およびこれと同等な


\begin{aligned}
\lambda_h=\displaystyle{\max_{C_h}\min_{C_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}
\end{aligned}

が成り立つ。

(\because 同様の手順で示すことができるため、最初の式

\begin{aligned}
\lambda_h=\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}
\end{aligned}

のみを示すこととする。
 行列Y_h=(\boldsymbol{X}_1,\boldsymbol{X}_h)を定義する。ここで各\boldsymbol{X}_i固有値\lambda_iに対応するAの正規直交固有ベクトルだとする。Y_{h-1}Y_{h-1}^{\prime}Y_{h-1}=I_{h-1}を満たすm\times(h-1)行列であるから、前述の定理により


\begin{aligned}
\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}\leq\displaystyle{\max_{X_{h-1}^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}=\lambda_h
\end{aligned}

が成り立つ。いまB_h^{\prime}B_h=I_{h-1}を満たすような任意の行列B_hに対して、行列B_h^{\prime}Y_h(h-1)\times h行列であり、その列は線形従属でなければならない。そのため、


\begin{aligned}
B_h^{\prime}Y_h\boldsymbol{Y}=\boldsymbol{0}
\end{aligned}

を満たすような\boldsymbol{Y}\neq\boldsymbol{0}が存在する。したがって


\begin{aligned}
\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}\leq\displaystyle{\frac{\boldsymbol{Y}Y_h^{\prime}AY_h\boldsymbol{Y}}{\boldsymbol{Y}Y_h^{\prime}Y_h\boldsymbol{Y}}}=\displaystyle{\frac{\boldsymbol{Y}^{\prime}\Lambda_h\boldsymbol{Y}}{\boldsymbol{Y}^{\prime}\boldsymbol{Y}}}\geq\lambda_h
\end{aligned}

が成立する。ここで\Lambda_h=\mathrm{diag}(\lambda_1,\cdots,\lambda_h)である。このため


\begin{aligned}
\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}\geq\lambda_h
\end{aligned}

を得る。以上から


\begin{aligned}
\lambda_h=\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}
\end{aligned}

が成立する。 \blacksquare)

プライバシーポリシー お問い合わせ