統計学のための線形代数（008/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
3.　固有値と固有ベクトル
- 3.3　固有値の極値特性
次回

3.　固有値と固有ベクトル

3.3　固有値の極値特性

　固有値の極値特性を考える意義を検討するのに以下の例を考える。

例　正準変量分析
　 $k$ 個の異なった集団からの各個人 $i=1,2,\cdots,k$ について $m$ 個の変数 $\boldsymbol{x}_i=(\boldsymbol{x}_{i1},\cdots,$ $\boldsymbol{x}_{im})$ が測定され、各集団間の平均 $\boldsymbol{\mu}_{i}=\displaystyle{\frac{1}{m}\sum_{j=1}^{m}\boldsymbol{x}_{ij}}$ で見た差異を同定したいとする。このために全体平均
$\begin{aligned} \boldsymbol{\mu}=\displaystyle{\frac{1}{k}\sum_{i=1}^{k}\boldsymbol{\mu}_i} \end{aligned}$
を用いて集団平均に対するその集団の平均の偏差 $\boldsymbol{\mu}_i-\boldsymbol{\mu}$ を用いることとする。また以下の平均和積和行列(sum of squares and cross products matrix)を構成する：
$\begin{aligned} A=\displaystyle{\sum_{i=1}^{k}(\boldsymbol{\mu}-\boldsymbol{\mu}_i)(\boldsymbol{\mu}-\boldsymbol{\mu}_i)^{\prime}} \end{aligned}$
　ある特定の単位ベクトル $\boldsymbol{e}$ に対して $\boldsymbol{e}^{\prime}A\boldsymbol{e}$ は $\boldsymbol{e}$ の方向における $k$ 個の集団間の差異に関する指標を与える。この値が $0$ である場合、集団がこの方向において同一の平均を有することを意味する。これに対して $\boldsymbol{e}^{\prime}A\boldsymbol{e}$ が大きければその方向において集団間に大きな差異が存在することを意味する。
　 $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ が $A$ の順序付けられた固有値 $\lambda_1\geq\cdots\geq\lambda_m$ に対応する規格化された固有ベクトルであるならば、これまでの定理から、全体平均からの偏差という観点における $k$ 個の集団間の最も大きな差は $\boldsymbol{e}_1=\displaystyle{\frac{1}{|\boldsymbol{x}_1|}}\boldsymbol{x}_1$ で与えられる方向に生じる。そして $\boldsymbol{e}_1$ に直交するすべての方向のうち、 $\boldsymbol{e}_2=\displaystyle{\frac{1}{|\boldsymbol{x}_2|}}\boldsymbol{x}_2$ が $k$ 個の集団間における差を表す。もし一部の固有値が相対的に非常に小さければ、それ(ら)を無視することで次元を効率的に減らすことができる。

例：主成分分析
　今度は分散を用いて集団間の差異を把握する分析を考える。確率ベクトル $\boldsymbol{X}\sim\mathbb{R}^{m}$ は分散共分散行列 $\Omega$ を持つものとする。また $\boldsymbol{a}_1^{\prime}\boldsymbol{X}$ の分散を可能な限り小さくする $\boldsymbol{a}_1\in\mathbb{R}^m$ を見つけ出したいとする。このとき
$\begin{aligned} V[\boldsymbol{a}_1^{\prime}\boldsymbol{X}]=\boldsymbol{a}_1^{\prime}\mathbb{V}[\boldsymbol{X}]\boldsymbol{a}_1=\boldsymbol{a}_1^{\prime}\Omega\boldsymbol{a}_1 \end{aligned}$
である。
　ある $\alpha\in\mathbb{R}$ に対して $\boldsymbol{a}_1=\alpha\boldsymbol{c}$ となるような $\boldsymbol{c}\neq\boldsymbol{0}$ を取り、 $\alpha\rightarrow\infty$ としていくことで分散を恣意的に大きくすることができるため、 $\boldsymbol{a}_1$ の尺度の大きさから受ける影響を減らすべく、たとえば $\boldsymbol{a}_1^{\prime}\boldsymbol{a}_1=1$ となるような $\boldsymbol{a}_1$ に対して分散を最大化するように考えればよい。このとき $\boldsymbol{R}^m$ 内におけるある軸(直線)の方向を探していることになる。この直線はそこに射影された $\boldsymbol{X}$ の観測値が最大化されるものである。この方向は $\Omega$ の最も大きな固有値に対応するような規格化された固有ベクトルによって与えられる。2つ目の方向は $\Omega$ の2番目に大きい固有値に対応するような規格化された固有ベクトルで与えられる。このような手順を繰り返すことで $m$ 個の方向を得られる。
　ここまでの操作は元来の軸を新しい直交軸の集合とする回転を見出すことである。そして各軸はその軸に対する観測値 $\boldsymbol{X}$ の分散を最大化するように選択される。
　変換後の $\boldsymbol{a}_1^{\prime}\boldsymbol{X},\cdots,\boldsymbol{a}_m^{\prime}\boldsymbol{X}$ の要素は $\Omega$ の主成分と呼ばれ、それらは無相関になる。それは、 $i\neq j$ としたときに
$\begin{aligned} \mathrm{Cov}[\boldsymbol{a}_i^{\prime}\boldsymbol{X},\boldsymbol{a}_j^{\prime}\boldsymbol{X}]=\boldsymbol{a}_i^{\prime}\Omega\boldsymbol{a}_j^{\prime}=\boldsymbol{a}_i^{\prime}\left(\lambda_j\boldsymbol{a}_j^{\prime}\right)=\lambda_j\boldsymbol{a}_i^{\prime}\boldsymbol{a}_j^{\prime}=0 \end{aligned}$
だからである。

$\mathrm{Courant}$ - $\mathrm{Fischer}$ のミニマックス定理　 $A$ を固有値 $\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_m$ を持つ $m$ 次対称行列だとする。 $h=1,2,\cdots,m$ において $B_h$ を $B_h^{\prime}B_h=I_{h-1}$ を満たすような任意の $m\times (h-1)$ 行列 $C_h$ を $C_h^{\prime}C_h=I_{m-h}$ を満たすような任意の $m\times(m-h)$ 行列だとする。このとき

$\begin{aligned} \lambda_h=\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}} \end{aligned}$

およびこれと同等な

$\begin{aligned} \lambda_h=\displaystyle{\max_{C_h}\min_{C_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}} \end{aligned}$

が成り立つ。

( $\because$ 　同様の手順で示すことができるため、最初の式

のみを示すこととする。
　行列 $Y_h=(\boldsymbol{X}_1,\boldsymbol{X}_h)$ を定義する。ここで各 $\boldsymbol{X}_i$ は固有値 $\lambda_i$ に対応する $A$ の正規直交固有ベクトルだとする。 $Y_{h-1}$ は $Y_{h-1}^{\prime}Y_{h-1}=I_{h-1}$ を満たす $m\times(h-1)$ 行列であるから、前述の定理により

$\begin{aligned} \displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}\leq\displaystyle{\max_{X_{h-1}^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}=\lambda_h \end{aligned}$

が成り立つ。いま $B_h^{\prime}B_h=I_{h-1}$ を満たすような任意の行列 $B_h$ に対して、行列 $B_h^{\prime}Y_h$ は $(h-1)\times h$ 行列であり、その列は線形従属でなければならない。そのため、

$\begin{aligned} B_h^{\prime}Y_h\boldsymbol{Y}=\boldsymbol{0} \end{aligned}$

を満たすような $\boldsymbol{Y}\neq\boldsymbol{0}$ が存在する。したがって

$\begin{aligned} \displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{X}=\boldsymbol{0}\\\boldsymbol{X}\neq\boldsymbol{0}}\frac{\boldsymbol{X}^{\prime}A\boldsymbol{X}}{\boldsymbol{X}^{\prime}\boldsymbol{X}}}\leq\displaystyle{\frac{\boldsymbol{Y}Y_h^{\prime}AY_h\boldsymbol{Y}}{\boldsymbol{Y}Y_h^{\prime}Y_h\boldsymbol{Y}}}=\displaystyle{\frac{\boldsymbol{Y}^{\prime}\Lambda_h\boldsymbol{Y}}{\boldsymbol{Y}^{\prime}\boldsymbol{Y}}}\geq\lambda_h \end{aligned}$