統計学のための線形代数（013/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
3.　固有値と固有ベクトル
- 3.5　非負定値行列
次回

3.　固有値と固有ベクトル

3.5　非負定値行列

$\begin{aligned} A=\displaystyle{\sum_{i=1}^{k}(\boldsymbol{\mu}_i-\boldsymbol{\mu})(\boldsymbol{\mu}_i-\boldsymbol{\mu})^{\prime}} \end{aligned}$

の固有値と固有ベクトルを用いて群平均 $\boldsymbol{\mu}_1,\cdots,\boldsymbol{\mu}_k$ の相違を分析する正準変量分析を過去に論じた。このときスケールの影響を取り除くため、 $\mathrm{Rayleigh}$ 商を考えたのだった。このとき各群の分散共分散行列が単位行列でない(群に所属する各個体に相関がある)場合、不適切な結果が得られる場合がある。
　たとえば各群が共通して分散共分散行列 $B$ を持つと仮定する。分散共分散行列 $B$ を持つ確率ベクトル $\boldsymbol{y}$ があるとき、 $\boldsymbol{x}$ で定義される方向における $\boldsymbol{y}$ の分散は

$\begin{aligned} V(\boldsymbol{x}^{\prime}\boldsymbol{y})=\boldsymbol{x}^{\prime}B\boldsymbol{x} \end{aligned}$

で表される。
　バラつきが大きい方向における群間の差はバラツキが小さい方向においてみられる差よりも重要性が低いと考えられる。そこでこのバラつきの差を

$\begin{aligned} \displaystyle{\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}} \end{aligned}$

を用いることで修正する。
　この比率を最大にするような $\boldsymbol{x}=\boldsymbol{x}_1$ はバラツキの差異を補正した上で最も群間の差が大きくなるような $\mathbb{R}^{m}$ の1次元部分空間を特定することになる。次に $\boldsymbol{x}_1^{\prime}\boldsymbol{y}$ と $\boldsymbol{x}_2^{\prime}\boldsymbol{y}$ が無相関である範囲内で、上記の比率を最大化するようなベクトル $\boldsymbol{x}=\boldsymbol{x}_2$ を探す。これを続けることで $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ を定めることが可能であり、これら各々が上記比率の $m$ 個の極値 $\lambda_1,\cdots,\lambda_m$ を与える。これを特定するのが以下の定理である。

$B$ の尺度における $A$ の固有値　 $m$ 次対称行列 $A$ および $m$ 次正定値行列 $B$ に対して $B^{-1}A$ の固有値 $\lambda_1(B^{-1}A)\geq\cdots\geq\lambda_m(B^{-1}A)$ は実数であり、これらの固有値に対応する線形独立な固有ベクトル $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ が存在する。また $h=1,\cdots,m$ について $X_h=(\boldsymbol{x}_1,\cdots,\boldsymbol{x}_h)$ $Y_h=(\boldsymbol{y}_1,\cdots,\boldsymbol{y}_h)$ とすると

$\begin{aligned} \lambda_h(B^{-1}A)&=\displaystyle{\min_{Y_{h+1}^{\prime}B\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}}\\ \lambda_h(B^{-1}A)&=\displaystyle{\min_{X_{h+1}^{\prime}B\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}} \end{aligned}$

が成り立つ。

( $\because$ 　 $B$ のスペクトル分解を $B=PDP^{\prime}$ とする。 $B$ の固有値 $d_1,\cdots,d_m$ はすべて正であり、しかも $D=\mathrm{diag}(d_1,\cdots,d_m)$ である。ここで

$\begin{aligned} D^{\frac{1}{2}}=\mathrm{diag}(d_1^{\frac{1}{2}},\cdots,d_m^{\frac{1}{2}}) \end{aligned}$

を用いて $T=PD^{\frac{1}{2}}P^{\prime}$ とおくと、 $B=TT=T^2$ であり、 $T$ は $B$ と同様で対称で正則な行列ということになる、このとき $B^{-1}A$ の固有値は $T^{-1}AT^{-1}$ の固有値に等しく、 $T^{-1}AT^{-1}$ の対称性から、この行列は正規直交な固有ベクトル $\{\boldsymbol{y}_1,\cdots,\boldsymbol{y}_m\}$ を持っているはずである。ここで $\lambda_i=\lambda_i(B^{-1}A)=\lambda_i(T^{-1}AT^{-1})$ を用いれば、 $T^{-1}AT^{-1}\boldsymbol{y}_i=\lambda_i\boldsymbol{y}_i$ と表すことができる。したがって

$\begin{aligned} T^{-1}T^{-1}AT^{-1}\boldsymbol{y}_i=\lambda_{i}T^{-1}\boldsymbol{y}_i \end{aligned}$

であり、また

$\begin{aligned} B^{-1}A(T^{-1}\boldsymbol{y}_i)=\lambda_i(T^{-1}\boldsymbol{y}_i) \end{aligned}$

である。以上から $\boldsymbol{x}_i=T^{-1}\boldsymbol{y}_i$ は $BA^{-1}$ の固有値 $\lambda_i=\lambda_i(B^{-1}A)$ に対応した固有ベクトルであり、 $\boldsymbol{y}_i=T\boldsymbol{x}_i$ であることが分かる。 $\boldsymbol{y}_1,\cdots,\boldsymbol{y}_m$ が正規直交であることから、ベクトル $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m$ が線形独立であることは明らかである。そこであとは最小かおよび最大化を含む高騰式のみを示せばよい。手続きが同様なので最小化のみを示す。
　まず $\boldsymbol{y}=T\boldsymbol{x}$ を代入することで

$\begin{aligned} \displaystyle{\min_{Y_{h+1}^{\prime}B\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}}&=\displaystyle{\min_{Y_{h+1}^{\prime}TT\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}TT^{-1}AT^{-1}T\boldsymbol{x}}{\boldsymbol{x}^{\prime}TT\boldsymbol{x}}}\\ &=\displaystyle{\min_{Y_{h+1}^{\prime}T\boldsymbol{y}=\boldsymbol{0}\\\boldsymbol{y}\neq\boldsymbol{0}}\frac{\boldsymbol{y}^{\prime}T^{-1}AT^{-1}\boldsymbol{y}}{\boldsymbol{y}^{\prime}\boldsymbol{y}}}\\ \end{aligned}$

を得る。ここで $Y_{h+1}^{\prime}T$ の行は $T^{-1}AT$ の固有ベクトル $T^{-1}\boldsymbol{x}_{h+1},\cdots,T^{-1}\boldsymbol{x}_m$ の転置であるから、上式は $\lambda_h(T^{-1}AT^{-1})$ に等しいことが分かり、これは既に示したように $\lambda_h(B^{-1}A)$ と等しい。　 $\blacksquare$ )

　固有値 $\lambda_i=\lambda_i(B^{-1}A)$ に対応する $B^{-1}A$ の固有ベクトルを $\boldsymbol{x}_i$ とするとき

$\begin{aligned} B^{-1}A\boldsymbol{x}_i=\lambda_i\boldsymbol{x}_i \end{aligned}$

あるいは、これと同等な

$\begin{aligned} A\boldsymbol{x}_i=\lambda_iB\boldsymbol{x}_i \end{aligned}$

が成り立つ。後者を満たす固有値は $B$ の尺度における $A$ の固有値と呼ばれることがある。この式に左から $\boldsymbol{x}_i^{\prime}$ を掛けて $\lambda_i$ について解くと、

$\begin{aligned} \lambda_i(B_iA)=\displaystyle{\frac{\boldsymbol{x}_i^{\prime}A\boldsymbol{x}_i}{\boldsymbol{x}_i^{\prime}B\boldsymbol{x}_i}} \end{aligned}$

を得る。すなわち直上の定理で得た極値が $B^{-1}A$ の固有ベクトルとして得られる。

次回

power-of-awareness.com

前回

3. 固有値と固有ベクトル

3.5 非負定値行列

次回

3.　固有値と固有ベクトル

3.5　非負定値行列