統計学のための線形代数（011/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
3.　固有値と固有ベクトル
- 3.5　非負定値行列
次回

3.　固有値と固有ベクトル

3.5　非負定値行列

　対称行列 $A$ が正定値または半正定値行列であるための条件を $A$ の固有値を用いて表現していく。

　以下の定理から、正方行列は固有値が $0$ であることが正則行列でないことの必要十分条件であることを踏まえると、正定値行列は正則、半正定値行列は非正則であることが分かる。

固有値と正定値性　 $\lambda_1,\cdots,\lambda_m$ を $m$ 次対称行列 $A$ の固有値とする。このとき、

すべての $\lambda_i$ が正であることは $A$ が正定値であることの必要十分条件である。
すべての $\lambda_i$ が非負かつ $\lambda_i=0$ が成り立つような $i\in\{1,2,\cdots,n\}$ が少なくとも1つ存在することは $A$ が半正定値であることの必要十分条件である。

( $\because$ 　 $X=(\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m)$ の列が $A$ の固有値 $\lambda_1,\cdots,\lambda_m$ に対応する正規直交固有ベクトルであるとする。このとき $\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_m)$ を用いて $A=X\Lambda X^{\prime}$ と表すことができる。もし $A$ が正定値ならば、すべての $\boldsymbol{x}\neq\boldsymbol{0}$ に対して $\boldsymbol{x}^{\prime}A\boldsymbol{x}\gt0$ が成り立つ。したがって適当な $\boldsymbol{x}=\boldsymbol{x}_i$ を選ぶことで

$\begin{aligned} \boldsymbol{x}_i^{\prime}A\boldsymbol{x}_i=\boldsymbol{x}_i^{\prime}(\lambda_i\boldsymbol{x}_i)=\lambda_i\boldsymbol{x}_i^{\prime}\boldsymbol{x}_i=\lambda_i\gt0 \end{aligned}$

を得る。
　逆にすべての $i\in\{1,2,\cdots,m\}$ について $\lambda_i\gt0$ だと仮定する。任意の $\boldsymbol{x}\neq\boldsymbol{0}$ を用いて $\boldsymbol{y}=X^{\prime}\boldsymbol{x}$ を定義すると、 $\boldsymbol{y}\neq\boldsymbol{0}$ であり、したがって $\boldsymbol{y}=(y_1,\cdots,y_m)$ について少なくとも1つの $y_i^2\gt0$ であるから、

$\begin{aligned} \boldsymbol{x}^{\prime}A\boldsymbol{x}=\boldsymbol{x}^{\prime}X\Lambda X^{\prime}\boldsymbol{x}\gt0 \end{aligned}$

が成り立つ。したがってすべての $\lambda_i$ が正であることは $A$ が正定値であることの必要十分条件である。
　同様に考えることで、すべての $\lambda_i$ が非負かつ $\lambda_i=0$ が成り立つような $i\in\{1,2,\cdots,n\}$ が少なくとも1つ存在することは $A$ が半正定値であることの必要十分条件であることも示すことができる。

$\begin{aligned} \boldsymbol{x}^{\prime}A\boldsymbol{x}=\boldsymbol{x}^{\prime}X\Lambda X^{\prime}\boldsymbol{x}\gt0 \end{aligned}$

より、もし $\boldsymbol{x}^{\prime}A\boldsymbol{x}=0$ ならば、 $y_i^2\gt0$ よりすべての $\lambda_i=0$ である。逆にもし $\lambda_i=0$ となるような $i$ が存在するならば、 $\boldsymbol{x}_i^{\prime}A\boldsymbol{x}_i=\lambda_i=0$ である。　 $\blacksquare$ )

例：
　重回帰モデル
$\begin{aligned} \boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon} \end{aligned}$
における $\boldsymbol{\beta}$ の最小二乗推定量 $\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y}\in\mathbb{R}^{k+1}$ を考える。ただし $\mathbb{E}[\boldsymbol{\varepsilon}]=\boldsymbol{0},\mathbb{V}[\boldsymbol{\varepsilon}]=\sigma^2 I$ である。
　このとき ${}^{\forall}\boldsymbol{c}\in\mathbb{R}^{k+1}$ について $\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}$ が $\boldsymbol{c}^{\prime}\boldsymbol{\beta}$ の最良線形不偏推定量であることを示す。まず推定量 $\boldsymbol{t}$ が $\boldsymbol{c}^{\prime}\boldsymbol{\beta}$ の不偏推定量であるためには、 $\mathbb{E}[\boldsymbol{t}]=\boldsymbol{c}^{\prime}\boldsymbol{\beta}$ が成り立たなければならない。 $\mathbb{E}[\boldsymbol{\varepsilon}]=\boldsymbol{0}$ に注意すれば
$\begin{aligned} \mathbb{E}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\boldsymbol{c}^{\prime}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\mathbb{E}[\boldsymbol{Y}]\\ &=\boldsymbol{c}^{\prime}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{X}\boldsymbol{\beta}\\ &=\boldsymbol{c}^{\prime}\boldsymbol{\beta} \end{aligned}$
が導かれるから、 $\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}$ は不偏である。
　次に $\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}$ の最小分散性を示す。 $\boldsymbol{a}^{\prime}\boldsymbol{Y}$ が $\boldsymbol{c}^{\prime}\boldsymbol{\beta}$ の任意の線形不偏推定量だとする。このとき
$\begin{aligned} \boldsymbol{c}^{\prime}\boldsymbol{\beta}=\mathbb{E}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\mathbb{E}[\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\boldsymbol{X}\boldsymbol{\beta} \end{aligned}$
が成り立つ。これは
$\begin{aligned} \boldsymbol{c}^{\prime}=\boldsymbol{a}^{\prime}\boldsymbol{X} \end{aligned}$
であることに他ならない。またこのとき
$\begin{aligned} \mathbb{V}[\hat{\boldsymbol{\beta}}]=\mathbb{V}[\hat{\boldsymbol{\beta}}]&=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\\ &=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}(\sigma^2 I)\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\\ &=\sigma^2(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1} \end{aligned}$
であることを踏まえるならば、
$\begin{aligned} \mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\boldsymbol{c}^{\prime}\mathbb{V}[\hat{\boldsymbol{\beta}}]\boldsymbol{c}\\ &=\boldsymbol{c}^{\prime}(\sigma^2(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1})\boldsymbol{c}\\ &=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{a} \end{aligned}$
を得る。一方で
$\begin{aligned} \mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{a}=\boldsymbol{a}^{\prime}(\sigma^2 I)\boldsymbol{a}=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{a} \end{aligned}$
である。したがって
$\begin{aligned} \mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]-\mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{a}-\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{a}\\ &=\sigma^2\boldsymbol{a}^{\prime}\left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)\boldsymbol{a} \end{aligned}$
を得る。ここで
$\begin{aligned} \left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)^2=I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime} \end{aligned}$

であるから、既に示したとおり、 $I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}$ の固有値を $\lambda$ とするとき、 $\left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)^2$ の固有値は $\lambda^2$ と表されるから、 $\lambda=0$ または $\lambda=1$ である。したがって固有値と正定値性に関する定理から、 $I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}$ は非負定値性を持ち、
$\begin{aligned} \mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]-\mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]\geq0 \end{aligned}$
が成り立つ。したがって $\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}$ はすべての $\boldsymbol{c}^{\prime}\boldsymbol{\beta}$ の不偏推定量の中でももっとも分散が小さい。

次回

power-of-awareness.com

前回

3. 固有値と固有ベクトル

3.5 非負定値行列

次回

3.　固有値と固有ベクトル

3.5　非負定値行列