「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計学のための線形代数(011/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

3. 固有値固有ベクトル

3.5 非負定値行列

 対称行列Aが正定値または半正定値行列であるための条件をA固有値を用いて表現していく。

 以下の定理から、正方行列は固有値0であることが正則行列でないことの必要十分条件であることを踏まえると、正定値行列は正則、半正定値行列は非正則であることが分かる。


固有値と正定値性 \lambda_1,\cdots,\lambda_mm次対称行列A固有値とする。このとき、

  • すべての\lambda_iが正であることはAが正定値であることの必要十分条件である。
  • すべての\lambda_iが非負かつ\lambda_i=0が成り立つようなi\in\{1,2,\cdots,n\}が少なくとも1つ存在することはAが半正定値であることの必要十分条件である。

(\because X=(\boldsymbol{x}_1,\cdots,\boldsymbol{x}_m)の列がA固有値\lambda_1,\cdots,\lambda_mに対応する正規直交固有ベクトルであるとする。このとき\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_m)を用いてA=X\Lambda X^{\prime}と表すことができる。もしAが正定値ならば、すべての\boldsymbol{x}\neq\boldsymbol{0}に対して\boldsymbol{x}^{\prime}A\boldsymbol{x}\gt0が成り立つ。したがって適当な\boldsymbol{x}=\boldsymbol{x}_iを選ぶことで


\begin{aligned}
\boldsymbol{x}_i^{\prime}A\boldsymbol{x}_i=\boldsymbol{x}_i^{\prime}(\lambda_i\boldsymbol{x}_i)=\lambda_i\boldsymbol{x}_i^{\prime}\boldsymbol{x}_i=\lambda_i\gt0
\end{aligned}

を得る。
 逆にすべてのi\in\{1,2,\cdots,m\}について\lambda_i\gt0だと仮定する。任意の\boldsymbol{x}\neq\boldsymbol{0}を用いて\boldsymbol{y}=X^{\prime}\boldsymbol{x}を定義すると、\boldsymbol{y}\neq\boldsymbol{0}であり、したがって\boldsymbol{y}=(y_1,\cdots,y_m)について少なくとも1つのy_i^2\gt0であるから、


\begin{aligned}
\boldsymbol{x}^{\prime}A\boldsymbol{x}=\boldsymbol{x}^{\prime}X\Lambda X^{\prime}\boldsymbol{x}\gt0
\end{aligned}

が成り立つ。したがってすべての\lambda_iが正であることはAが正定値であることの必要十分条件である。
 同様に考えることで、すべての\lambda_iが非負かつ\lambda_i=0が成り立つようなi\in\{1,2,\cdots,n\}が少なくとも1つ存在することはAが半正定値であることの必要十分条件であることも示すことができる。


\begin{aligned}
\boldsymbol{x}^{\prime}A\boldsymbol{x}=\boldsymbol{x}^{\prime}X\Lambda X^{\prime}\boldsymbol{x}\gt0
\end{aligned}

より、もし\boldsymbol{x}^{\prime}A\boldsymbol{x}=0ならば、y_i^2\gt0よりすべての\lambda_i=0である。逆にもし\lambda_i=0となるようなiが存在するならば、\boldsymbol{x}_i^{\prime}A\boldsymbol{x}_i=\lambda_i=0である。 \blacksquare)

例:
 重回帰モデル


\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}
\end{aligned}

における\boldsymbol{\beta}の最小二乗推定量\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{Y}\in\mathbb{R}^{k+1}を考える。ただし\mathbb{E}[\boldsymbol{\varepsilon}]=\boldsymbol{0},\mathbb{V}[\boldsymbol{\varepsilon}]=\sigma^2 Iである。
 このとき{}^{\forall}\boldsymbol{c}\in\mathbb{R}^{k+1}について\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}\boldsymbol{c}^{\prime}\boldsymbol{\beta}の最良線形不偏推定量であることを示す。まず推定量\boldsymbol{t}\boldsymbol{c}^{\prime}\boldsymbol{\beta}の不偏推定量であるためには、\mathbb{E}[\boldsymbol{t}]=\boldsymbol{c}^{\prime}\boldsymbol{\beta}が成り立たなければならない。\mathbb{E}[\boldsymbol{\varepsilon}]=\boldsymbol{0}に注意すれば


\begin{aligned}
\mathbb{E}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\boldsymbol{c}^{\prime}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\mathbb{E}[\boldsymbol{Y}]\\
&=\boldsymbol{c}^{\prime}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{X}\boldsymbol{\beta}\\
&=\boldsymbol{c}^{\prime}\boldsymbol{\beta}
\end{aligned}

が導かれるから、\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}は不偏である。
 次に\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}の最小分散性を示す。\boldsymbol{a}^{\prime}\boldsymbol{Y}\boldsymbol{c}^{\prime}\boldsymbol{\beta}の任意の線形不偏推定量だとする。このとき


\begin{aligned}
\boldsymbol{c}^{\prime}\boldsymbol{\beta}=\mathbb{E}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\mathbb{E}[\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\boldsymbol{X}\boldsymbol{\beta}
\end{aligned}

が成り立つ。これは


\begin{aligned}
\boldsymbol{c}^{\prime}=\boldsymbol{a}^{\prime}\boldsymbol{X}
\end{aligned}

であることに他ならない。またこのとき


\begin{aligned}
\mathbb{V}[\hat{\boldsymbol{\beta}}]=\mathbb{V}[\hat{\boldsymbol{\beta}}]&=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\\
&=(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}(\sigma^2 I)\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\\
&=\sigma^2(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}
\end{aligned}

であることを踏まえるならば、


\begin{aligned}
\mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\boldsymbol{c}^{\prime}\mathbb{V}[\hat{\boldsymbol{\beta}}]\boldsymbol{c}\\
&=\boldsymbol{c}^{\prime}(\sigma^2(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1})\boldsymbol{c}\\
&=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{a}
\end{aligned}

を得る。一方で


\begin{aligned}
\mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]=\boldsymbol{a}^{\prime}\mathbb{V}[\boldsymbol{Y}]\boldsymbol{a}=\boldsymbol{a}^{\prime}(\sigma^2 I)\boldsymbol{a}=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{a}
\end{aligned}

である。したがって


\begin{aligned}
\mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]-\mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]&=\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{a}-\sigma^2\boldsymbol{a}^{\prime}\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{a}\\
&=\sigma^2\boldsymbol{a}^{\prime}\left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)\boldsymbol{a}
\end{aligned}

を得る。ここで


\begin{aligned}
\left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)^2=I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}
\end{aligned}


であるから、既に示したとおり、I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}固有値\lambdaとするとき、\left(I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\right)^2固有値\lambda^2と表されるから、\lambda=0または\lambda=1である。したがって固有値と正定値性に関する定理から、I-\boldsymbol{X}(\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}は非負定値性を持ち、


\begin{aligned}
\mathbb{V}[\boldsymbol{a}^{\prime}\boldsymbol{Y}]-\mathbb{V}[\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}]\geq0
\end{aligned}

が成り立つ。したがって\boldsymbol{c}^{\prime}\hat{\boldsymbol{\beta}}はすべての\boldsymbol{c}^{\prime}\boldsymbol{\beta}の不偏推定量の中でももっとも分散が小さい。

プライバシーポリシー お問い合わせ