統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書
を基により高等な線形代数を学ぶ。
3. 固有値と固有ベクトル
3.1 対称行列
統計学における固有値や固有ベクトルに関連する応用の多くは対称行列を扱うものである。対称行列が固有値や固有ベクトルに対して良い性質を持っているからである。
関連する固有値がすべて互いに異なるならば、行列の固有ベクトルの集合は線形独立であった。いまが対称行列ならば、更なる性質を導くことができる。がそれぞれ固有値に対応する固有ベクトルであると仮定する。の対称性から
が成り立つ。であったから、でなければならない。すなわち異なる固有値に対応する固有ベクトルは互いに直交しなければならない。
ここまでの議論はが重複する固有値を持つ場合であっても成り立つ。そのために以下の補題を示す。
を満たすような少なくとも1つが非零であるようなが存在する。一般性を失うことなくとできる。なぜならばそのようにを選ぶことでが保証されるからである。
上式のは行列に関する次多項式であり、を満たすような多項式の解を用いて
と因数分解できる。
とすればである。なぜならば、もしそうでなければが定義に反しては線形従属な集合になる。したがってはこれらから生成される空間に含まれており、
が成り立つ。したがっては固有値に対応するの固有ベクトルである。 )
( においてもし正規直交性を持つ固有ベクトルが得られれば、これらのベクトルそれぞれと直交するような別の正規化された固有ベクトルを求めることができる。実際、ベクトルのそれぞれと直交するような任意のベクトルを選ぶ。このときである。なぜならばもしがに対応する固有値ならばの対称性および過去に示した定理から
が成り立つからである。前述の定理より、あるにおいてベクトルによって生成される空間はの固有ベクトルを含む。そのベクトルをとすればそれもまたと直交するベクトルによって生成されるベクトル空間に含まれるから、と直交していなければならない。したがって
を得る。の任意の固有ベクトルから始め、ここまでの議論を回繰り返せばよい。 )
が正規直交ベクトルであるとき、行列とし、さらにとすると、における固有値および固有ベクトルが満たす方程式は、まとめて
で表すことが可能である。の各列は正規直交ベクトルであるから、は直交行列である。両辺に左からを掛けることで
であり、またこれと同等だが、
を得る。これはのスペクトル分解として知られている。これの一般化として直交行列およびであるようなを用いて
が成り立つ特異値分解が知られている。
例:多重共線が生じている回帰分析
統計学において固有値分析が必要となるのは説明変数に多重共線が生じている場合である。この場合、説明変数のいくつかが目的変数について冗長な情報を与えている。結果としてにおけるの推定量は不正確になると推察される。なぜならばがほぼ正則でないため、の分散共分散行列は
においていくつかの成分が大きな値を有するからである。もし説明変数のうちが別の説明変数のほぼスカラー倍ならば単にモデルからこれらの説明変数のうちの1つを除けばよい。しかし大抵の場合はそれほど単純ではないが、固有値分解をすることで従属性を明らかにすることができる。
説明変数を規格化してを得たとする。はの固有値を降順に含んでいるものとし、はその列に固有値と対応する正規化されたの固有ベクトルを有する直交行列であるとする。すなわち
である。このときの推定は説明変数の正則変換によって影響を受けることは無い。すなわち
というモデルでうまく説明できる。ここでであり、は正則である。主成分回帰と呼ばれるこの手法は、規格化された説明変数と母数ベクトルに関する直交変換
を用いることで多重共線性に関連する問題を扱う。
個の新たな説明変数を主成分という。すなわちの第列に対応する変数は第主成分と呼ばれる。そしてであるからの最小二乗推定量はである。これに対してその分散共分散行列は
と簡略化できる。もしもまたほぼ正則でなく、そのためにもまたほぼ正則でないならば、の中の少なくとも1つは非常に小さくなる一方で、それに対応するの分散は非常に大きくなり得る。説明変数は標準化されているため、は個の観測値から算出された主成分の標本相関行列の倍である。したがってならば、第主成分は観測値にかかわらずほぼ一定であり、そのための推定にはほぼ影響を与えない。
においてならば最後の個の主成分をモデルから除外することで多重共線性に関連する問題を回避できる。すなわちとの最後の列を取り除くことで、が得られるとき、主成分回帰モデルはという主成分回帰モデルを得られる。とすれば
と書き表すことができる。主成分の直交性からはの最初から個の成分は一致する。もともとの規格化モデルにおけるの主成分回帰の推定量を求めるべく推定量を用いることができる。ここでは恒等式
を通した関連していた。最後の個の主成分を除外することでこの恒等式をと置き換える。ここでであり、の次数はである。したがっての主成分回帰の推定量は
である。