統計学のための線形代数（021/X） - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

統計学のための線形代数

朝倉書店

Amazon

を基により高等な線形代数を学ぶ。

前回

power-of-awareness.com

前回
4.　行列の因数分解と行列ノルム
- 4.3　QR分解
  - 4.3.1　例：Mahalanobis距離とEuclid距離の関係
  - 4.3.2　例：一般化最小二乗推定量
次回

4.　行列の因数分解と行列ノルム

4.3　QR分解

$\mathrm{QR}$ 分解　 $m\geq n$ であるような $m\times n$ 行列 $A$ について、 $A=QR$ を満たすような、 $n$ 次上三角行列 $R$ および $Q^{\prime}Q=I$ を満たすような $m\times n$ 行列 $Q$ が存在する。

4.3.1　例：Mahalanobis距離とEuclid距離の関係

　 $m$ 次元確率ベクトル $\boldsymbol{x}$ があり、その平均ベクトルを $\boldsymbol{\mu},$ 分散共分散行列を $\Omega$ (正定値行列だとする。)とする。 $\Omega$ の平方根行列を利用して、確率ベクトルを規格化することを考えよう。
　 $\Omega=\Omega^{\frac{1}{2}}\left(\Omega^{\frac{1}{2}}\right)^{\prime}$ を満たすような任意の行列を $\Omega^{\frac{1}{2}}$ とし、 $\Omega^{-\frac{1}{2}}=(\Omega^{\frac{1}{2}})^{-1}$ のとき、 $\boldsymbol{z}=\Omega^{-\frac{1}{2}}(\boldsymbol{x}-\boldsymbol{\mu})$ とおくと、

$\begin{aligned} \mathbb{E}\left[\boldsymbol{z}\right]&=\mathbb{E}\left[\Omega^{\frac{1}{2}}(\boldsymbol{x}-\boldsymbol{\mu})\right]=\Omega^{-\frac{1}{2}}\mathbb{E}\left[(\boldsymbol{x}-\boldsymbol{\mu})\right]\\ &=\Omega^{-\frac{1}{2}}(\boldsymbol{\mu}-\boldsymbol{\mu})=\boldsymbol{0}\\ \mathbb{V}\left[\boldsymbol{z}\right]&=\mathbb{V}\left[\Omega^{\frac{1}{2}}(\boldsymbol{x}-\boldsymbol{\mu})\right]\\ &=\Omega^{\frac{1}{2}}\mathbb{V}\left[(\boldsymbol{x}-\boldsymbol{\mu})\right]\left(\Omega^{\frac{1}{2}}\right)^{\prime}\\ &=\Omega^{\frac{1}{2}}\mathbb{V}\left[\boldsymbol{x}\right]\left(\Omega^{\frac{1}{2}}\right)^{\prime}\\ &=\Omega^{\frac{1}{2}}\Omega\left(\Omega^{\frac{1}{2}}\right)^{\prime}\\ &=I \end{aligned}$

が得られる。 $\boldsymbol{z}$ の分散共分散行列は単位行列であるから、この分布に従う観測値間の距離に関して $\mathrm{Euclid}$ 距離は測度として意味がある。上述した規格化の線形変換を用いることで、 $\boldsymbol{z}$ の観測値間の距離と $\boldsymbol{x}$ の観測値の距離を関連付けることが考えられる。

　たとえば観測値 $\boldsymbol{z}$ とその期待値 $\boldsymbol{0}$ との $\mathrm{Euclid}$ 距離は

$\begin{aligned} d_I(\boldsymbol{z},\boldsymbol{0})&=\sqrt{(\boldsymbol{z}-\boldsymbol{0})^{\prime}(\boldsymbol{z}-\boldsymbol{0})}\\ &=\sqrt{\boldsymbol{z}^{\prime}\boldsymbol{z}}\\ &=\sqrt{(\boldsymbol{x}-\boldsymbol{\mu})^{\prime}(\boldsymbol{\Omega}^{-\frac{1}{2}})^{\prime}\boldsymbol{\Omega}^{-\frac{1}{2}}(\boldsymbol{x}-\boldsymbol{\mu})}\\ &=\sqrt{(\boldsymbol{x}-\boldsymbol{\mu})^{\prime}\boldsymbol{\Omega}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})}\\ &=d_{\boldsymbol{\Omega}}(\boldsymbol{x},\boldsymbol{\mu}) \end{aligned}$

が得られる。 $d_{\boldsymbol{\Omega}}(\cdot,\cdot)$ は $\mathrm{Mahalanobis}$ 距離であり、この式は $\mathrm{Mahalanobis}$ 距離は相関や相違する分散の影響を取り除いた上でそうした変換後の点間の $\mathrm{Euclid}$ 距離を計算していることを主張しているのに他ならない。

4.3.2　例：一般化最小二乗推定量

　重回帰モデル

$\begin{aligned} \boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon} \end{aligned}$

において、 $\mathbb{V}[\boldsymbol{\varepsilon}]=\sigma^2C$ とする。ここで $C$ は一般の $n$ 次正定値行列とする。このようなモデルを一般化最小二乗回帰モデルと呼ぶこともある。
　一般化最小二乗回帰では、誤差項同士が相関を持つ可能性がある。これを変数変換により普通の最小二乗回帰モデルに帰着させる。すなわち変換後のモデルにおける誤差ベクトルが分散共分散行列として $\sigma^2 I$ を持つようにモデルを変換したい。 $TT^{\prime}=C$ を満たし、またこれと同等な $T^{\prime -1}T^{-1}=C^{-1}$ を満たすような行列 $T$ を用いて、

$\begin{aligned} &\boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}\\ \Longleftrightarrow&\boldsymbol{y}_{*}=\boldsymbol{X}_{*}\boldsymbol{\beta}+\boldsymbol{\varepsilon}_{*},\\ &\boldsymbol{y}_{*}=T^{-1}\boldsymbol{y},\boldsymbol{X}_{*}=T^{-1}\boldsymbol{X},\\ &\boldsymbol{\varepsilon}_{*}=T^{-1}\boldsymbol{\varepsilon} \end{aligned}$

とする。このとき

$\begin{aligned} \mathbb{E}[\boldsymbol{\varepsilon}_{*}]&=T^{-1}\mathbb{E}[\boldsymbol{\varepsilon}]=\boldsymbol{0},\\ \mathbb{V}[\boldsymbol{\varepsilon}_{*}]&=\mathbb{V}[T^{-1}\boldsymbol{\varepsilon}]=T^{-1}\mathbb{V}[\boldsymbol{\varepsilon}]T^{\prime -1}\\ &=T^{-1}(\sigma^2 C)T^{\prime -1}\\ &=\sigma^2T^{-1}TT^{\prime}T^{\prime -1}\\ &=\sigma^2 I \end{aligned}$

で与えられる。
　以上からモデル $\boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}$ における $\boldsymbol{\beta}$ の一般化最小二乗推定量 $\hat{\boldsymbol{\beta}}_{*}$ はモデル $\boldsymbol{y}_{*}=\boldsymbol{X}_{*}\boldsymbol{\beta}+\boldsymbol{\varepsilon}_{*}$ における $\boldsymbol{\beta}$ の通常の意味での最小二乗推定量で与えられ、具体的には

$\begin{aligned} \hat{\boldsymbol{\beta}}_{*}&=(\boldsymbol{X}_{*}^{\prime}\boldsymbol{X}_{*})^{-1}\boldsymbol{X}_{*}^{\prime}\boldsymbol{y}_{*}\\ &=(\boldsymbol{X}^{\prime}\boldsymbol{T}^{\prime -1}\boldsymbol{X}^{\prime}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{T}^{\prime -1}\boldsymbol{T}^{\prime}\boldsymbol{y}\\ &=(\boldsymbol{X}^{\prime}\boldsymbol{C}^{-1}\boldsymbol{X})^{-1}\boldsymbol{X}^{\prime}\boldsymbol{C}^{-1}\boldsymbol{y} \end{aligned}$

で得られる。

次回

power-of-awareness.com

前回

4. 行列の因数分解と行列ノルム

4.3 QR分解

4.3.1 例：Mahalanobis距離とEuclid距離の関係

4.3.2 例：一般化最小二乗推定量

次回

4.　行列の因数分解と行列ノルム

4.3　QR分解

4.3.1　例：Mahalanobis距離とEuclid距離の関係

4.3.2　例：一般化最小二乗推定量