「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計学のための線形代数(014/X)

 統計学に習熟するには線形代数の習得が不可欠である。が、初等的な線形代数ではカバーしきれないような分野も存在する。そこで以下の参考書

を基により高等な線形代数を学ぶ。

3. 固有値固有ベクトル

3.5 非負定値行列


B の尺度におけるA固有値の一般化 m次正方行列A,Bについて、Aは対称行列、Bは正定値行列とする。h=1,\cdots,mに対してB_hは任意のm\times (h-1)行列、C_hは任意のm\times(m-h)行列であり、B_n^{\prime}B_n=I_{h-1},C_h^{\prime}C_h=I_{m-h}を満たすものとする。このとき


\begin{aligned}
\lambda_h(B^{-1}A)&=\displaystyle{\min_{B_h}\max_{B_h^{\prime}\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}}\\
\lambda_h(B^{-1}A)&=\displaystyle{\max_{C_h}\min_{C_h^{\prime}\boldsymbol{x}=\boldsymbol{0}\\\boldsymbol{x}\neq\boldsymbol{0}}\frac{\boldsymbol{x}^{\prime}A\boldsymbol{x}}{\boldsymbol{x}^{\prime}B\boldsymbol{x}}}
\end{aligned}

が成り立つ。

 この定理は行列A.Bを同時に対角化する方法を示している。前々の定理から、T^{-1}AT^{-1}は対称行列であるから、Q\Lambda Q^{\prime}の形で表現される。ここでQは直交行列であり、\Lambda=\mathrm{diag}(\lambda_1(T^{-1}AT^{-1}),\cdots,\lambda_m(T^{-1}AT^{-1}))である。行列C=Q^{\prime}T^{-1}は正則である。なぜならばQ,T^{-1}は正則であり、かつ


\begin{aligned}
CAC^{\prime}&=Q^{\prime}T^{-1}AT^{-1}Q=Q^{\prime}Q\Lambda Q^{\prime}Q=\Lambda,\\
CBC^{\prime}&=Q^{\prime}T^{-1}TTT^{-1}Q=Q^{\prime}Q=I_m
\end{aligned}

が成り立つからである。同様にG=C^{-1}についてA=G\Lambda G^{\prime},B=GG^{\prime}を得る。


B の尺度におけるA固有値の一般化② m次対称行列Aおよびm次正定値行列Bに対して、Fを最大列階数を持つ任意のm\times h行列とすれば、i=1,\cdots,hに対して


\begin{aligned}
\lambda_i( (F^{\prime}BF)^{-1}(F^{\prime}AF))\leq\lambda_i(B^{-1}A)
\end{aligned}

が成立する。さらに


\begin{aligned}
\displaystyle{\max_F\lambda_i( (F^{\prime}BF)^{-1}(F^{\prime}AF))}=\lambda_i(B^{-1}A)
\end{aligned}

も成り立つ。

(\because 後者は前者を含むため、後者を示す。正則なm次正方行列GB=GG^{\prime},A=G\Lambda G^{\prime}を満たすものとする。ここで\Lambda=\mathrm{diag}(\lambda_1(B^{-1}A),\cdots,\lambda_m(B^{-1}A))である。すると



\begin{aligned}
\displaystyle{\max_F\lambda_i( (F^{\prime}BF)^{-1}(F^{\prime}AF))}
&=\displaystyle{\max_{F}\lambda_i(F^{\prime}GG^{\prime}F)^{-1}(F^{\prime}G\Lambda G^{\prime}F)}\\
&=\displaystyle{\max_{E}\lambda_i( (E^{\prime}E)^{-1}(E^{\prime}\Lambda E))}
\end{aligned}


が成り立つ。Eの階数はhであるから、h次正方行列E^{\prime}Eは正則な対称行列である。このような行列は既に示したようにある正則なh次対称行列Tを用いてE^{\prime}E=TTと表現できる。したがって



\begin{aligned}
\displaystyle{\max_{E}\lambda_i( (E^{\prime}E)^{-1}(E^{\prime}\Lambda E))}&=\displaystyle{\max_{E}\lambda_i( (T^{\prime}T)^{-1}(E^{\prime}\Lambda E))}\\
&=\displaystyle{\max_{E}\lambda_i(T^{-1}E^{\prime}\Lambda ET^{-1})}
\end{aligned}


が成り立つ。したがってH^{\prime}=[I_h\ \ \ 0]と選ぶと、過去に示した定理から



\begin{aligned}
\displaystyle{\max_{E}\lambda_i(T^{-1}E^{\prime}\Lambda ET^{-1})}=\displaystyle{\max_{H}\lambda_i(H^{\prime}\Lambda H)}=\lambda_i(B^{-1}A)
\end{aligned}


を得る。 \blacksquare)

例:多変量1要因分類モデル
 単変量の1要因分類モデルを拡張して多変量1要因分類モデルを導出することを考えよう。k個の異なる母集団から反応yについてi,i=1,2,\cdots,k番目の母集団から標本サイズn_iの独立な標本が得られているとする。
 i番目の標本におけるj\in\{1,2,\cdots,n_i\}番目の観測値を


\begin{aligned}
y_{ij}=\mu_i+\varepsilon_{ij},\mu_i\in\mathbb{R},\varepsilon_{ij}\sim N(0,\sigma^2)
\end{aligned}

で表現する。すなわち反応yの各観測値は母集団にのみ依存する定数\mu_iに誤差\varepsilon_{ij}が乗ったものとして表現できると仮定する。
 分析の目的は各\mu_iがすべて等しいかどうかを決定することである。すなわち仮説検定


\begin{aligned}
H_0:&\mu_1=\mu_2=\cdots=\mu_k,\\
H_1:&{}^{\exists}i,{}^{\exists}j\in\{1,2,\cdots,k\}\ \mathrm{s.t.}\ \mu_i\neq \mu_j
\end{aligned}

を考えることである。
 分散分析では処遇間のバラつき


\begin{aligned}
SST=\displaystyle{\sum_{i=1}^{k}n_i(\bar{y}_i-\bar{y})^2}
\end{aligned}

を処遇内のバラつき


\begin{aligned}
SSE=\displaystyle{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(y_{ij}-\bar{y}_i)^2}
\end{aligned}

に対して比較する。ここで


\begin{aligned}
\bar{y}_i&=\displaystyle{\frac{1}{n_i}\sum_{j=1}^{n_i}y_{ij} },\\
\bar{y}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{k}n_i\bar{y}_i},\\
n&=\displaystyle{\sum_{i=1}^{k}n_i}
\end{aligned}

とおいた。
 帰無仮説H_0は統計量


\begin{aligned}
F=\displaystyle{\frac{\displaystyle{\frac{SST}{k-1}}}{\displaystyle{\frac{SSE}{n-k}}}}
\end{aligned}

が自由度k-1,n-kF分布に従うことで棄却するか否かを判断する。

 いま、各観測対象について異なるm\gt1個の応答変数の値を得るとする。これで\boldsymbol{y}_{ij}\in\mathbb{R}^{m}


\begin{aligned}
\boldsymbol{y}_{ij}=\boldsymbol{\mu}_i+\boldsymbol{\varepsilon}_{ij}
\end{aligned}

というモデルを考える。ここで\boldsymbol{\mu}_{i}\in\mathbb{R}^{m}を定数ベクトルとし\boldsymbol{\varepsilon}_{ij}\sim \mathcal{N}_m(\boldsymbol{0},\Omega)に従うとする。処遇間のバラつきと処遇内のバラつきを表す行列は


\begin{aligned}
B&=\displaystyle{\sum_{i=1}^{k}n_i(\bar{\boldsymbol{y}}_i-\bar{\boldsymbol{y}})(\bar{\boldsymbol{y}}_i-\bar{\boldsymbol{y}})^{\prime}},\\
W&=\displaystyle{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(\boldsymbol{y}_{ij}-\bar{\boldsymbol{y}}_i)(\boldsymbol{y}_{ij}-\bar{\boldsymbol{y}}_i)^{\prime}}
\end{aligned}

で与えられる。このモデルにおいて分析する目的は仮説検定


\begin{aligned}
H_0:&\boldsymbol{\mu}_1=\boldsymbol{\mu}_2=\cdots=\boldsymbol{\mu}_k,\\
H_1:&{}^{\exists}i,{}^{\exists}j\in\{1,2,\cdots,k\}\ \mathrm{s.t.}\ \boldsymbol{\mu}_i\neq\boldsymbol{\mu}_j
\end{aligned}

を考えることである。これを考えるための方法の1つに結び交わり法と呼ばれるものがある。
 この手法における基本的な考え方は帰無仮説H_0および対立仮説H_1を単変量の検定に分解することである。すなわち任意の\boldsymbol{c}\in\mathbb{R}^mに対して帰無仮説


\begin{aligned}
H_0(\boldsymbol{c}):\boldsymbol{c}^{\prime}\boldsymbol{\mu}_1=\cdots=\boldsymbol{c}^{\prime}\boldsymbol{\mu}_k
\end{aligned}

を設定し直す。するとすべての\boldsymbol{c}に関するH_0(\boldsymbol{c})の共通部分は仮説H_0である。加えて対立仮説


\begin{aligned}
H_1(\boldsymbol{c}):{}^{\exists}i,{}^{\exists}j\in\{1,2,\cdots,k\}\ \mathrm{s.t.}\ \boldsymbol{c}^{\prime}\boldsymbol{\mu}_i\neq\boldsymbol{c}^{\prime}\boldsymbol{\mu}_j
\end{aligned}

を設定し直すとすべての\boldsymbol{c}に関するH_1(\boldsymbol{c})の共通部分は仮説H_1である。このため少なくとも1つの\boldsymbol{c}についてH_0(\boldsymbol{c})を棄却するとき、しかもそのときに限って帰無仮説H_0を棄却する。
 いま帰無仮説H_0(\boldsymbol{c})は単変量1要因分類モデルを含んでおり、\boldsymbol{c}^{\prime}\boldsymbol{y}_{ij}は応答変数であるから、F統計量


\begin{aligned}
F(\boldsymbol{c})=\displaystyle{\frac{\displaystyle{\frac{SST(\boldsymbol{c})}{k-1}}}{\displaystyle{\frac{SSE(\boldsymbol{c})}{n-k}}}}
\end{aligned}

が大きい場合にH_0(\boldsymbol{c})を棄却する。少なくとも1つの\boldsymbol{c}についてH_0(\boldsymbol{c})が棄却されるならばH_0も棄却されるため、少なくとも1つの\boldsymbol{c}についてF(\boldsymbol{c})または


\begin{aligned}
\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}F(\boldsymbol{c})}
\end{aligned}

が充分に大きい場合にH_0を棄却する。
 


\begin{aligned}
F(\boldsymbol{c})&=\displaystyle{\frac{\displaystyle{\frac{SST(\boldsymbol{c})}{k-1}}}{\displaystyle{\frac{SSE(\boldsymbol{c})}{n-k}}}}\\
&=\displaystyle{\frac{n-k}{k-1}\frac{SST(\boldsymbol{c})}{SSE(\boldsymbol{c})}}
\end{aligned}


であり、\boldsymbol{c}に注目してF(\boldsymbol{c})を最大化する場合、\displaystyle{\frac{n-k}{k-1}}は関係しないから、



\begin{aligned}
\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}F(\boldsymbol{c})}=\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}\frac{SST(\boldsymbol{c})}{SSE(\boldsymbol{c})}}
\end{aligned}


に等しい。ここでSST(\boldsymbol{c})=\boldsymbol{c}^{\prime}B\boldsymbol{c},SSE(\boldsymbol{c})=\boldsymbol{c}^{\prime}W\boldsymbol{c}であることに注意すれば、



\begin{aligned}
\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}F(\boldsymbol{c})}=\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}\frac{SST(\boldsymbol{c})}{SSE(\boldsymbol{c})}}=\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}\frac{\boldsymbol{c}^{\prime}B\boldsymbol{c}}{\boldsymbol{c}^{\prime}W\boldsymbol{c}}}
\end{aligned}


である。すなわちこの最右辺の式を最大化することに等しいのだが、


\begin{aligned}
\displaystyle{\max_{\boldsymbol{c}\neq\boldsymbol{0}}\frac{\boldsymbol{c}^{\prime}B\boldsymbol{c}}{\boldsymbol{c}^{\prime}W\boldsymbol{c}}}=\lambda_1(W^{-1}B)
\end{aligned}


を得る。したがって最大固有値\lambda_1(W^{-1}B)の分布における100(1-\alpha)%点をu_{1-\alpha}をとおけば、


\begin{aligned}
P\{\lambda_1(W^{-1}B)\leq u_{1-\alpha}|H_0\}=1-\alpha
\end{aligned}

であり、\lambda_1(W^{-1}B)\leq u_{1-\alpha}のときH_0を棄却する。

 結び交わり法の長所として同時信頼区間が自然に得られることがある。任意の平均ベクトル\boldsymbol{\mu}_1,\cdots,\boldsymbol{\mu}_kに対して、


\begin{aligned}
\displaystyle{\frac{\displaystyle{\sum_{i=1}^{k}n_i\boldsymbol{c}^{\prime}\{(\bar{\boldsymbol{y}}_i-\bar{\boldsymbol{y}})-(\boldsymbol{\mu}_i-\boldsymbol{\mu})\}\{(\bar{\boldsymbol{y}}_i-\bar{\boldsymbol{y}})-(\boldsymbol{\mu}_i-\boldsymbol{\mu})\}^{\prime}\boldsymbol{c}}}{\boldsymbol{c}^{\prime}W\boldsymbol{c}}}\leq u_{1-\alpha}
\end{aligned}

がすべての\boldsymbol{c}\in\mathbb{R}^mに対して確率1-\alphaで成立する。ここで



\begin{aligned}
\boldsymbol{\mu}=\displaystyle{\frac{1}{n}\sum_{i=1}^{k}n_i\boldsymbol{\mu}_i}
\end{aligned}


とおいた。ここで\mathrm{Scheff\acute{e}}の方法を適用すると、すべてのm\times1ベクトル\boldsymbol{c}および\boldsymbol{a}^{\prime}\boldsymbol{1}=0を満たすようなすべてのk\times1ベクトル\boldsymbol{a}について不等式


\begin{aligned}
&\displaystyle{\sum_{i=1}^{k}\sum_{j=1}^{m}a_ic_j\bar{y}_{ij}}-\sqrt{u_{1-\alpha}\boldsymbol{c}^{\prime}W\boldsymbol{c}\left(\displaystyle{\sum_{i=1}^{k}\frac{a_i^2}{n_i}}\right)}\\
\leq&\displaystyle{\sum_{i=1}^{k}\sum_{j=1}^{m}a_ic_j\mu_{ij}}\\
\leq&\displaystyle{\sum_{i=1}^{k}\sum_{j=1}^{m}a_ic_j\bar{y}_{ij}}+\sqrt{u_{1-\alpha}\boldsymbol{c}^{\prime}W\boldsymbol{c}\left(\displaystyle{\sum_{i=1}^{k}\frac{a_i^2}{n_i}}\right)}
\end{aligned}

が確率1-\alphaで成り立つ。

プライバシーポリシー お問い合わせ