「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

統計的機械学習の数理100問(04/20)

 いい加減時代の潮流に乗ろうということで機械学習を学びたいと思う。またRはともかくとしてPythonは未経験であるため、丁度良い書籍として

を用いることにする。

1. 線形回帰

1.5 \hat{\boldsymbol{\beta}}の分布

 目的変数\boldsymbol{y}\in\mathbb{R^{n}}



\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}
\end{aligned}

と書けるものとし、確率変動\boldsymbol{\varepsilon}のみがもたらすと仮定する。
 確率変動



\begin{aligned}
\boldsymbol{\varepsilon}=\begin{bmatrix}
\varepsilon_{1}\\
\varepsilon_{2}\\
\vdots\\
\varepsilon_{n}
\end{bmatrix}
\end{aligned}


の各成分が\varepsilon_{1},\varepsilon_{2},\cdots,\varepsilon_{n}\sim N(0,\sigma^2),\ i.i.d.を満たすものと仮定する。すなわち



\begin{aligned}
f_i(\varepsilon_i)=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}}\exp\left(-\displaystyle{\frac{{\varepsilon_i}^2}{2\sigma^2}}\right)
\end{aligned}


が成り立つ。更に



\begin{aligned}
f(\boldsymbol{\varepsilon})=\displaystyle{\prod_{i=1}^{n}f_i(\varepsilon_i)}=\displaystyle{\frac{1}{(2\pi\sigma^2)^{\frac{n}{2}}}\exp\left(-\displaystyle{\frac{{}^{t}\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}}{2\sigma^2}}\right)}
\end{aligned}


が成り立つ。これを\boldsymbol{\varepsilon}\sim N_{n}(\boldsymbol{0},\sigma^2 I)と書くことができる。
 このとき、一般に以下が成立する。


正規分布の独立性と共分散
X_i\sim N(\mu_i,{\sigma_i}^2),\ i.i.d.,\ i=1,2 \Longleftrightarrow \textrm{Cov}[X_1,X_2]=0
\because X,Y\sim N(0,\sigma^2),\ i.i.d.と仮定する。このとき

\begin{aligned}
&\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])(x_2-E[X_2])f_{X_1}(x_1)f_{X_2}(x_2)dx_1dx_2}\\
=&\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])(x_2-E[X_2])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_1}^2}}\exp\left\{-\frac{\left(x_1-\mu_1\right)^2}{2{\sigma_1}^2}\right\}}\\
\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_2}^2}}\exp\left\{-\frac{\left(x_2-\mu_2\right)^2}{2{\sigma_2}^2}\right\}}dx_1dx_2}\\
=&\left(\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_1}^2}}\exp\left\{-\frac{\left(x_1-\mu_1\right)^2}{2{\sigma_1}^2}\right\}}}dx_1\right)\\
&\left(\displaystyle{\int_{-\infty}^{\infty}(x_2-E[X_2])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_2}^2}}\exp\left\{-\frac{\left(x_2-\mu_1\right)^2}{2{\sigma_2}^2}\right\}}}dx_2\right)\\
=&0
\end{aligned}

である。
 また共分散が0だと仮定すると、それらの相関係数\rho=0である。
 これらの同時確率密度関数f_{X_1X_2}(x_1,x_2)


\begin{aligned}
f_{X_1X_2}(x_1,x_2)&=\displaystyle{\frac{1}{2\pi\sigma_{1}\sigma_{2}}\exp\left\{-\displaystyle{-\frac{1}{2(1-\rho)^2}}\left[\left(\frac{x_1-\mu_1}{\sigma_1}\right)-2\rho\left(\frac{x_1-\mu_1}{\sigma_1}\right)\left(\frac{x_2-\mu_2}{\sigma_2}\right)+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2\right]\right\}}\\
&=f_{X_1}(x_1)f_{X_2}(x_2)
\end{aligned}
であるから、これらは独立である。 \blacksquare

1.5.1 \hat{\boldsymbol{\beta}}の分布

 このとき


\begin{aligned}
\hat{\beta}=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{Y}
\end{aligned}

に代入すると


\begin{aligned}
\hat{\beta}=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\left(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}\right)=\boldsymbol{\beta}+\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}
\end{aligned}

が成り立つ。
 E[\boldsymbol{\varepsilon}]=\boldsymbol{0}であるから


\begin{aligned}
E[\hat{\boldsymbol{\beta}}]=\boldsymbol{\beta}
\end{aligned}

が成立する。
 また\hat{\boldsymbol{\beta}}の分散共分散行列\Sigma


\begin{aligned}
\Sigma&=\boldsymbol{E}
\begin{bmatrix}
(\hat{\beta}_0-\beta_0)^2                                &(\hat{\beta}_0-\beta_0)(\hat{\beta}_1-\beta_1)&\cdots&(\hat{\beta}_0-\beta_0)(\hat{\beta}_p-\beta_p)\\
(\hat{\beta}_1-\beta_1)(\hat{\beta}_0-\beta_0)&(\hat{\beta}_1-\beta_1)^2                                &\cdots&(\hat{\beta}_1-\beta_1)(\hat{\beta}_p-\beta_p)\\
\vdots                                                               &\vdots                                                               &\ddots&\vdots\\
(\hat{\beta}_p-\beta_p)(\hat{\beta}_0-\beta_0)&(\hat{\beta}_p-\beta_p)(\hat{\beta}_1-\beta_1)&\cdots&(\hat{\beta}_p-\beta_p)^2
\end{bmatrix}\\
&=\boldsymbol{E}
\begin{bmatrix}
\hat{\beta}_0-\beta_0\\
\hat{\beta}_1-\beta_1\\
\vdots\\
\hat{\beta}_p-\beta_p
\end{bmatrix}\left[\hat{\beta}_0-\beta_0,\hat{\beta}_1-\beta_1,\cdots,\hat{\beta}_p-\beta_p\right]\\
&=\boldsymbol{E}\left[(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}){}^{t}\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})\right]\\
&=\boldsymbol{E}\left[\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}{}^{t}\ \ \left(\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}\right)\right]\\
&=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}
{}^{t}\boldsymbol{X}\boldsymbol{E}\left[\boldsymbol{\varepsilon}{}^{t}\boldsymbol{\varepsilon}\right]
\boldsymbol{X}\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}\\
&=\sigma^2\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}
\end{aligned}

すなわち


\begin{aligned}
\hat{\boldsymbol{\beta}}\sim N_p\left(\boldsymbol{\beta},\sigma^2\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}\right)
\end{aligned}

である。

プライバシーポリシー お問い合わせ