「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。今月(2022年10月)からは多忙につき、日々の投稿数を減らします。

MENU

統計的機械学習の数理100問(04/20)

 いい加減時代の潮流に乗ろうということで機械学習を学びたいと思う。またRはともかくとしてPythonは未経験であるため、丁度良い書籍として

を用いることにする。

1. 線形回帰

1.5 \hat{\boldsymbol{\beta}}の分布

 目的変数\boldsymbol{y}\in\mathbb{R^{n}}



\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}
\end{aligned}

と書けるものとし、確率変動\boldsymbol{\varepsilon}のみがもたらすと仮定する。
 確率変動



\begin{aligned}
\boldsymbol{\varepsilon}=\begin{bmatrix}
\varepsilon_{1}\\
\varepsilon_{2}\\
\vdots\\
\varepsilon_{n}
\end{bmatrix}
\end{aligned}


の各成分が\varepsilon_{1},\varepsilon_{2},\cdots,\varepsilon_{n}\sim N(0,\sigma^2),\ i.i.d.を満たすものと仮定する。すなわち



\begin{aligned}
f_i(\varepsilon_i)=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}}\exp\left(-\displaystyle{\frac{{\varepsilon_i}^2}{2\sigma^2}}\right)
\end{aligned}


が成り立つ。更に



\begin{aligned}
f(\boldsymbol{\varepsilon})=\displaystyle{\prod_{i=1}^{n}f_i(\varepsilon_i)}=\displaystyle{\frac{1}{(2\pi\sigma^2)^{\frac{n}{2}}}\exp\left(-\displaystyle{\frac{{}^{t}\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}}{2\sigma^2}}\right)}
\end{aligned}


が成り立つ。これを\boldsymbol{\varepsilon}\sim N_{n}(\boldsymbol{0},\sigma^2 I)と書くことができる。
 このとき、一般に以下が成立する。


正規分布の独立性と共分散
X_i\sim N(\mu_i,{\sigma_i}^2),\ i.i.d.,\ i=1,2 \Longleftrightarrow \textrm{Cov}[X_1,X_2]=0
\because X,Y\sim N(0,\sigma^2),\ i.i.d.と仮定する。このとき

\begin{aligned}
&\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])(x_2-E[X_2])f_{X_1}(x_1)f_{X_2}(x_2)dx_1dx_2}\\
=&\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])(x_2-E[X_2])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_1}^2}}\exp\left\{-\frac{\left(x_1-\mu_1\right)^2}{2{\sigma_1}^2}\right\}}\\
\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_2}^2}}\exp\left\{-\frac{\left(x_2-\mu_2\right)^2}{2{\sigma_2}^2}\right\}}dx_1dx_2}\\
=&\left(\displaystyle{\int_{-\infty}^{\infty}(x_1-E[X_1])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_1}^2}}\exp\left\{-\frac{\left(x_1-\mu_1\right)^2}{2{\sigma_1}^2}\right\}}}dx_1\right)\\
&\left(\displaystyle{\int_{-\infty}^{\infty}(x_2-E[X_2])\displaystyle{\frac{1}{\sqrt{2\pi{\sigma_2}^2}}\exp\left\{-\frac{\left(x_2-\mu_1\right)^2}{2{\sigma_2}^2}\right\}}}dx_2\right)\\
=&0
\end{aligned}

である。
 また共分散が0だと仮定すると、それらの相関係数\rho=0である。
 これらの同時確率密度関数f_{X_1X_2}(x_1,x_2)


\begin{aligned}
f_{X_1X_2}(x_1,x_2)&=\displaystyle{\frac{1}{2\pi\sigma_{1}\sigma_{2}}\exp\left\{-\displaystyle{-\frac{1}{2(1-\rho)^2}}\left[\left(\frac{x_1-\mu_1}{\sigma_1}\right)-2\rho\left(\frac{x_1-\mu_1}{\sigma_1}\right)\left(\frac{x_2-\mu_2}{\sigma_2}\right)+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2\right]\right\}}\\
&=f_{X_1}(x_1)f_{X_2}(x_2)
\end{aligned}
であるから、これらは独立である。 \blacksquare

1.5.1 \hat{\boldsymbol{\beta}}の分布

 このとき


\begin{aligned}
\hat{\beta}=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{Y}
\end{aligned}

に代入すると


\begin{aligned}
\hat{\beta}=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\left(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}\right)=\boldsymbol{\beta}+\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}
\end{aligned}

が成り立つ。
 E[\boldsymbol{\varepsilon}]=\boldsymbol{0}であるから


\begin{aligned}
E[\hat{\boldsymbol{\beta}}]=\boldsymbol{\beta}
\end{aligned}

が成立する。
 また\hat{\boldsymbol{\beta}}の分散共分散行列\Sigma


\begin{aligned}
\Sigma&=\boldsymbol{E}
\begin{bmatrix}
(\hat{\beta}_0-\beta_0)^2                                &(\hat{\beta}_0-\beta_0)(\hat{\beta}_1-\beta_1)&\cdots&(\hat{\beta}_0-\beta_0)(\hat{\beta}_p-\beta_p)\\
(\hat{\beta}_1-\beta_1)(\hat{\beta}_0-\beta_0)&(\hat{\beta}_1-\beta_1)^2                                &\cdots&(\hat{\beta}_1-\beta_1)(\hat{\beta}_p-\beta_p)\\
\vdots                                                               &\vdots                                                               &\ddots&\vdots\\
(\hat{\beta}_p-\beta_p)(\hat{\beta}_0-\beta_0)&(\hat{\beta}_p-\beta_p)(\hat{\beta}_1-\beta_1)&\cdots&(\hat{\beta}_p-\beta_p)^2
\end{bmatrix}\\
&=\boldsymbol{E}
\begin{bmatrix}
\hat{\beta}_0-\beta_0\\
\hat{\beta}_1-\beta_1\\
\vdots\\
\hat{\beta}_p-\beta_p
\end{bmatrix}\left[\hat{\beta}_0-\beta_0,\hat{\beta}_1-\beta_1,\cdots,\hat{\beta}_p-\beta_p\right]\\
&=\boldsymbol{E}\left[(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}){}^{t}\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})\right]\\
&=\boldsymbol{E}\left[\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}{}^{t}\ \ \left(\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}{}^{t}\boldsymbol{X}\boldsymbol{\varepsilon}\right)\right]\\
&=\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}
{}^{t}\boldsymbol{X}\boldsymbol{E}\left[\boldsymbol{\varepsilon}{}^{t}\boldsymbol{\varepsilon}\right]
\boldsymbol{X}\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}\\
&=\sigma^2\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}
\end{aligned}

すなわち


\begin{aligned}
\hat{\boldsymbol{\beta}}\sim N_p\left(\boldsymbol{\beta},\sigma^2\left({}^{t}\boldsymbol{X}\boldsymbol{X}\right)^{-1}\right)
\end{aligned}

である。

プライバシーポリシー お問い合わせ