「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(08/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

3. 代表的な一次元確率分布

 有名な1次元確率分布を紹介する。代表値の値や特徴的な性質についても同様に述べることとする。全体に共通して利用できる公式を導出しておく。すなわち



\begin{aligned}
V[X]=E[X^2]-\{E[X]\}^2
\end{aligned}


が成り立つ。
(\because 確率変数Xに対して
(離散の場合)


\begin{aligned}
V[X]&:=E[(X-E[X])^2]\\
      &=\displaystyle{\sum_{k=1}^{n}(x_k-E[X])^2 p(k)}\\
      &=\displaystyle{\sum_{k=1}^{n}x_k^2\cdot p(k) -2E[X] \sum_{k=1}^{n}\{x_k\cdot p(k)\}+\{E[X]\}^2 \sum_{k=1}^{n}p(k)}\\
      &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\
      &=E[X^2]-\{E[X]\}^2
\end{aligned}


(連続の場合)


\begin{aligned}
V[X]&:=E[(X-E[X])^2]\\
      &=\displaystyle{\int_{-\infty}^{\infty}(x-E[X])^2 f(x)}dx\\
      &=\displaystyle{\int_{-\infty}^{\infty}x^2 f(x)dx}-2E[X]\displaystyle{\int_{-\infty}^{\infty}xf(x)}dx+{E[X]}^2\displaystyle{\int_{-\infty}^{\infty}f(x)}dx\\
      &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\
      &=E[X^2]-\{E[X]\}^2\ \ \ \ \blacksquare
\end{aligned}

3.2 連続型確率分布

 連続な確率変数Xの従う分布について各種統計量を導出する

3.2.1 一様分布

 確率変数X確率密度関数



\begin{aligned}
f(x)=(b-a)^{-1}\chi_{(a,b)}(x),a,b\in\mathbb{R},a\lt b
\end{aligned}


と書けるとき確率変数Xは一様分布U(a,b)に従うという。

  • 密度関数の確認


\begin{aligned}
\displaystyle{\int_{-\infty}^{\infty}f(x)}dx=\displaystyle{\frac{1}{b-a}\int_{a}^{b}}dx=1
\end{aligned}

  • 平均:\displaystyle{\frac{a+b}{2}}


\begin{aligned}
E[X]&=\displaystyle{\int_{-\infty}^{\infty}x\cdot\frac{1}{b-a}\chi_{(a,b)}(x)}dx\\
&=\displaystyle{\frac{1}{b-a}\int_{a}^{b}x}dx\\
&=\displaystyle{\frac{1}{b-a}\left[\displaystyle{\frac{1}{2}x^2}\right]_a^b}\\
&=\displaystyle{\frac{1}{2}(a+b)}
\end{aligned}

  • 分散:\displaystyle{\frac{(b-a)^2}{12}}


\begin{aligned}
V[X]&=\displaystyle{\int_{-\infty}^{\infty}(x-E[X])^2\cdot \frac{1}{b-a} \chi_{(a,b)}(x)}dx\\
&=\displaystyle{\frac{1}{b-a}\int_{a}^{b}\left(x-E[X]\right)^2}dx\\
&=\displaystyle{\frac{1}{b-a}\left\{\displaystyle{\frac{1}{3}}\left(x-E[X]\right)^3\right\}_a^b}\\
&=\displaystyle{\frac{1}{3(b-a)}\left\{\left(b-E[X]\right)^3-\left(a-E[X]\right)^3\right\}}\\
&=\displaystyle{\frac{1}{3(b-a)}\left\{(b-E[X])-(a-E[X])\right\}\left\{\left(b-E[X]\right)^2+(b-E[X])(a-E[X])+\left(a-E[X]\right)^2\right\}}\\
&=\displaystyle{\frac{1}{3(b-a)}(b-a)\left[3\{E[X]\}^2-3E[X](a+b)+a^2+b^2+ab\right]}\\
&=\displaystyle{\frac{1}{3}\left\{-\displaystyle{\frac{3}{4}}(a+b)^2+a^2+b^2+ab\right\}}\\
&=\displaystyle{\frac{1}{12}(b-a)^2}
\end{aligned}


\begin{aligned}
E[e^{tX}]&=\displaystyle{\int_{-\infty}^{\infty}e^{tx}\cdot\frac{1}{b-a} \chi_{(a,b)}(x)}dx\\
&=\displaystyle{\frac{1}{b-a}\int_{a}^{b}e^{tx}}dx\\
&=\displaystyle{\frac{1}{b-a}\left[\displaystyle{\frac{1}{t}}e^{tx}\right]_a^b}\\
&=\displaystyle{\frac{1}{t(b-a)}(e^{tb}-e^{ta})}
\end{aligned}

3.2.2 正規分布

 確率変数X確率密度関数



\begin{aligned}
f(x)=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}}\exp\left\{-\displaystyle{\frac{(x-\mu)^2}{2\sigma^2}}\right\},-\infty\lt\mu\lt\infty,0\lt\sigma\lt\infty
\end{aligned}


と書けるとき確率変数Xは平均\mu、分散\sigma^2正規分布に従うという。
 確率変数YN(\mu,\sigma^2)に従うとき、



\begin{aligned}
X=\displaystyle{\frac{Y-\mu}{\sigma}}
\end{aligned}


とおくと、Xは標準正規分布N(0,1)に従う。実際、このとき



\begin{aligned}
f_Y (y)=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp⁡\left\{-\displaystyle{\frac{(y-\mu)^2}{2\sigma^2}}\right\}}
\end{aligned}


であるが、y=\mu+\sigma xを代入すれば



\begin{aligned}
f_X (x)&=f_Y(\mu+\sigma x)\cdot\displaystyle{\frac{dy}{dx}}\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp⁡\left\{-\displaystyle{\frac{(\mu+\sigma x-\mu)^2}{2\sigma^2}}\right\}\cdot\sigma}\\
&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp⁡\left(-\displaystyle{\frac{1}{2 x^2}}\right)}
\end{aligned}


である。

  • 密度関数の確認


\begin{aligned}
\displaystyle{\int_{-\infty}^{\infty}f(x)}dx=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}}dx
\end{aligned}


が成り立つ。ここでz=\displaystyle{\frac{x-\mu}{\sigma}}とおけば\sigma dz=dxであり



\begin{aligned}
\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\displaystyle{-\frac{(x-\mu)^2}{2\sigma^2}}\right\}}dx=\displaystyle{\sigma\int_{-\infty}^{\infty}\exp\left(-\displaystyle{\frac{z^2}{2}}\right)}dz
\end{aligned}


 I=\displaystyle{\int_{-\infty}^{\infty}\exp⁡\left(-\displaystyle{\frac{z^2}{2}}\right)}dzとおくと


\begin{aligned}
I^2&=\left[\displaystyle{\int_{-\infty}^{\infty}\exp⁡\left(-\displaystyle{\frac{x^2}{2}}\right)}dx\right]\left[\displaystyle{\int_{-\infty}^{\infty}\exp⁡\left(-\displaystyle{\frac{y^2}{2}}\right)}dy\right]\\
&=\displaystyle{\iint_{[-\infty,\infty]^2} \exp\left(-\displaystyle{\frac{x^2+y^2}{2}}\right)}dxdy
\end{aligned}


 x=r\cos\theta ,y=r\sin\thetaとおけば



\begin{aligned}
J&=\displaystyle{\frac{\partial(x,y)}{\partial(r,\theta)}}=\begin{vmatrix}
\displaystyle{\frac{\partial x}{\partial r}}&\displaystyle{\frac{\partial x}{\partial\theta}}\\
\displaystyle{\frac{\partial y}{\partial r}}&\displaystyle{\frac{\partial y}{\partial\theta}}
\end{vmatrix}\\
&=\begin{vmatrix}
\cos\theta&-r\sin\theta\\
\sin\theta&r\cos\theta
\end{vmatrix}=r
\end{aligned}


であるから



\begin{aligned}
I^2=\displaystyle{\int_{0}^{\infty}r\exp⁡\left(\displaystyle{\frac{-r^2}{2}}\right)}dr\displaystyle{\int_{0}^{2\pi}}d\theta=2\pi\left[-\exp⁡\left(\displaystyle{\frac{-r^2}{2}}\right)\right]_{0}^{\infty}=2\pi
\end{aligned}


が成り立つ。したがってI=\sqrt{2\pi}である。



\begin{aligned}
\therefore\ \displaystyle{\int_{-\infty}^{\infty}f(x)}dx=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\sigma\sqrt{2\pi}}=1
\end{aligned}


  • 平均:\mu


\begin{aligned}
E[X]=&\displaystyle{\int_{-\infty}^{\infty}xf(x)}dx=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}x\exp\left\{-\displaystyle{\frac{(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
=&\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}(-\sigma^2)
\left[\displaystyle{\frac{d}{dx}}\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}-\displaystyle{\frac{\mu}{\sigma^2}}\right]\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
=&\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}(-\sigma^2)\displaystyle{\frac{d}{dx}}\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
&+\displaystyle{\frac{\mu}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
=&\displaystyle{-\frac{\sigma^2}{\sqrt{2\pi\sigma^2}}\left[\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}\right]_{-\infty}^{\infty}}+\displaystyle{\frac{\mu}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
=&\displaystyle{\frac{\mu}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx
\end{aligned}


である。ここでz=\displaystyle{\frac{x-\mu}{\sigma}}とおけば\sigma dz=dxであり



\begin{aligned}
\displaystyle{\int_{-\infty}^{\infty}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}}dx=\sigma \displaystyle{\int_{-\infty}^{\infty}\exp\left(\displaystyle{\frac{z^2}{2}}\right)}dz
\end{aligned}


が成り立つ。ここで⁡I=\displaystyle{\int_{-\infty}^{\infty}\exp⁡\left(-\displaystyle{\frac{z^2}{2}}\right)}dzとおくと



\begin{aligned}
I^2&=\left[\displaystyle{\int_{-\infty}^{\infty}\exp\left(-\displaystyle{\frac{x^2}{2}}\right)}dx\right]\left[\displaystyle{\int_{-\infty}^{\infty}\exp\left(-\displaystyle{\frac{y^2}{2}}\right)}dy\right]\\
&=\displaystyle{\int_{-\infty}^{\infty}dx\int_{-\infty}^{\infty}\exp\left(-\displaystyle{\frac{x^2+y^2}{2}}\right)}dx
\end{aligned}


x=r\cos\theta ,y=r\sin\thetaとおけば



\begin{aligned}
J=\begin{vmatrix}\displaystyle{\frac{\partial(x,y)}{\partial(r,\theta)}}\end{vmatrix}=\begin{vmatrix}
\displaystyle{\frac{\partial x}{\partial r}}&\displaystyle{\frac{\partial x}{\partial\theta}}\\
\displaystyle{\frac{\partial y}{\partial r}}&\displaystyle{\frac{\partial y}{\partial\theta}}
\end{vmatrix}=\begin{vmatrix}
\cos\theta&-r\sin\theta\\
\sin\theta&r\cos\theta
\end{vmatrix}=r
\end{aligned}


であるから



\begin{aligned}
I^2&=\displaystyle{\int_{0}^{\infty}r\exp⁡\left(\displaystyle{\frac{-r^2}{2}}\right)dr\int_{0}^{2\pi}d\theta}\\
&=2\pi\left[-\exp⁡\left(\displaystyle{\frac{-r^2}{2}}\right)\right]_{0}^{\infty}=2\pi
\end{aligned}

\begin{aligned}
\therefore\ &I=\sqrt{2\pi}\\
\therefore\ &E[X]=\displaystyle{\frac{\mu}{\sqrt{2\pi\sigma^2}}\sigma\sqrt{2\pi}}=\mu
\end{aligned}

  • 分散:\sigma^2


\begin{aligned}
V[X]&=\displaystyle{\int_{-\infty}^{\infty}(x-E[X])^2 f(x)dx}\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}(x-\mu)^2\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}(-2\sigma^2)\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
&=\displaystyle{\frac{-2\sigma^2}{\sqrt{2\pi\sigma^2}}\cdot\int_{-\infty}^{\infty}\frac{-(x-\mu)^2}{2\sigma^2}\exp\left\{\displaystyle{\frac{-(x-\mu)^2}{2\sigma^2}}\right\}}dx
\end{aligned}


である。積分部分について


\begin{aligned}
\displaystyle{\int_{-\infty}^{\infty}\frac{-(x-\mu)^2}{2\sigma^2}\exp⁡\left\{\frac{-(x-\mu)^2}{2\sigma^2}\right\}}dx&=-\displaystyle{\int_{-\infty}^{\infty}\frac{(x-\mu )^2}{2\sigma^2}\exp\left\{\displaystyle{\frac{(x-\mu )^2}{2\sigma^2}}\right\}}dx\\
&=-\displaystyle{\int_{-\infty}^{\infty}\frac{\sigma^2}{2}\cdot\frac{d^2}{dx^2}\exp\left\{\displaystyle{\frac{(x-\mu)^2}{2\sigma^2}}\right\}}dx\\
&=-\displaystyle{\frac{\sigma^2}{2}\sqrt{\displaystyle{\frac{2\pi}{2\sigma^2}}}}\\
\therefore\ &V[X]=\displaystyle{\frac{-2\sigma^2}{\sqrt{2\pi\sigma^2}}\left(-\frac{\sigma^2}{2}\sqrt{\displaystyle{\frac{2\pi}{2\sigma^2}}}\right)}
\end{aligned}

  • モーメント母関数・キュムラント母関数


\begin{aligned}
g_X(\theta)&=E[e^{\theta X}]\displaystyle{\int_{-\infty}^{\infty}e^{\theta x}f(x)}dx\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left\{\theta x\frac{-(x-\mu)^2}{2\sigma^2}\right\}}dx\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}\exp\left[-\displaystyle{\frac{1}{2\sigma^2}(x-\mu-\sigma^2\theta)^2+\mu\theta+\frac{\sigma^2}{2}\theta^2}\right]}dx\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp⁡\left(\mu\theta+\displaystyle{\frac{\sigma^2}{2}}\theta^2\right)\int_{-\infty}^{\infty}\exp\left[-\displaystyle{\frac{1}{2\sigma^2}}(x-\mu-\sigma^2\theta)^2\right]}dx\\
&=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp⁡\left(\mu\theta+\displaystyle{\frac{\sigma^2}{2}}\theta^2\right)}\sqrt{2\pi\sigma^2}\\
&=\exp\left(\mu\theta+\displaystyle{\frac{\sigma^2}{2}}\theta^2\right)\\
K_X(\theta)&=\log{g_X(\theta)}=\mu\theta+\displaystyle{\frac{\sigma^2}{2}}\theta^2.
\end{aligned}

  • 歪度・尖度:0,3


\begin{aligned}
\sqrt{\beta_1}&:=\displaystyle{\frac{\mu_3}{\mu _2^{\frac{3}{2}}}}=\displaystyle{\frac{\kappa_3}{\kappa_2^{\frac{3}{2}}}},
\beta_2&:=\displaystyle{\frac{\mu_4}{\mu _2^2}}=\displaystyle{\frac{\kappa_4}{(\kappa_2^2}}+3
\end{aligned}


であり、



\begin{aligned}
\kappa_2&=\displaystyle{\frac{d^2}{dx^2}}K_X(\theta)=\sigma^2,\\
\kappa_3&=\displaystyle{\frac{d^3}{dx^3}}K_X(\theta)=0,\\
\kappa_4&=\displaystyle{\frac{d^4}{dx^4}}K_X(\theta)=0
\end{aligned}


より



\begin{aligned}
\sqrt{\beta_1}=0,\beta_2=3
\end{aligned}

  • 再生性:互いに独立なX_i\sim N(\mu_i,\sigma_i^2),i=1,2に対して


\begin{aligned}
a_1 X_1+a_2 X_2\sim N(a_1\mu_1+a_2\mu_2,a_1^2\sigma_1^2+a_2^2 \sigma_2^2)
\end{aligned}


である。実際、X_i\sim N(\mu_i,\sigma_i^2),i.i.d.,i=1,2,a_i\in\mathbb{R}とする。このときこれらの積率母関数はそれぞれ



\begin{aligned}
m_{X_1}(x)&=E[e^{tX_1}]=\exp\left({\mu _1}t+\frac{\sigma_1^2 t^2}{2}\right),\\
m_{X_2}(x)&=E[e^{tX_2}]=\exp\left({\mu _2}t+\frac{\sigma_2^2 t^2}{2}\right)
\end{aligned}


である。したがって



\begin{aligned}
m_{a_1 X_1+a_2 X_2}(z)&=E[e^{t(a_1 X_1+a_2 X_2)}]\\
&=E[e^{t(a_1 X_1)}e^{t(a_2 X_2)}]=E[e^{t(a_1 X_1)}]E[e^{t(a_2 X_2)}]\\
&=\exp\left(a_1\mu_1 t+\frac{a_1^{2}\sigma_1^{2}t^2}{2}\right)\exp\left(a_2\mu_2 t+\frac{{a_2}^2{\sigma_2}^2 t^2}{2}\right)\\
&=\exp\left(t(a_1\mu_1+a_2\mu_2)+\frac{(a_1^2\sigma_1^2+a_2^2\sigma_2^2)t^2}{2}\right)
\end{aligned}


すなわちa_1 X_1+a_2 X_2\sim N(a_1\mu_1+a_2\mu_2,a_1^2 \sigma_1^2+a_2^2 \sigma_2^2)である。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)
プライバシーポリシー お問い合わせ