「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(07/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

3. 代表的な一次元確率分布

 有名な1次元確率分布を紹介する。代表値の値や特徴的な性質についても同様に述べることとする。


図1:確率分布曼荼羅

出典:William & Mary University*1

 全体に共通して利用できる公式を導出しておく。すなわち



\begin{aligned}
V[X]=E[X^2]-\{E[X]\}^2
\end{aligned}


が成り立つ。
(\because 確率変数Xに対して
(離散の場合)


\begin{aligned}
V[X]&:=E[(X-E[X])^2]\\
      &=\displaystyle{\sum_{k=1}^{n}(x_k-E[X])^2 p(k)}\\
      &=\displaystyle{\sum_{k=1}^{n}x_k^2\cdot p(k) -2E[X] \sum_{k=1}^{n}\{x_k\cdot p(k)\}+\{E[X]\}^2 \sum_{k=1}^{n}p(k)}\\
      &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\
      &=E[X^2]-\{E[X]\}^2
\end{aligned}


(連続の場合)


\begin{aligned}
V[X]&:=E[(X-E[X])^2]\\
      &=\displaystyle{\int_{-\infty}^{\infty}(x-E[X])^2 f(x)}dx\\
      &=\displaystyle{\int_{-\infty}^{\infty}x^2 f(x)dx}-2E[X]\displaystyle{\int_{-\infty}^{\infty}xf(x)}dx+{E[X]}^2\displaystyle{\int_{-\infty}^{\infty}f(x)}dx\\
      &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\
      &=E[X^2]-\{E[X]\}^2\ \ \ \ \blacksquare
\end{aligned}

3.1 離散型確率分布

 まずは離散の場合について述べる。

3.1.1 一様分布

 有限個(n個)の異なる値x_1,\cdots,x_nをそれぞれ等確率で取る確率変数Xの確率関数が



\begin{aligned}
f(x)=\displaystyle{\frac{1}{n}}
\end{aligned}


と書けるとき確率変数Xは一様分布U(x_1,\cdots ,x_n)に従うという。

  • 確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{i=1}^{n}f(x)}=\displaystyle{\sum_{i=1}^{n}\frac{1}{n}}=n\cdot\displaystyle{\frac{1}{n}}=1
\end{aligned}

  • 平均:\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}


\begin{aligned}
E[X]&=\displaystyle{\sum_{i=1}^{n}x_i f(x_i)}\\ 
      &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}
\end{aligned}

  • 分散:\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}\right)^2}


\begin{aligned}
V[X]&=\displaystyle{\sum_{i=1}^{n}(x_i-E[X])^2 f(x_i)}\\ 
         &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}\right)^2}
\end{aligned}

3.1.2 二項分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(k)={}_{n}C_{k}p^{k}(1-p)^{n-k}
\end{aligned}


と書けるとき確率変数Xは二項分布Bi(n,p)に従うという*2n=1のときを特にベルヌーイ分布という。
 二項分布はそれぞれが独立で成功確率がpであるような試行をn回繰り返すときに成功回数がk回となる確率を表現する分布である。

  • 確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{k=0}^{n}f(k)}&=\displaystyle{\sum_{k=0}^{n}{}_{n}C_{k}p^k(1-p)^{n-k}}\\
&=\{p+(1-p)\}^n (\because 二項定理)\\
&=1
\end{aligned}

  • 平均:np


\begin{aligned}
E[X]=\displaystyle{\sum_{k=1}^{n}k f(k)}&=\displaystyle{\sum_{k=1}^{n}k{}_{n}C_{k}p^{k} (1-p)^{n-k}}\\
                                     &=\displaystyle{\sum_{k=1}^{n}\frac{n!}{(n-k)!(k-1)!}p^k (1-p)^{n-k}}\\
                                     &=np\displaystyle{\sum_{k=1}^{n}\frac{(n-1)!}{(n-k)!(k-1)!}p^{k-1}(1-p)^{(n-1)-(k-1)}}\\
                                     &=np\{p+(1-p)\}^{n-1} (\because 二項定理)\\
                                     &=np
\end{aligned}

  • 分散:np(1-p)

 V[X]=E[X^2]-{E[X]}^2に注意すれば、


\begin{aligned}
V[X]=&n^2 p^2+\displaystyle{\sum_{i=1}^{n}k^2 {}_{n}C_k p^k (1-p)^{n-k}}\\
          =&n^2 p^2+\displaystyle{\sum_{i=1}^{n}\frac{n!}{(n-k)!(k-1)!}\{(k-1)+1\}p^{k}(1-p)^{n-k}}\\
          =&n^2 p^2+n(n-1)p^2\displaystyle{\sum_{i=1}\frac{(n-2)!}{(n-k)!(k-2)!}p^{k-2}(1-p)^{(n-2)-(k-2)}}\\
            &+np\displaystyle{\sum_{i=1}^{n}\frac{(n-1)!}{(n-k)!(k-1)!}p^{k-1}(1-p)^{n-k}}\\
          =&n^2 p^2+n(n-1)p^2+np(\because 二項定理)\\
          =&np\{np+(n-1)p+1\}\\
          =&np(1-p)
\end{aligned}

3.1.3 ポアソン分布

 確率変数Xの確率質量関数が



\begin{aligned}
P(x=k)=\displaystyle{\frac{e^{-\lambda}\lambda^x}{k!}},x=1,2,\cdots 
\end{aligned}


と書けるとき確率変数Xポアソン分布Po(\lambda)に従うという。
 二項分布においてnp=\lambdaとおき\lambdaを一定としつつn\rightarrow\inftyとする(p\rightarrow0)と



\begin{aligned}
{}_{n}C_{k}p^k (1-p)^{n-k}&=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}p^{k}(1-p)^{n-k}}\\
&=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}\left(\displaystyle{\frac{\lambda}{n}}\right)^k\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{n-k}}\\
&=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}\left(\frac{1}{n}\right)^n \lambda^k \left(1-\displaystyle{\frac{\lambda}{n}}\right)^{n-k}}\\
&=\displaystyle{\frac{1\cdot\left(1-\displaystyle{\frac{1}{n}}\right)\cdot\cdots\cdot\left(1-\displaystyle{\frac{k-1}{n}}\right)}{k!}}\lambda^{k}\left\{\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-\displaystyle{\frac{n}{\lambda}}}\right\}^{-\lambda}\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-k}\\
&=\displaystyle{\frac{\lambda^k}{k!}}1\cdot\left(1-\displaystyle{\frac{1}{n}}\right)\cdot\cdots\cdot\left(1-\displaystyle{\frac{k-1}{n}}\right)\left\{\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-\displaystyle{\frac{n}{\lambda}}}\right\}^{-\lambda}\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-k}\\
&\rightarrow\displaystyle{\frac{\lambda^{k}e^{-\lambda}}{k!}}(n\rightarrow\infty)
\end{aligned}


と導出できる。すなわちポアソン分布は稀にしか起こりえない事象について何回それが生じたのかを観測したときの総生起回数を表す分布であると解釈できる。

  • 確率質量関数の確認


\begin{aligned}
\sum_{k=0}^{\infty}f(k) =e^{-\lambda}\cdot lim┬(n\rightarrow\infty)⁡\sum_{k=0}^{n}\lambda^k/k!=e^{-\lambda}\cdot e^\lambda=1.
\end{aligned}

  • 平均:\lambda


\begin{aligned}
E[X]&=\displaystyle{\sum_{k=0}^{\infty}kf(k)}\\
&=\sum_{k=1}^{\infty}k (\lambda^k e^{-\lambda})/k!\\
&=\lambda\displaystyle{\sum_{k=1}^{\infty}\frac{\lambda^{k-1}e^{-\lambda}}{(k-1)!}}\\
&=\lambda\displaystyle{\sum_{k^{\prime}=0}^{\infty}\frac{\lambda^{k^{\prime}}e^{-\lambda}}{k^{\prime}!}}\\
&=\lambda
\end{aligned}

  • 分散:\lambda

 V[X]=E[X(X-1)]+E[X]-{E[X]}^2より


\begin{aligned}
V[X]=\lambda^2+\lambda-\lambda^2=\lambda
\end{aligned}
である。

3.1.4 幾何分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(k)=p(1-p)^{k-1},k\in\{1,2,\cdots\}
\end{aligned}


と書けるとき確率変数Xは幾何分布G(p)に従うという。幾何分布は定性的には2つの結果しか生じ得ず毎回の試行が独立であるような事象を行うときに一方の結果がk回目に初めて生じるときの確率である。

  • 確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{k=1}^{\infty}f(k)}&=p\displaystyle{\lim_{n\rightarrow\infty}⁡\sum_{k=1}^{n}(1-p)^{k-1}}\\
&=p\cdot\displaystyle{\lim_{n\rightarrow\infty}⁡\frac{1-(1-p)^{n-1}}{1-(1-p)}}\\
&=1
\end{aligned}

  • 平均:\displaystyle{\frac{1}{p}}


\begin{aligned}
E[X]=p\displaystyle{\sum_{k=1}^{\infty}k\cdot(1-p)^{k-1}} 
\end{aligned}

ここでS_n=\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^{k-1}}とおくと



\begin{aligned}
S_n-(1-p)S_n&=\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^{k-1}-\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^k}}\\ 
&=\displaystyle{\sum_{k=1}^{n}\{(k+1)-k\}\cdot(1-p)^{k-1}}\\
\therefore\ &S_n=\displaystyle{\frac{1}{p}\sum_{k=1}^{n}(1-p)^{k-1}}\\
\end{aligned}

\begin{aligned}
\therefore\ E[X]=p\cdot\displaystyle{\frac{1}{p}\lim_{n\rightarrow\infty}⁡\sum_{k=1}^{n}(1-p)^{k-1}}=\displaystyle{\lim_{n\rightarrow\infty}⁡\frac{1-(1-p)^{n-1}}{1-(1-p)}}=\displaystyle{\frac{1}{p}}
\end{aligned}

  • 分散:\displaystyle{\frac{1-p}{p}}


\begin{aligned}
V[X]=E[X^2]-{E[X]}^2=p\displaystyle{\sum_{k=2}^{\infty}k^2\cdot(1-p)^{k-1}-\frac{1}{p^2}} 
\end{aligned}


が成り立つ。ここで



\begin{aligned}
\displaystyle{\frac{1}{1-x}}=\displaystyle{\sum_{k=0}^{\infty}x^k}
\end{aligned}


の両辺をxで2回微分すると



\begin{aligned}
\displaystyle{\frac{d}{dx}\frac{1}{(1-x)^2}}=\displaystyle{\frac{d}{dx}\sum_{k=1}^{\infty}k\cdot x^k}\Leftrightarrow \displaystyle{\frac{2}{(1-x)^3}}=\displaystyle{\sum_{k=2}^{\infty}k(k-1)\cdot x^(k-2)}
\end{aligned}


を得る。両辺にxを掛けてx=1-pを代入することで



\begin{aligned}
&\displaystyle{\sum_{k=1}^{\infty}k(k-1)(1-p)^{k-1}}=\displaystyle{\sum_{k=1}^{\infty}k^2 (1-p)^{k-1}}-\displaystyle{\sum_{k=1}^{\infty}k(1-p)^{k-1}}=\displaystyle{\frac{2(1-p)}{p^3}}\\
\therefore\ &V[X]=p\displaystyle{\left\{\sum_{k=1}^{\infty}k(1-p)^{k-1}+\frac{2(1-p)}{p^3}\right\}}-\displaystyle{\frac{1}{p^2}}=\displaystyle{\frac{1}{p}}+\displaystyle{\frac{2(1-p)-1}{p^2}}=\displaystyle{\frac{1-p}{p^2}}
\end{aligned}


を得る。

3.1.5 超幾何分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(x)=\displaystyle{\frac{{}_{n}C_{x}{}_{r-n}C_{m-x}}{{}_{r}C_{m}}} ,\max⁡ \{0,n-(N - M)\}\leq m\leq\min\{n,M\}
\end{aligned}


と書けるとき確率変数Xは超幾何分布HG(r,n,m)に従うという。定性的には2つのもの(性質)が合計r個ありそのうち一方がn個あるとする。このときr個からm個取り出したときにその一方がx個得られる確率を意味する。

  • 確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{x=0}^{m}f(x)}=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=0}^{m}{}_{n}C_{x}{}_{r-n}C_{m-x}}
\end{aligned}

ここで二項定理から


\begin{aligned}
(1+z)^r&=\displaystyle{\sum_{j=0}^{r}{}_{r}C_{j}\cdot z^j} \cdots\cdots(*)\\
                  &=(1+z)^{r-n}(1+z)^n\\
                  &=\left(\displaystyle{\sum_{x=0}^{n}{}_{n}C_{x}\cdot z^x}\right)\left(\displaystyle{\sum_{y=0}^{r-n}{}_{r-n}C_y\cdot z^y}\right)\\
                  &=\displaystyle{\sum_{x=0}^{n}\sum_{y=0}^{r-n}{}_{n}C_{x}\cdot{}_{r-n}C_{y}\cdot z^{x+y}}\\
&=\displaystyle{\sum_{j=0}^{r}\left\{z^r\cdot\left(\displaystyle{\sum_{x=0}^{j}{}_{n}C_{x}\cdot{}_{r-n}C_{j-x}}\right)\right\}}(j=x+yとした) \cdots\cdots(**) 
\end{aligned}


である。(*)のz^mの係数と(**)のz^mの係数とを比較することで



\begin{aligned}
\displaystyle{\sum_{x=0}^{m}{}_{n}C_{x}\cdot {}_{r-n}C_{m-x}}={}_{r}C_{m}
\end{aligned}

\begin{aligned}
\therefore\ \displaystyle{\sum_{x=0}^{m}f(x)}&=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=0}^{m}{}_{n}C_{x}{}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{1}{{}_{r}C_{m}}\cdot{}_{r}C_{m}}=1
\end{aligned}

  • 平均:\lambda


\begin{aligned}
E[X]=\displaystyle{\sum_{x=0}^{m}xf(x)}&=\displaystyle{\sum_{x=0}^{m}x\cdot\frac{{}_{n}C_{x}\cdot{}_{r-n}C_{m-x}}{{}_{r}C_{m}}}\\
&=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=1}^{m}\frac{n!}{(x-1)!(n-x)!}{}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{n}{{}_{r}C_{m}}\sum_{x=1}^{m}{}_{n-1}C_{x-1}\cdot {}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{n}{{}_{r}C_{m}}\sum_{y=0}^{m-1}{}_{n-1}C_{y}\cdot {}_{(r-1)-(n-1)}C_{(m-1)-y}}\\
&=\displaystyle{\frac{n}{{}_{r}C_{m}}\cdot {}_{r-1}C_{m-1}}\\
&=\displaystyle{\frac{n}{\frac{r}{m}\cdot\frac{(r-1)!}{(m-1)!\{(r-1)-(m-1)\}!}}\cdot{}_{r-1}C_{m-1}}\\
&=\displaystyle{\frac{mn}{r}\cdot\frac{{}_{r-1}C_{m-1}}{{}_{r-1}C_{m-1}}}\\
&=\displaystyle{\frac{mn}{r}}
\end{aligned}

  • 分散:\lambda


\begin{aligned}
V[X]=E[X^2]-\{E[X]\}^2&=E[X(X-1)]+E[X]-\{E[X]\}^2\\
&=E[X(X-1)]+\displaystyle{\frac{mn}{r}}-\left(\displaystyle{\frac{mn}{r}}\right)^2
\end{aligned}


である。右辺第1項は



\begin{aligned}
E[X(X-1)]&=\displaystyle{\sum_{x=0}^{m}x(x-1)\cdot\frac{{}_{n}C_{x}\cdot {}_{r-n}C_{m-x}}{{}_{r}C_{m}}}\\
&=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=2}^{m}\frac{n!}{(x-2)!(n-x)!}{}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{x=2}^{m}\frac{(n-2)!}{(x-2)!\{(n-2)-(x-2)\}!}{}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{x=2}^{m}{}_{n-2}C_{x-2}\cdot {}_{r-n}C_{m-x}}\\
&=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{y=0}^{m-2}{}_{n-2}C_{y}\cdot {}_{r-n}C_{(m-2)-y}}\\
&=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}\cdot{}_{r-2}C_{m-2}}}\\
&=\displaystyle{\frac{n(n-1)}{\frac{r(r-1)}{m(m-1)}\cdot\frac{(r-2)!}{(m-2)!\{(r-2)-(m-2)\}!}}\cdot{}_{r-2}C_{m-2}}\\
&=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}\frac{{}_{r-2}C_{m-2}}{{}_{r-2}C_{m-2}}}\\
&=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}}
\end{aligned}


である。



\begin{aligned}
\therefore\ V[X]&=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}}+\displaystyle{\frac{mn}{r}}-\left(\displaystyle{\frac{mn}{r}}\right)^2\\
              &=\displaystyle{\frac{mn}{r^2 (r-1)}\{r(m-1)(n-1)+r(r-1)-mn(r-1)\}}\\
              &=\displaystyle{\frac{mn}{r^2 (r-1)}\{r^2-(m+n)r+mn\}}\\
              &=\displaystyle{\frac{mn(r-m)(r-n)}{r^2(r-1)}}
\end{aligned}

3.1.6 負の二項分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(x)={}_{x-1}C_{r-1} p^r (1-p)^{x-r}
\end{aligned}


と書けるとき確率変数Xは負の二項分布NB(p,r)に従うという。定性的にはこれは確率pで成功するような試行がr回成功するまでにx回試行を行うときの確率を意味する。またそれはk+r+1回の試行においてr-1回成功したうえでk+r回目が失敗することを意味するので



\begin{aligned}
f(x)={}_{x+r-1}C_{x}p^r(1-p)^x
\end{aligned}


とも書ける。

  • 確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{x=0}^{\infty}f(x)}&=\displaystyle{\sum_{x=r}^{\infty}{}_{x-1}C_{r-1} p^r (1-p)^{x-r}}\\ 
&=\displaystyle{\sum_{y=0}^{\infty}{}_{y+r-1}C_{r-1}p^r(1-p)^{y}}\\
&=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^r (1-p)^y}
\end{aligned}


である。これをS(r)とおくと



\begin{aligned}
(1-p)S(r)&=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^r (1-p)^{y+1}}\\
&=\displaystyle{\sum_{y^{\prime}=0}^{\infty}\frac{(y^{\prime}+r-2)!}{(y^{\prime}-1)!(r-1)!}p^r(1-p)^{y^{\prime}}}\\
\end{aligned}

\begin{aligned}
\therefore\ S(r)-(1-p)S(r)&=pS(r)\\
&=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^{r}(1-p)^{y}}-\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{(y-1)!(r-1)!}p^{r}(1-p)^{y}}\\
&=p\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{(y-1)!(r-1)!}p^{r-1}(1-p)^{y}\left(\displaystyle{\frac{y+r-1}{y}}-1\right)}\\ 
&=p\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{y!(r-2)!}p^{r-1}(1-p)^{y}}\\
&=pS(r-1)
\end{aligned}


である。また



\begin{aligned}
pS(r)&=pS(r-1)=\cdots=pS(1)\\
&=p\displaystyle{\sum_{y=0}^{\infty}\frac{y!}{y!}p^{1}(1-p)^{y}}\\
&=p^2\displaystyle{\sum_{y=0}^{\infty}(1-p)^{y}}\\
&=p^2\cdot\displaystyle{\frac{1}{1-(1-p)}}=p
\end{aligned}

\begin{aligned}
\therefore\ S(r)=\displaystyle{\sum_{x=0}^{\infty}f(x)}=1
\end{aligned}

  • 平均:\displaystyle{\frac{r(1-p)}{p}}


\begin{aligned}
E[X]&=\displaystyle{\sum_{x=r}^{\infty}xf(x)}\\
&=\displaystyle{\sum_{x=r}^{\infty}x\cdot{}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}}\\ 
&=\displaystyle{\sum_{x=r}^{\infty}x\cdot\frac{(x-1)!}{(r-1)!(x-r)!}p^{r}(1-p)^{x-r}}\\
&=r\displaystyle{\sum_{x=r}^{\infty}\frac{x!}{r!(x-r)!} p^r (1-p)^{x-r}}\\
&=r\displaystyle{\frac{1-p}{p}\sum_{x=r}^{\infty}{}_{x}C_{r}p^{r+1}(1-p)^{x-(r+1)}}\\
&=\displaystyle{\frac{r(1-p)}{p}}
\end{aligned}

  • 分散:\displaystyle{\frac{r(1-p)}{p}^2}


\begin{aligned}
V[X]&=E[X^2]-\{E[X]\}^2\\
&=E[X(X-1)]+E[X]-\{E[X]\}^2\\
&=\displaystyle{\sum_{x=0}^{\infty}x(x-1){}_{x+r-1}C_{x}p^{r}(1-p)^{x}}+\displaystyle{\frac{r(1-p)}{p}}-\displaystyle{\frac{r^2(1-p)^2}{p^2}}
\end{aligned}


である。ここで



\begin{aligned}
\displaystyle{\sum_{x=0}^{\infty}x(x-1){}_{x+r-1}C_{x}p^{r}(1-p)^{x}}&=\displaystyle{\sum_{x=0}^{\infty}x(x-1)\cdot\frac{(x+r-1)!}{(r-1)!x!}p^{r}(1-p)^{x}}\\
&=\displaystyle{\sum_{x=2}^{\infty}\frac{(x+r-1)!}{r!(x-2)!}p^{r}(1-p)^{x}}\\
&=\displaystyle{r(r+1)(1-p)^2\frac{1}{p^2}\sum_{x=0}^{\infty}\frac{(x+r+1)!}{(r+1)!x!}p^{r+2}(1-p)^{x}}\\
&=\displaystyle{r(r+1)(1-p)^2\frac{1}{p^2}}
\end{aligned}


が成り立つ。以上から



\begin{aligned}
V[X]&=r(r+1)(1-p)^2\displaystyle{\frac{1}{p^2}}+\displaystyle{\frac{r(1-p)}{p}}-\displaystyle{\frac{r^2(1-p)^2}{p^2}}\\
&=\displaystyle{\frac{r(1-p)}{p}^2\{(r+1)(1-p)+p-r(1-p)}\}\\
&=\displaystyle{\frac{r(1-p)}{{p}^2}}
\end{aligned}

3.1.7 負の超幾何分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(x)=\displaystyle{\frac{{}_{x+r-1}C_{x}{}_{N-r-x}C_{N-M-x}}{{}_{N}C_{M}}}
\end{aligned}


と書けるとき確率変数Xは負の超幾何分布NHGeo(N,M,r)に従うという。
 負の超幾何分布は総数N個のうちM個が何らかの属性を持つ集団からx+r-1個取り出したときに属性を持つ個数がr-1個含まれ、次に属性を持つ要素が取り出される確率を表す。

3.1.8 対数分布

 確率変数Xの確率質量関数が



\begin{aligned}
f(x)=-\displaystyle{\frac{(1-p)^x}{x\log{⁡p}}}
\end{aligned}


と書けるとき確率変数Xは対数分布L(p)に従うという。

  • (1)確率質量関数の確認


\begin{aligned}
\displaystyle{\sum_{x=1}^{\infty}f(x)}&=-\displaystyle{\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x\log{p}}}\\
&=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}}
\end{aligned}


である。ここで-\log{⁡p}をMaclaurin展開することで



\begin{aligned}
\ -\log{p}=(1-p)+\displaystyle{\frac{(1-p)^2}{2}}+\displaystyle{\frac{(1-p)^3}{3}}+\cdots=\displaystyle{\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}}
\end{aligned}

であるから、



\begin{aligned}
\therefore\ \displaystyle{\sum_{x=1}^{\infty}f(x)}=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}}=1
\end{aligned}

が得られる。

  • (2)平均:-\displaystyle{\frac{1-p}{p\log{⁡p}}}


\begin{aligned}
E[X]&=\displaystyle{\sum_{x=1}^{\infty}xf(x)}\\
&=-\displaystyle{\frac{1}{\log{⁡p}}\sum_{x=1}^{\infty}(1-p)^{x}}\\
&=-\displaystyle{\frac{1}{\log{p}}(1-p)\frac{1}{1-(1-p)}}\\
&=-\displaystyle{\frac{1-p}{p\log{p}}}
\end{aligned}

  • (3)分散:-\displaystyle{\frac{(1-p)(1-p+\log{p})}{(p\log{p})^2}}


\begin{aligned}
V[X]=E[X^2]-\{E[X]\}^2
\end{aligned}

に対して、


\begin{aligned}
E[X^2]=\displaystyle{\sum_{x=1}^{\infty}x^2 f(x)}=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}x(1-p)^{x}}\\
\end{aligned}


である。S_n=\displaystyle{\sum_{x=1}^{n}x(1-p)^{x}}とおくと、(1-p)S_n=\displaystyle{\sum_{x=1}^{n}x(1-p)^{x+1}}であり、したがって



\begin{aligned}
S_n-(1-p)S_n&=pS_n\\
&=\displaystyle{\sum_{x=1}^{n}\{x(1-p)^{x}-x(1-p)^{x+1}}\\
&=-n(1-p)^{n+1}+\displaystyle{\sum_{x=1}^{n}(1-p)^x}\\
&=-n(1-p)^{n+1}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p}}\\
\therefore\ S_n=&\displaystyle{\frac{1}{p}\left\{-n(1-p)^{n+1}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p}}\right\}}\\
&=-\displaystyle{\frac{n(1-p)^{n+1}}{p}}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p^2}}\\
\therefore\ E[X^2]&=-\displaystyle{\frac{1}{\log{p}}\left(\displaystyle{\frac{1-p}{p^2}}\right)}\\
\end{aligned}


\begin{aligned}
\therefore\ V[X]&=-\displaystyle{\frac{1}{\log{p}}\left(\displaystyle{\frac{1-p}{p^2}}\right)-\left(-\displaystyle{\frac{1-p}{p\log{p}}}\right)^2}\\
&=-\displaystyle{\left(\frac{1-p}{p\log{p}}\right)^2\left(\displaystyle{\frac{\log{p}}{1-p}}+1\right)}\\
&=-\displaystyle{\frac{(1-p)(1-p+\log{p})}{(p\log{p})^2}}
\end{aligned}

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)

*1:Univariate Distribution Relationship Chart参照。

*2:B(n,p)と書くこともある。

プライバシーポリシー お問い合わせ