本気で学ぶ統計学(07/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
3.　代表的な一次元確率分布
- 3.1　離散型確率分布
次回
参考文献

3.　代表的な一次元確率分布

　有名な1次元確率分布を紹介する。代表値の値や特徴的な性質についても同様に述べることとする。

図1：確率分布曼荼羅

出典：William & Mary University*1

　全体に共通して利用できる公式を導出しておく。すなわち

$\begin{aligned} V[X]=E[X^2]-\{E[X]\}^2 \end{aligned}$

が成り立つ。
( $\because$ 　確率変数 $X$ に対して
（離散の場合）

$\begin{aligned} V[X]&:=E[(X-E[X])^2]\\ &=\displaystyle{\sum_{k=1}^{n}(x_k-E[X])^2 p(k)}\\ &=\displaystyle{\sum_{k=1}^{n}x_k^2\cdot p(k) -2E[X] \sum_{k=1}^{n}\{x_k\cdot p(k)\}+\{E[X]\}^2 \sum_{k=1}^{n}p(k)}\\ &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\ &=E[X^2]-\{E[X]\}^2 \end{aligned}$

（連続の場合）

$\begin{aligned} V[X]&:=E[(X-E[X])^2]\\ &=\displaystyle{\int_{-\infty}^{\infty}(x-E[X])^2 f(x)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}x^2 f(x)dx}-2E[X]\displaystyle{\int_{-\infty}^{\infty}xf(x)}dx+{E[X]}^2\displaystyle{\int_{-\infty}^{\infty}f(x)}dx\\ &=E[X^2]-2E[X]\cdot E[X]+\{E[X]\}^2\\ &=E[X^2]-\{E[X]\}^2\ \ \ \ \blacksquare \end{aligned}$

3.1　離散型確率分布

　まずは離散の場合について述べる。

3.1.1　一様分布

　有限個（ $n$ 個）の異なる値 $x_1,\cdots,x_n$ をそれぞれ等確率で取る確率変数 $X$ の確率関数が

$\begin{aligned} f(x)=\displaystyle{\frac{1}{n}} \end{aligned}$

と書けるとき確率変数 $X$ は一様分布 $U(x_1,\cdots ,x_n)$ に従うという。

確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{i=1}^{n}f(x)}=\displaystyle{\sum_{i=1}^{n}\frac{1}{n}}=n\cdot\displaystyle{\frac{1}{n}}=1 \end{aligned}$

平均： $\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}$

$\begin{aligned} E[X]&=\displaystyle{\sum_{i=1}^{n}x_i f(x_i)}\\ &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i} \end{aligned}$

分散： $\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}\right)^2}$

$\begin{aligned} V[X]&=\displaystyle{\sum_{i=1}^{n}(x_i-E[X])^2 f(x_i)}\\ &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}\right)^2} \end{aligned}$

3.1.2　二項分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(k)={}_{n}C_{k}p^{k}(1-p)^{n-k} \end{aligned}$

と書けるとき確率変数 $X$ は二項分布 $Bi(n,p)$ に従うという*2。 $n=1$ のときを特にベルヌーイ分布という。
　二項分布はそれぞれが独立で成功確率が $p$ であるような試行を $n$ 回繰り返すときに成功回数が $k$ 回となる確率を表現する分布である。

確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{k=0}^{n}f(k)}&=\displaystyle{\sum_{k=0}^{n}{}_{n}C_{k}p^k(1-p)^{n-k}}\\ &=\{p+(1-p)\}^n (\because 二項定理)\\ &=1 \end{aligned}$

平均： $np$

$\begin{aligned} E[X]=\displaystyle{\sum_{k=1}^{n}k f(k)}&=\displaystyle{\sum_{k=1}^{n}k{}_{n}C_{k}p^{k} (1-p)^{n-k}}\\ &=\displaystyle{\sum_{k=1}^{n}\frac{n!}{(n-k)!(k-1)!}p^k (1-p)^{n-k}}\\ &=np\displaystyle{\sum_{k=1}^{n}\frac{(n-1)!}{(n-k)!(k-1)!}p^{k-1}(1-p)^{(n-1)-(k-1)}}\\ &=np\{p+(1-p)\}^{n-1} (\because 二項定理)\\ &=np \end{aligned}$

分散： $np(1-p)$

　 $V[X]=E[X^2]-{E[X]}^2$ に注意すれば、

$\begin{aligned} V[X]=&n^2 p^2+\displaystyle{\sum_{i=1}^{n}k^2 {}_{n}C_k p^k (1-p)^{n-k}}\\ =&n^2 p^2+\displaystyle{\sum_{i=1}^{n}\frac{n!}{(n-k)!(k-1)!}\{(k-1)+1\}p^{k}(1-p)^{n-k}}\\ =&n^2 p^2+n(n-1)p^2\displaystyle{\sum_{i=1}\frac{(n-2)!}{(n-k)!(k-2)!}p^{k-2}(1-p)^{(n-2)-(k-2)}}\\ &+np\displaystyle{\sum_{i=1}^{n}\frac{(n-1)!}{(n-k)!(k-1)!}p^{k-1}(1-p)^{n-k}}\\ =&n^2 p^2+n(n-1)p^2+np(\because 二項定理)\\ =&np\{np+(n-1)p+1\}\\ =&np(1-p) \end{aligned}$

3.1.3　ポアソン分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} P(x=k)=\displaystyle{\frac{e^{-\lambda}\lambda^x}{k!}},x=1,2,\cdots \end{aligned}$

と書けるとき確率変数 $X$ はポアソン分布 $Po(\lambda)$ に従うという。
　二項分布において $np=\lambda$ とおき $\lambda$ を一定としつつ $n\rightarrow\infty$ とする（ $p\rightarrow0$ ）と

$\begin{aligned} {}_{n}C_{k}p^k (1-p)^{n-k}&=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}p^{k}(1-p)^{n-k}}\\ &=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}\left(\displaystyle{\frac{\lambda}{n}}\right)^k\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{n-k}}\\ &=\displaystyle{\frac{n\cdot \cdots \cdot (n-k+1)}{k!}\left(\frac{1}{n}\right)^n \lambda^k \left(1-\displaystyle{\frac{\lambda}{n}}\right)^{n-k}}\\ &=\displaystyle{\frac{1\cdot\left(1-\displaystyle{\frac{1}{n}}\right)\cdot\cdots\cdot\left(1-\displaystyle{\frac{k-1}{n}}\right)}{k!}}\lambda^{k}\left\{\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-\displaystyle{\frac{n}{\lambda}}}\right\}^{-\lambda}\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-k}\\ &=\displaystyle{\frac{\lambda^k}{k!}}1\cdot\left(1-\displaystyle{\frac{1}{n}}\right)\cdot\cdots\cdot\left(1-\displaystyle{\frac{k-1}{n}}\right)\left\{\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-\displaystyle{\frac{n}{\lambda}}}\right\}^{-\lambda}\left(1-\displaystyle{\frac{\lambda}{n}}\right)^{-k}\\ &\rightarrow\displaystyle{\frac{\lambda^{k}e^{-\lambda}}{k!}}(n\rightarrow\infty) \end{aligned}$

と導出できる。すなわちポアソン分布は稀にしか起こりえない事象について何回それが生じたのかを観測したときの総生起回数を表す分布であると解釈できる。

確率質量関数の確認

$\begin{aligned} \sum_{k=0}^{\infty}f(k) =e^{-\lambda}\cdot lim┬(n\rightarrow\infty)⁡\sum_{k=0}^{n}\lambda^k/k!=e^{-\lambda}\cdot e^\lambda=1. \end{aligned}$

平均： $\lambda$

$\begin{aligned} E[X]&=\displaystyle{\sum_{k=0}^{\infty}kf(k)}\\ &=\sum_{k=1}^{\infty}k (\lambda^k e^{-\lambda})/k!\\ &=\lambda\displaystyle{\sum_{k=1}^{\infty}\frac{\lambda^{k-1}e^{-\lambda}}{(k-1)!}}\\ &=\lambda\displaystyle{\sum_{k^{\prime}=0}^{\infty}\frac{\lambda^{k^{\prime}}e^{-\lambda}}{k^{\prime}!}}\\ &=\lambda \end{aligned}$

分散： $\lambda$

　 $V[X]=E[X(X-1)]+E[X]-{E[X]}^2$ より

$\begin{aligned} V[X]=\lambda^2+\lambda-\lambda^2=\lambda \end{aligned}$

である。

3.1.4　幾何分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(k)=p(1-p)^{k-1},k\in\{1,2,\cdots\} \end{aligned}$

と書けるとき確率変数 $X$ は幾何分布 $G(p)$ に従うという。幾何分布は定性的には2つの結果しか生じ得ず毎回の試行が独立であるような事象を行うときに一方の結果が $k$ 回目に初めて生じるときの確率である。

確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{k=1}^{\infty}f(k)}&=p\displaystyle{\lim_{n\rightarrow\infty}⁡\sum_{k=1}^{n}(1-p)^{k-1}}\\ &=p\cdot\displaystyle{\lim_{n\rightarrow\infty}⁡\frac{1-(1-p)^{n-1}}{1-(1-p)}}\\ &=1 \end{aligned}$

平均： $\displaystyle{\frac{1}{p}}$

$\begin{aligned} E[X]=p\displaystyle{\sum_{k=1}^{\infty}k\cdot(1-p)^{k-1}} \end{aligned}$

ここで $S_n=\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^{k-1}}$ とおくと

$\begin{aligned} S_n-(1-p)S_n&=\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^{k-1}-\displaystyle{\sum_{k=1}^{n}k\cdot(1-p)^k}}\\ &=\displaystyle{\sum_{k=1}^{n}\{(k+1)-k\}\cdot(1-p)^{k-1}}\\ \therefore\ &S_n=\displaystyle{\frac{1}{p}\sum_{k=1}^{n}(1-p)^{k-1}}\\ \end{aligned}$

$\begin{aligned} \therefore\ E[X]=p\cdot\displaystyle{\frac{1}{p}\lim_{n\rightarrow\infty}⁡\sum_{k=1}^{n}(1-p)^{k-1}}=\displaystyle{\lim_{n\rightarrow\infty}⁡\frac{1-(1-p)^{n-1}}{1-(1-p)}}=\displaystyle{\frac{1}{p}} \end{aligned}$

分散： $\displaystyle{\frac{1-p}{p}}$

$\begin{aligned} V[X]=E[X^2]-{E[X]}^2=p\displaystyle{\sum_{k=2}^{\infty}k^2\cdot(1-p)^{k-1}-\frac{1}{p^2}} \end{aligned}$

が成り立つ。ここで

$\begin{aligned} \displaystyle{\frac{1}{1-x}}=\displaystyle{\sum_{k=0}^{\infty}x^k} \end{aligned}$

の両辺を $x$ で2回微分すると

$\begin{aligned} \displaystyle{\frac{d}{dx}\frac{1}{(1-x)^2}}=\displaystyle{\frac{d}{dx}\sum_{k=1}^{\infty}k\cdot x^k}\Leftrightarrow \displaystyle{\frac{2}{(1-x)^3}}=\displaystyle{\sum_{k=2}^{\infty}k(k-1)\cdot x^(k-2)} \end{aligned}$

を得る。両辺に $x$ を掛けて $x=1-p$ を代入することで

$\begin{aligned} &\displaystyle{\sum_{k=1}^{\infty}k(k-1)(1-p)^{k-1}}=\displaystyle{\sum_{k=1}^{\infty}k^2 (1-p)^{k-1}}-\displaystyle{\sum_{k=1}^{\infty}k(1-p)^{k-1}}=\displaystyle{\frac{2(1-p)}{p^3}}\\ \therefore\ &V[X]=p\displaystyle{\left\{\sum_{k=1}^{\infty}k(1-p)^{k-1}+\frac{2(1-p)}{p^3}\right\}}-\displaystyle{\frac{1}{p^2}}=\displaystyle{\frac{1}{p}}+\displaystyle{\frac{2(1-p)-1}{p^2}}=\displaystyle{\frac{1-p}{p^2}} \end{aligned}$

を得る。

3.1.5　超幾何分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(x)=\displaystyle{\frac{{}_{n}C_{x}{}_{r-n}C_{m-x}}{{}_{r}C_{m}}} ,\max⁡ \{0,n-(N - M)\}\leq m\leq\min\{n,M\} \end{aligned}$

と書けるとき確率変数 $X$ は超幾何分布 $HG(r,n,m)$ に従うという。定性的には2つのもの（性質）が合計 $r$ 個ありそのうち一方が $n$ 個あるとする。このとき $r$ 個から $m$ 個取り出したときにその一方が $x$ 個得られる確率を意味する。

確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{x=0}^{m}f(x)}=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=0}^{m}{}_{n}C_{x}{}_{r-n}C_{m-x}} \end{aligned}$

ここで二項定理から

$\begin{aligned} (1+z)^r&=\displaystyle{\sum_{j=0}^{r}{}_{r}C_{j}\cdot z^j} \cdots\cdots(*)\\ &=(1+z)^{r-n}(1+z)^n\\ &=\left(\displaystyle{\sum_{x=0}^{n}{}_{n}C_{x}\cdot z^x}\right)\left(\displaystyle{\sum_{y=0}^{r-n}{}_{r-n}C_y\cdot z^y}\right)\\ &=\displaystyle{\sum_{x=0}^{n}\sum_{y=0}^{r-n}{}_{n}C_{x}\cdot{}_{r-n}C_{y}\cdot z^{x+y}}\\ &=\displaystyle{\sum_{j=0}^{r}\left\{z^r\cdot\left(\displaystyle{\sum_{x=0}^{j}{}_{n}C_{x}\cdot{}_{r-n}C_{j-x}}\right)\right\}}(j=x+yとした) \cdots\cdots(**) \end{aligned}$

である。(*)の $z^m$ の係数と(**)の $z^m$ の係数とを比較することで

$\begin{aligned} \displaystyle{\sum_{x=0}^{m}{}_{n}C_{x}\cdot {}_{r-n}C_{m-x}}={}_{r}C_{m} \end{aligned}$

$\begin{aligned} \therefore\ \displaystyle{\sum_{x=0}^{m}f(x)}&=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=0}^{m}{}_{n}C_{x}{}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{1}{{}_{r}C_{m}}\cdot{}_{r}C_{m}}=1 \end{aligned}$

平均： $\lambda$

$\begin{aligned} E[X]=\displaystyle{\sum_{x=0}^{m}xf(x)}&=\displaystyle{\sum_{x=0}^{m}x\cdot\frac{{}_{n}C_{x}\cdot{}_{r-n}C_{m-x}}{{}_{r}C_{m}}}\\ &=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=1}^{m}\frac{n!}{(x-1)!(n-x)!}{}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{n}{{}_{r}C_{m}}\sum_{x=1}^{m}{}_{n-1}C_{x-1}\cdot {}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{n}{{}_{r}C_{m}}\sum_{y=0}^{m-1}{}_{n-1}C_{y}\cdot {}_{(r-1)-(n-1)}C_{(m-1)-y}}\\ &=\displaystyle{\frac{n}{{}_{r}C_{m}}\cdot {}_{r-1}C_{m-1}}\\ &=\displaystyle{\frac{n}{\frac{r}{m}\cdot\frac{(r-1)!}{(m-1)!\{(r-1)-(m-1)\}!}}\cdot{}_{r-1}C_{m-1}}\\ &=\displaystyle{\frac{mn}{r}\cdot\frac{{}_{r-1}C_{m-1}}{{}_{r-1}C_{m-1}}}\\ &=\displaystyle{\frac{mn}{r}} \end{aligned}$

分散： $\lambda$

$\begin{aligned} V[X]=E[X^2]-\{E[X]\}^2&=E[X(X-1)]+E[X]-\{E[X]\}^2\\ &=E[X(X-1)]+\displaystyle{\frac{mn}{r}}-\left(\displaystyle{\frac{mn}{r}}\right)^2 \end{aligned}$

である。右辺第1項は

$\begin{aligned} E[X(X-1)]&=\displaystyle{\sum_{x=0}^{m}x(x-1)\cdot\frac{{}_{n}C_{x}\cdot {}_{r-n}C_{m-x}}{{}_{r}C_{m}}}\\ &=\displaystyle{\frac{1}{{}_{r}C_{m}}\sum_{x=2}^{m}\frac{n!}{(x-2)!(n-x)!}{}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{x=2}^{m}\frac{(n-2)!}{(x-2)!\{(n-2)-(x-2)\}!}{}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{x=2}^{m}{}_{n-2}C_{x-2}\cdot {}_{r-n}C_{m-x}}\\ &=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}}\sum_{y=0}^{m-2}{}_{n-2}C_{y}\cdot {}_{r-n}C_{(m-2)-y}}\\ &=\displaystyle{\frac{n(n-1)}{{}_{r}C_{m}\cdot{}_{r-2}C_{m-2}}}\\ &=\displaystyle{\frac{n(n-1)}{\frac{r(r-1)}{m(m-1)}\cdot\frac{(r-2)!}{(m-2)!\{(r-2)-(m-2)\}!}}\cdot{}_{r-2}C_{m-2}}\\ &=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}\frac{{}_{r-2}C_{m-2}}{{}_{r-2}C_{m-2}}}\\ &=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}} \end{aligned}$

である。

$\begin{aligned} \therefore\ V[X]&=\displaystyle{\frac{m(m-1)n(n-1)}{r(r-1)}}+\displaystyle{\frac{mn}{r}}-\left(\displaystyle{\frac{mn}{r}}\right)^2\\ &=\displaystyle{\frac{mn}{r^2 (r-1)}\{r(m-1)(n-1)+r(r-1)-mn(r-1)\}}\\ &=\displaystyle{\frac{mn}{r^2 (r-1)}\{r^2-(m+n)r+mn\}}\\ &=\displaystyle{\frac{mn(r-m)(r-n)}{r^2(r-1)}} \end{aligned}$

3.1.6　負の二項分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(x)={}_{x-1}C_{r-1} p^r (1-p)^{x-r} \end{aligned}$

と書けるとき確率変数 $X$ は負の二項分布 $NB(p,r)$ に従うという。定性的にはこれは確率 $p$ で成功するような試行が $r$ 回成功するまでに $x$ 回試行を行うときの確率を意味する。またそれは $k+r+1$ 回の試行において $r-1$ 回成功したうえで $k+r$ 回目が失敗することを意味するので

$\begin{aligned} f(x)={}_{x+r-1}C_{x}p^r(1-p)^x \end{aligned}$

とも書ける。

確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{x=0}^{\infty}f(x)}&=\displaystyle{\sum_{x=r}^{\infty}{}_{x-1}C_{r-1} p^r (1-p)^{x-r}}\\ &=\displaystyle{\sum_{y=0}^{\infty}{}_{y+r-1}C_{r-1}p^r(1-p)^{y}}\\ &=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^r (1-p)^y} \end{aligned}$

である。これを $S(r)$ とおくと

$\begin{aligned} (1-p)S(r)&=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^r (1-p)^{y+1}}\\ &=\displaystyle{\sum_{y^{\prime}=0}^{\infty}\frac{(y^{\prime}+r-2)!}{(y^{\prime}-1)!(r-1)!}p^r(1-p)^{y^{\prime}}}\\ \end{aligned}$

$\begin{aligned} \therefore\ S(r)-(1-p)S(r)&=pS(r)\\ &=\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-1)!}{y!(r-1)!}p^{r}(1-p)^{y}}-\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{(y-1)!(r-1)!}p^{r}(1-p)^{y}}\\ &=p\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{(y-1)!(r-1)!}p^{r-1}(1-p)^{y}\left(\displaystyle{\frac{y+r-1}{y}}-1\right)}\\ &=p\displaystyle{\sum_{y=0}^{\infty}\frac{(y+r-2)!}{y!(r-2)!}p^{r-1}(1-p)^{y}}\\ &=pS(r-1) \end{aligned}$

である。また

$\begin{aligned} pS(r)&=pS(r-1)=\cdots=pS(1)\\ &=p\displaystyle{\sum_{y=0}^{\infty}\frac{y!}{y!}p^{1}(1-p)^{y}}\\ &=p^2\displaystyle{\sum_{y=0}^{\infty}(1-p)^{y}}\\ &=p^2\cdot\displaystyle{\frac{1}{1-(1-p)}}=p \end{aligned}$

$\begin{aligned} \therefore\ S(r)=\displaystyle{\sum_{x=0}^{\infty}f(x)}=1 \end{aligned}$

平均： $\displaystyle{\frac{r(1-p)}{p}}$

$\begin{aligned} E[X]&=\displaystyle{\sum_{x=r}^{\infty}xf(x)}\\ &=\displaystyle{\sum_{x=r}^{\infty}x\cdot{}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}}\\ &=\displaystyle{\sum_{x=r}^{\infty}x\cdot\frac{(x-1)!}{(r-1)!(x-r)!}p^{r}(1-p)^{x-r}}\\ &=r\displaystyle{\sum_{x=r}^{\infty}\frac{x!}{r!(x-r)!} p^r (1-p)^{x-r}}\\ &=r\displaystyle{\frac{1-p}{p}\sum_{x=r}^{\infty}{}_{x}C_{r}p^{r+1}(1-p)^{x-(r+1)}}\\ &=\displaystyle{\frac{r(1-p)}{p}} \end{aligned}$

分散： $\displaystyle{\frac{r(1-p)}{p}^2}$

$\begin{aligned} V[X]&=E[X^2]-\{E[X]\}^2\\ &=E[X(X-1)]+E[X]-\{E[X]\}^2\\ &=\displaystyle{\sum_{x=0}^{\infty}x(x-1){}_{x+r-1}C_{x}p^{r}(1-p)^{x}}+\displaystyle{\frac{r(1-p)}{p}}-\displaystyle{\frac{r^2(1-p)^2}{p^2}} \end{aligned}$

である。ここで

$\begin{aligned} \displaystyle{\sum_{x=0}^{\infty}x(x-1){}_{x+r-1}C_{x}p^{r}(1-p)^{x}}&=\displaystyle{\sum_{x=0}^{\infty}x(x-1)\cdot\frac{(x+r-1)!}{(r-1)!x!}p^{r}(1-p)^{x}}\\ &=\displaystyle{\sum_{x=2}^{\infty}\frac{(x+r-1)!}{r!(x-2)!}p^{r}(1-p)^{x}}\\ &=\displaystyle{r(r+1)(1-p)^2\frac{1}{p^2}\sum_{x=0}^{\infty}\frac{(x+r+1)!}{(r+1)!x!}p^{r+2}(1-p)^{x}}\\ &=\displaystyle{r(r+1)(1-p)^2\frac{1}{p^2}} \end{aligned}$

が成り立つ。以上から

$\begin{aligned} V[X]&=r(r+1)(1-p)^2\displaystyle{\frac{1}{p^2}}+\displaystyle{\frac{r(1-p)}{p}}-\displaystyle{\frac{r^2(1-p)^2}{p^2}}\\ &=\displaystyle{\frac{r(1-p)}{p}^2\{(r+1)(1-p)+p-r(1-p)}\}\\ &=\displaystyle{\frac{r(1-p)}{{p}^2}} \end{aligned}$

3.1.7　負の超幾何分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(x)=\displaystyle{\frac{{}_{x+r-1}C_{x}{}_{N-r-x}C_{N-M-x}}{{}_{N}C_{M}}} \end{aligned}$

と書けるとき確率変数 $X$ は負の超幾何分布 $NHGeo(N,M,r)$ に従うという。
　負の超幾何分布は総数 $N$ 個のうち $M$ 個が何らかの属性を持つ集団から $x+r-1$ 個取り出したときに属性を持つ個数が $r-1$ 個含まれ、次に属性を持つ要素が取り出される確率を表す。

3.1.8　対数分布

　確率変数 $X$ の確率質量関数が

$\begin{aligned} f(x)=-\displaystyle{\frac{(1-p)^x}{x\log{⁡p}}} \end{aligned}$

と書けるとき確率変数 $X$ は対数分布 $L(p)$ に従うという。

（1）確率質量関数の確認

$\begin{aligned} \displaystyle{\sum_{x=1}^{\infty}f(x)}&=-\displaystyle{\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x\log{p}}}\\ &=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}} \end{aligned}$

である。ここで $-\log{⁡p}$ をMaclaurin展開することで

$\begin{aligned} \ -\log{p}=(1-p)+\displaystyle{\frac{(1-p)^2}{2}}+\displaystyle{\frac{(1-p)^3}{3}}+\cdots=\displaystyle{\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}} \end{aligned}$

であるから、

$\begin{aligned} \therefore\ \displaystyle{\sum_{x=1}^{\infty}f(x)}=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}\frac{(1-p)^{x}}{x}}=1 \end{aligned}$

が得られる。

（2）平均： $-\displaystyle{\frac{1-p}{p\log{⁡p}}}$

$\begin{aligned} E[X]&=\displaystyle{\sum_{x=1}^{\infty}xf(x)}\\ &=-\displaystyle{\frac{1}{\log{⁡p}}\sum_{x=1}^{\infty}(1-p)^{x}}\\ &=-\displaystyle{\frac{1}{\log{p}}(1-p)\frac{1}{1-(1-p)}}\\ &=-\displaystyle{\frac{1-p}{p\log{p}}} \end{aligned}$

（3）分散： $-\displaystyle{\frac{(1-p)(1-p+\log{p})}{(p\log{p})^2}}$

$\begin{aligned} V[X]=E[X^2]-\{E[X]\}^2 \end{aligned}$

に対して、

$\begin{aligned} E[X^2]=\displaystyle{\sum_{x=1}^{\infty}x^2 f(x)}=-\displaystyle{\frac{1}{\log{p}}\sum_{x=1}^{\infty}x(1-p)^{x}}\\ \end{aligned}$

である。 $S_n=\displaystyle{\sum_{x=1}^{n}x(1-p)^{x}}$ とおくと、 $(1-p)S_n=\displaystyle{\sum_{x=1}^{n}x(1-p)^{x+1}}$ であり、したがって

$\begin{aligned} S_n-(1-p)S_n&=pS_n\\ &=\displaystyle{\sum_{x=1}^{n}\{x(1-p)^{x}-x(1-p)^{x+1}}\\ &=-n(1-p)^{n+1}+\displaystyle{\sum_{x=1}^{n}(1-p)^x}\\ &=-n(1-p)^{n+1}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p}}\\ \therefore\ S_n=&\displaystyle{\frac{1}{p}\left\{-n(1-p)^{n+1}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p}}\right\}}\\ &=-\displaystyle{\frac{n(1-p)^{n+1}}{p}}+(1-p)\displaystyle{\frac{1-(1-p)^n}{p^2}}\\ \therefore\ E[X^2]&=-\displaystyle{\frac{1}{\log{p}}\left(\displaystyle{\frac{1-p}{p^2}}\right)}\\ \end{aligned}$

$\begin{aligned} \therefore\ V[X]&=-\displaystyle{\frac{1}{\log{p}}\left(\displaystyle{\frac{1-p}{p^2}}\right)-\left(-\displaystyle{\frac{1-p}{p\log{p}}}\right)^2}\\ &=-\displaystyle{\left(\frac{1-p}{p\log{p}}\right)^2\left(\displaystyle{\frac{\log{p}}{1-p}}+1\right)}\\ &=-\displaystyle{\frac{(1-p)(1-p+\log{p})}{(p\log{p})^2}} \end{aligned}$

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1:Univariate Distribution Relationship Chart参照。

*2: $B(n,p)$ と書くこともある。

前回

3. 代表的な一次元確率分布

3.1 離散型確率分布

3.1.1 一様分布

3.1.2 二項分布

3.1.3 ポアソン分布

3.1.4 幾何分布

3.1.5 超幾何分布

3.1.6 負の二項分布

3.1.7 負の超幾何分布

3.1.8 対数分布

次回

参考文献

3.　代表的な一次元確率分布

3.1　離散型確率分布

3.1.1　一様分布

3.1.2　二項分布

3.1.3　ポアソン分布

3.1.4　幾何分布

3.1.5　超幾何分布

3.1.6　負の二項分布

3.1.7　負の超幾何分布

3.1.8　対数分布