本気で学ぶ統計学(15/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
5.　統計量・標本分布とサンプリング
- 5.2　正規分布から導出される統計量
- 5.3　順序統計量と経験分布関数
  - 5.3.1　順序統計量
  - 5.3.2　経験分布関数
次回
参考文献

5.　統計量・標本分布とサンプリング

5.2　正規分布から導出される統計量

　統計量の分布は通常、解析的に導出・計算することは困難である。そこで標本数が無限に大きくなった場合に得られる分布を近似的に用いる。また確率変数が互いに独立かつ同一に正規分布に従うのであれば解析的に導出できる場合もある。本節では $X_i\sim N(\mu,\sigma^2 ),\sigma\gt0,i.i.d.$ として、解析的に導出ができる事例を取り扱っていく。

5.2.1　標本平均

$\begin{aligned} \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i \end{aligned}$

正規分布の再生性から $\bar{X}=N\left(\mu,\displaystyle{\frac{\sigma^2}{n}}\right)$ が成立する。

5.2.2　標本分散

$\begin{aligned} s^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2} \end{aligned}$

　線形変換として $Z_i=\displaystyle{\frac{X_i-\mu}{\sigma}}$ とおくことで一意に変換できることから ${s^{\prime}}^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} Z_i^2}$ について考えることとする。まず $X_i^2$ の従う分布を考えることとし、 $Y_0=X_i^2$ とおくと $x=\sqrt{y},dx=\displaystyle{\frac{1}{2\sqrt{y}}}dy$ である。またヤコビアン $|J|=2$ である。したがって

$\begin{aligned} f_{Y_0}(y)&=f_{X^2}(y)=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{y}{2}}\right)\cdot\displaystyle{\frac{1}{2\sqrt{y}}}|J|}\\ &=\displaystyle{\frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}\exp\left(-\frac{y}{2}\right)} \end{aligned}$

を得る。これは自由度 $1$ のカイ二乗分布の確率密度関数に他ならない。
　次に数学的帰納法により $Y^{\prime}=X_1^2+\cdots +X_(n-1)^2$ が自由度 $n-1$ のカイ二乗分布、 $X_n^2$ が自由度 $1$ のカイ二乗分布に従うときに $Y=Y^{\prime}+X_n^2$ が自由度 $n$ のカイ二乗分布に従うことを示す。まず $n=1$ のときには $X_2^2=Y-X_1^2$ であるから、ヤコビ行列 $J$ は

$\begin{aligned} J=\displaystyle{\frac{\partial(X_1^2,X_2^2)}{\partial(Y,X_2^2)}}=\begin{vmatrix} \displaystyle{\frac{\partial X_1^2}{\partial Y}}&\displaystyle{\frac{\partial X_1^2}{\partial X_2^2}}\\ \displaystyle{\frac{\partial X_2^2}{\partial Y}}&\displaystyle{\frac{\partial X_2^2}{\partial X_2^2}} \end{vmatrix}=\begin{vmatrix}1&0\\1&1\end{vmatrix}=1 \end{aligned}$

である。

$\begin{aligned} \therefore f_Y(y)&=\displaystyle{\int_{-\infty}^{\infty}f_{X_1^2+X_2^2,X_1^2}(z,w)|J|dw}\\ &=\displaystyle{\int_{0}^{\infty}f_{X_1^2,X_2^2}(w,z-w)}dw\\ &=\displaystyle{\int_{0}^{\infty}f_{X_1^2}(w)f_{X_2^2}(z-w)}dw(\because\ X_1^2,X_2^2の独立性)\\ &=\displaystyle{\frac{1}{2\pi}\int_{0}^{\infty}w^{-\frac{1}{2}}\exp\left(-\frac{w}{2}\right)(z-w)^{-\frac{1}{2}}\exp\left(-\frac{z-w}{2}\right)}dw\\ &=\displaystyle{\frac{1}{2\pi}\exp\left(-\displaystyle{\frac{z}{2}}\right) \int_{0}^{\infty}w^{-\frac{1}{2}} (z-w)^{-\frac{1}{2}}}dw\\ &=\displaystyle{\frac{1}{2\pi}\exp\left(-\displaystyle{\frac{z}{2}}\right)B\left(\frac{1}{2},\frac{1}{2}\right)}\\ &=\displaystyle{\frac{1}{2^{\frac{2}{2}}\left\{\Gamma\left(\displaystyle{\frac{1}{2}}\right)\right\}^2}\frac{\Gamma\left(\displaystyle{\frac{1}{2}}\right)\Gamma\left(\displaystyle{\frac{1}{2}}\right)}{\Gamma\left(\displaystyle{\frac{1}{2}}+\displaystyle{\frac{1}{2}}\right)}\exp\left(-\displaystyle{\frac{z}{2}}\right)}\\ &=\displaystyle{\frac{1}{2^{\frac{2}{2}}\Gamma\left(\displaystyle{\frac{1}{2}}+\displaystyle{\frac{1}{2}}\right)}\exp\left(-\displaystyle{\frac{z}{2}}\right)} \end{aligned}$

したがって $n=1$ のときは示された。次に $n=k,k\geq1$ のときに仮定が成立すると仮定する。このとき

$\begin{aligned} f_{X_1^2+\cdots+X_k^2}(z)=\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{k}{2}\right)}z^{\frac{k}{2}-1}\exp\left(-\displaystyle{\frac{z}{2}}\right)} \end{aligned}$

である。畳み込みを用いることで

$\begin{aligned} f_{X_1^2+\cdots+X_k^2+X_{k+1}^2}(z)&=\displaystyle{\int_{0}^{x}\frac{1}{2^{\frac{k}{2}}\Gamma\left(\displaystyle{\frac{k-1}{2}}\right)}z^{\frac{k}{2}-1}\exp\left(-\displaystyle{\frac{z}{2}}\right)\frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}(x-z)^{-\frac{1}{2}}\exp\left(-\frac{x-z}{2}\right)}dx\\ &=\displaystyle{\frac{1}{2^{\frac{k+1}{2}}\Gamma\left(\displaystyle{\frac{k-1}{2}}\right)\sqrt{\pi}}\exp\left(-\frac{x}{2}\right)\int_{0}^{x}z^{\frac{k}{2}-1}(x-z)^{-\frac{1}{2}}}dx \end{aligned}$

を得る。ここで $u=\displaystyle{\frac{t}{x}}$ とおくと $x=\displaystyle{\frac{t}{u}}$ であり $x:0\rightarrow\infty$ のとき $u:\infty\rightarrow0,dx=-\displaystyle{\frac{t}{u^2}}du$ であるから

$\begin{aligned} f_{X_1^2+\cdots+X_k^2+X_{k+1}^2}(z)&=\displaystyle{ \frac{x^{\frac{k-3}{2}-\frac{1}{2}+1}}{2^{\frac{k+1}{2}}\Gamma\left(\frac{k-1}{2}\right)\Gamma\left(\displaystyle{\frac{1}{2}}\right)}\exp\left(-\frac{x}{2}\right)\int_{0}^{1}u^{\frac{k-3}{2}}(1-u)^{-\frac{1}{2}}}dx\\ &=\displaystyle{\frac{1}{2^{\frac{k+1}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k+1}{2}-1}\exp\left(-\frac{x}{2}\right)} \end{aligned}$

である。以上から $n=k+1$ でも成り立つことが示された。　 $\blacksquare$ )

5.2.3　t統計量

$\begin{aligned} T=\displaystyle{\frac{\sqrt{n}(\bar{X}-\mu)}{s}},s^2=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2} \end{aligned}$

　正規分布の平均の検定に用いるものである。これは自由度 $n$ の $t$ 分布に従う。 $X_1,\cdots ,X_n\sim N(\mu,\sigma^2)$ であっても

$\begin{aligned} T=\displaystyle{\frac{\displaystyle{\frac{\bar{X}-\mu}{\displaystyle{\frac{\sigma}{\sqrt{n}}}}}}{\sqrt{\displaystyle{\frac{s^2}{\sigma^2}}}}} \end{aligned}$

として $U=\displaystyle{\frac{\bar{X}-\mu}{\displaystyle{\frac{\sigma}{\sqrt{n}}}}},V=\displaystyle{\frac{(n-1)s^2}{\sigma^2}}$ とすれば自由度 $n-1$ の $t$ 分布に従うことが分かるので
$U=N(0,1)$ として議論する。
　 $U\sim N(0,1),V\sim \chi^2(n)$ でこれらが独立であると仮定する。これらの確率密度関数はそれぞれ

$\begin{aligned} f_U(u)&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{u^2}{2}}\right)},\\ f_V(v)&=\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}v^{\frac{n}{2}-1}\exp\left(-\displaystyle{\frac{v}{2}}\right)} \end{aligned}$

である。独立性を仮定したから、 $U,V$ の同時密度関数はそれらの積

$\begin{aligned} f_{(U,V)}(u,v)=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{u^2}{2}}\right)\displaystyle{\frac{v^{\frac{n}{2}-1}e^{-\frac{v}{2}}}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}} \end{aligned}$

で表される。
　ここで $T=\displaystyle{\frac{U}{\sqrt{\displaystyle{\frac{V}{n}}}}},V=V$ と変数変換すると $U=T\sqrt{\displaystyle{\frac{V}{n}}},V=V$ であるからヤコビ行列 $J$ およびそのヤコビアンは

$\begin{aligned} J&=\displaystyle{\frac{\partial(U,V)}{\partial(T,V)}}=\begin{bmatrix}\sqrt{\displaystyle{\frac{v}{n}}}&\displaystyle{\frac{t}{2\sqrt{n}}}v^{-\frac{1}{2}}\\0&1\end{bmatrix},\\ \left|J\right|&=\sqrt{\displaystyle{\frac{v}{n}}} \end{aligned}$

である。したがって

$\begin{aligned} f_{(T,V)}(t,v)&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{t^2 v}{2n}}\right)\displaystyle{\frac{v^{\frac{n}{2}-1}e^{-\frac{v}{2}}}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\cdot |J|}\\ &=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}} v^{\frac{n+1}{2}-1}\exp\left\{-\displaystyle{\frac{v}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)\right\}} \end{aligned}$

を得る。これを $v$ に関して $0$ から $\infty$ まで積分することで

$\begin{aligned} f_T (t)&=\displaystyle{\int_{0}^{\infty}f_{T,V}(t,v)}dv\\ &=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\int_{0}^{\infty}v^{\frac{n+1}{2}-1}\exp\left\{-\displaystyle{\frac{v}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)\right\}}dv \end{aligned}$

が得られる。ここで $w=\displaystyle{\frac{v}{2}\left(\displaystyle{\frac{t^2}{n}}+1\right)}$ とおくと $v=2w\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}$ であり $dv=2\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}dw$ となるから

$\begin{aligned} f_T(t)&=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\int_{0}^{\infty}\left(\displaystyle{\frac{2w}{\displaystyle{\frac{t^2}{n}}+1}}\right)^{\frac{n+1}{2}-1}e^{-w}\cdot2\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}}dw\\ &=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}} 2^{\frac{n+1}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-\frac{n+1}{2}}\int_{0}^{\infty}w^{\frac{n+1}{2}-1}e^{-w}}dw\\ &=\displaystyle{\frac{1}{\sqrt{n\pi}}\frac{\Gamma\left(\displaystyle{\frac{n+1}{2}}\right)}{\Gamma\left(\displaystyle{\frac{n}{2}}\right)}\left(1+\displaystyle{\frac{t^2}{n}}\right)^{-\frac{n+1}{2}}} \end{aligned}$

が成り立つ。

5.2.4　F統計量

$\begin{aligned} F=\displaystyle{\frac{\displaystyle{\frac{U}{l}}}{\displaystyle{\frac{V}{m}}}} \end{aligned}$

　互いに独立な確率変数 $U\sim \chi^2 (l),V~\chi^2 (m)$ を考える。このとき $F$ 統計量

$\begin{aligned} F=\displaystyle{\frac{\displaystyle{\frac{U}{l}}}{\displaystyle{\frac{V}{m}}}} \end{aligned}$

は自由度 $(l,m)$ の $F$ 分布に従う。
　 $F^{\prime}=\displaystyle{\frac{U}{V}}$ について考えて $F=\displaystyle{\frac{m}{l}}F^{\prime}$ と変数変換することとする。まず

$\begin{aligned} Z:=\displaystyle{\frac{F^{\prime}}{1+F^{\prime}}}=\displaystyle{\frac{U}{U+V}}=\displaystyle{\frac{\displaystyle{\frac{U}{2}}}{\displaystyle{\frac{U}{2}}+\displaystyle{\frac{V}{2}}}} \end{aligned}$

とすると $\displaystyle{\frac{U}{2}}\sim Ga\left(\displaystyle{\frac{l}{2}},1\right),\displaystyle{\frac{V}{2}}\sim Ga\left(\displaystyle{\frac{m}{2}},1\right)$ であるから $Z\sim Be\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)$ であり

$\begin{aligned} f_Z(z)=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}z^{\frac{l}{2}-1}(1-z)^{\frac{m}{2}-1}} \end{aligned}$

である。
　ヤコビアン $|J|=\displaystyle{\frac{dz}{df^{\prime}}}=(1+f^{\prime})^{-2}$ であるから、

$\begin{aligned} f_{F^{\prime}}(f^{\prime})=&\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\left(\displaystyle{\frac{f^{\prime}}{1+f^{\prime}}}\right)^{\frac{l}{2}-1}\left(\displaystyle{1-\frac{f^{\prime}}{1+f^{\prime}}}\right)^{\frac{m}{2}-1}(1+f^{\prime} )^{-2}}\\ &=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}{f^{\prime}}^{\frac{l}{2}-1}\left(\displaystyle{\frac{1}{1+f^{\prime}}}\right)^{\frac{l+m}{2}}} \end{aligned}$

を得る。したがって $F=\displaystyle{\frac{m}{l}F^{\prime}}$ の確率密度関数は

$\begin{aligned} f_{F}(f)&=\left.f_{F^{\prime}}(f^{\prime})\right|_{f^{\prime}=\frac{l}{m}f}\cdot\displaystyle{\frac{l}{m}}=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\left(\displaystyle{\frac{l}{m}}f\right)^{\frac{l}{2}-1}\left(\displaystyle{\frac{1}{1+\frac{l}{m}f}}\right)^{\frac{l+m}{2}}\cdot\displaystyle{\frac{l}{m}}}\\ &=\displaystyle{\frac{l^{\frac{l}{2}}m^{\frac{m}{2}}}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\displaystyle{\frac{f^{\frac{l}{2}-1}}{(m+lf)^{\frac{l+m}{2}}}}} \end{aligned}$

である。

5.3　順序統計量と経験分布関数

　標本の加工方法として、それを算術的に加工するのみならずそれらを並び替えたり頻度に加工したりすることでも標本がもつ母集団に関する情報を得ることができる。またノンパラメトリック・モデルであれば、順序の情報のみ利用することができる。そのための代表的な統計量として順序統計量および経験分布関数を導入する。

5.3.1　順序統計量

　分布 $P_{\theta},\theta\in\Theta$ から得られた無作為標本を $X_1,\cdots,X_n$ とするとき、これらを昇順で並び替えたもの、すなわち

$\begin{aligned} X_{(1)}:=\min\{X_1,\cdots,X_n\},X_{(k)}:=\min\{\{X_1,\cdots ,X_n\}\cap\{X_{(1)},\cdots ,X_{(k-1)}\}\} \end{aligned}$

と新たに定義した $X_{(1)}\leq X_{(2)}\leq \cdots \leq X_{(n)}$ を順序統計量という。

5.3.2　経験分布関数

　分布 $P_\theta,\theta\in\Theta$ から得られた無作為標本を $X_1,\cdots,X_n$ とするとき、特定の実数値 $x$ を与えたときの経験分布関数の値 $F_n(x)$ を以下で定義する：

$\begin{aligned} F_n(x)=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\chi_{(-\infty,x]}(X_i)} \end{aligned}$

なお集合 $E$ およびその部分集合 $A$ に対して $\chi_{A}:E\rightarrow\{0,1\}$ を

$\begin{aligned} \chi_{A}(x):=\begin{cases}1,x\in A\\0,x\notin A\end{cases} \end{aligned}$

と定義し、これを指示関数（単位関数）と呼ぶ*1。これは標本から分布関数を推定するのに用いる。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1: $\boldsymbol{1}_{A}$ と書くこともある。

前回

5. 統計量・標本分布とサンプリング

5.2 正規分布から導出される統計量

5.2.1 標本平均

5.2.2 標本分散

5.2.3 t統計量

5.2.4 F統計量

5.3 順序統計量と経験分布関数

5.3.1 順序統計量

5.3.2 経験分布関数

次回