「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。今月(2022年10月)からは多忙につき、日々の投稿数を減らします。

MENU

本気で学ぶ統計学(15/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

5. 統計量・標本分布とサンプリング

5.2 正規分布から導出される統計量

 統計量の分布は通常、解析的に導出・計算することは困難である。そこで標本数が無限に大きくなった場合に得られる分布を近似的に用いる。また確率変数が互いに独立かつ同一に正規分布に従うのであれば解析的に導出できる場合もある。本節ではX_i\sim N(\mu,\sigma^2 ),\sigma\gt0,i.i.d.として、解析的に導出ができる事例を取り扱っていく。

5.2.1 標本平均


\begin{aligned}
\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i
\end{aligned}


正規分布の再生性から\bar{X}=N\left(\mu,\displaystyle{\frac{\sigma^2}{n}}\right)が成立する。

5.2.2 標本分散


\begin{aligned}
s^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2}
\end{aligned}


 線形変換としてZ_i=\displaystyle{\frac{X_i-\mu}{\sigma}}とおくことで一意に変換できることから{s^{\prime}}^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} Z_i^2}について考えることとする。まずX_i^2の従う分布を考えることとし、Y_0=X_i^2とおくとx=\sqrt{y},dx=\displaystyle{\frac{1}{2\sqrt{y}}}dyである。またヤコビアン|J|=2である。したがって



\begin{aligned}
f_{Y_0}(y)&=f_{X^2}(y)=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{y}{2}}\right)\cdot\displaystyle{\frac{1}{2\sqrt{y}}}|J|}\\
&=\displaystyle{\frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}\exp\left(-\frac{y}{2}\right)}
\end{aligned}


を得る。これは自由度1カイ二乗分布確率密度関数に他ならない。
 次に数学的帰納法によりY^{\prime}=X_1^2+\cdots +X_(n-1)^2が自由度n-1カイ二乗分布X_n^2が自由度1カイ二乗分布に従うときにY=Y^{\prime}+X_n^2が自由度nカイ二乗分布に従うことを示す。まずn=1のときにはX_2^2=Y-X_1^2であるから、ヤコビ行列J



\begin{aligned}
J=\displaystyle{\frac{\partial(X_1^2,X_2^2)}{\partial(Y,X_2^2)}}=\begin{vmatrix}
\displaystyle{\frac{\partial X_1^2}{\partial Y}}&\displaystyle{\frac{\partial X_1^2}{\partial X_2^2}}\\
\displaystyle{\frac{\partial X_2^2}{\partial Y}}&\displaystyle{\frac{\partial X_2^2}{\partial X_2^2}}
\end{vmatrix}=\begin{vmatrix}1&0\\1&1\end{vmatrix}=1
\end{aligned}
である。



\begin{aligned}
\therefore f_Y(y)&=\displaystyle{\int_{-\infty}^{\infty}f_{X_1^2+X_2^2,X_1^2}(z,w)|J|dw}\\
&=\displaystyle{\int_{0}^{\infty}f_{X_1^2,X_2^2}(w,z-w)}dw\\
&=\displaystyle{\int_{0}^{\infty}f_{X_1^2}(w)f_{X_2^2}(z-w)}dw(\because\ X_1^2,X_2^2の独立性)\\
&=\displaystyle{\frac{1}{2\pi}\int_{0}^{\infty}w^{-\frac{1}{2}}\exp\left(-\frac{w}{2}\right)(z-w)^{-\frac{1}{2}}\exp\left(-\frac{z-w}{2}\right)}dw\\
&=\displaystyle{\frac{1}{2\pi}\exp\left(-\displaystyle{\frac{z}{2}}\right) \int_{0}^{\infty}w^{-\frac{1}{2}} (z-w)^{-\frac{1}{2}}}dw\\
&=\displaystyle{\frac{1}{2\pi}\exp\left(-\displaystyle{\frac{z}{2}}\right)B\left(\frac{1}{2},\frac{1}{2}\right)}\\
&=\displaystyle{\frac{1}{2^{\frac{2}{2}}\left\{\Gamma\left(\displaystyle{\frac{1}{2}}\right)\right\}^2}\frac{\Gamma\left(\displaystyle{\frac{1}{2}}\right)\Gamma\left(\displaystyle{\frac{1}{2}}\right)}{\Gamma\left(\displaystyle{\frac{1}{2}}+\displaystyle{\frac{1}{2}}\right)}\exp\left(-\displaystyle{\frac{z}{2}}\right)}\\
&=\displaystyle{\frac{1}{2^{\frac{2}{2}}\Gamma\left(\displaystyle{\frac{1}{2}}+\displaystyle{\frac{1}{2}}\right)}\exp\left(-\displaystyle{\frac{z}{2}}\right)}
\end{aligned}


したがってn=1のときは示された。次にn=k,k\geq1のときに仮定が成立すると仮定する。このとき



\begin{aligned}
f_{X_1^2+\cdots+X_k^2}(z)=\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{k}{2}\right)}z^{\frac{k}{2}-1}\exp\left(-\displaystyle{\frac{z}{2}}\right)}
\end{aligned}


である。畳み込みを用いることで



\begin{aligned}
f_{X_1^2+\cdots+X_k^2+X_{k+1}^2}(z)&=\displaystyle{\int_{0}^{x}\frac{1}{2^{\frac{k}{2}}\Gamma\left(\displaystyle{\frac{k-1}{2}}\right)}z^{\frac{k}{2}-1}\exp\left(-\displaystyle{\frac{z}{2}}\right)\frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}(x-z)^{-\frac{1}{2}}\exp\left(-\frac{x-z}{2}\right)}dx\\
&=\displaystyle{\frac{1}{2^{\frac{k+1}{2}}\Gamma\left(\displaystyle{\frac{k-1}{2}}\right)\sqrt{\pi}}\exp\left(-\frac{x}{2}\right)\int_{0}^{x}z^{\frac{k}{2}-1}(x-z)^{-\frac{1}{2}}}dx
\end{aligned}


を得る。ここでu=\displaystyle{\frac{t}{x}}とおくとx=\displaystyle{\frac{t}{u}}でありx:0\rightarrow\inftyのときu:\infty\rightarrow0,dx=-\displaystyle{\frac{t}{u^2}}duであるから



\begin{aligned}
f_{X_1^2+\cdots+X_k^2+X_{k+1}^2}(z)&=\displaystyle{
\frac{x^{\frac{k-3}{2}-\frac{1}{2}+1}}{2^{\frac{k+1}{2}}\Gamma\left(\frac{k-1}{2}\right)\Gamma\left(\displaystyle{\frac{1}{2}}\right)}\exp\left(-\frac{x}{2}\right)\int_{0}^{1}u^{\frac{k-3}{2}}(1-u)^{-\frac{1}{2}}}dx\\
&=\displaystyle{\frac{1}{2^{\frac{k+1}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k+1}{2}-1}\exp\left(-\frac{x}{2}\right)}
\end{aligned}


である。以上からn=k+1でも成り立つことが示された。 \blacksquare)

5.2.3 t統計量


\begin{aligned}
T=\displaystyle{\frac{\sqrt{n}(\bar{X}-\mu)}{s}},s^2=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}
\end{aligned}


 正規分布の平均の検定に用いるものである。これは自由度nt分布に従う。X_1,\cdots ,X_n\sim N(\mu,\sigma^2)であっても



\begin{aligned}
T=\displaystyle{\frac{\displaystyle{\frac{\bar{X}-\mu}{\displaystyle{\frac{\sigma}{\sqrt{n}}}}}}{\sqrt{\displaystyle{\frac{s^2}{\sigma^2}}}}}
\end{aligned}


としてU=\displaystyle{\frac{\bar{X}-\mu}{\displaystyle{\frac{\sigma}{\sqrt{n}}}}},V=\displaystyle{\frac{(n-1)s^2}{\sigma^2}}とすれば自由度n-1t分布に従うことが分かるので
U=N(0,1)として議論する。
 U\sim N(0,1),V\sim \chi^2(n)でこれらが独立であると仮定する。これらの確率密度関数はそれぞれ



\begin{aligned}
f_U(u)&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{u^2}{2}}\right)},\\
f_V(v)&=\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}v^{\frac{n}{2}-1}\exp\left(-\displaystyle{\frac{v}{2}}\right)}
\end{aligned}


である。独立性を仮定したから、U,Vの同時密度関数はそれらの積



\begin{aligned}
f_{(U,V)}(u,v)=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{u^2}{2}}\right)\displaystyle{\frac{v^{\frac{n}{2}-1}e^{-\frac{v}{2}}}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}}
\end{aligned}


で表される。
 ここでT=\displaystyle{\frac{U}{\sqrt{\displaystyle{\frac{V}{n}}}}},V=Vと変数変換するとU=T\sqrt{\displaystyle{\frac{V}{n}}},V=Vであるからヤコビ行列Jおよびそのヤコビアン



\begin{aligned}
J&=\displaystyle{\frac{\partial(U,V)}{\partial(T,V)}}=\begin{bmatrix}\sqrt{\displaystyle{\frac{v}{n}}}&\displaystyle{\frac{t}{2\sqrt{n}}}v^{-\frac{1}{2}}\\0&1\end{bmatrix},\\
\left|J\right|&=\sqrt{\displaystyle{\frac{v}{n}}}
\end{aligned}


である。したがって



\begin{aligned}
f_{(T,V)}(t,v)&=\displaystyle{\frac{1}{\sqrt{2\pi}}\exp\left(-\displaystyle{\frac{t^2 v}{2n}}\right)\displaystyle{\frac{v^{\frac{n}{2}-1}e^{-\frac{v}{2}}}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\cdot |J|}\\
&=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}} v^{\frac{n+1}{2}-1}\exp\left\{-\displaystyle{\frac{v}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)\right\}}
\end{aligned}


を得る。これをvに関して0から\inftyまで積分することで



\begin{aligned}
f_T (t)&=\displaystyle{\int_{0}^{\infty}f_{T,V}(t,v)}dv\\
&=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\int_{0}^{\infty}v^{\frac{n+1}{2}-1}\exp\left\{-\displaystyle{\frac{v}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)\right\}}dv
\end{aligned}

が得られる。ここでw=\displaystyle{\frac{v}{2}\left(\displaystyle{\frac{t^2}{n}}+1\right)}とおくとv=2w\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}でありdv=2\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}dwとなるから



\begin{aligned}
f_T(t)&=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}}\int_{0}^{\infty}\left(\displaystyle{\frac{2w}{\displaystyle{\frac{t^2}{n}}+1}}\right)^{\frac{n+1}{2}-1}e^{-w}\cdot2\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-1}}dw\\
&=\displaystyle{\frac{1}{\sqrt{2n\pi}}\displaystyle{\frac{1}{2^{\frac{n}{2}}\Gamma\left(\displaystyle{\frac{n}{2}}\right)}} 2^{\frac{n+1}{2}}\left(\displaystyle{\frac{t^2}{n}}+1\right)^{-\frac{n+1}{2}}\int_{0}^{\infty}w^{\frac{n+1}{2}-1}e^{-w}}dw\\
&=\displaystyle{\frac{1}{\sqrt{n\pi}}\frac{\Gamma\left(\displaystyle{\frac{n+1}{2}}\right)}{\Gamma\left(\displaystyle{\frac{n}{2}}\right)}\left(1+\displaystyle{\frac{t^2}{n}}\right)^{-\frac{n+1}{2}}}
\end{aligned}


が成り立つ。

5.2.4 F統計量


\begin{aligned}
F=\displaystyle{\frac{\displaystyle{\frac{U}{l}}}{\displaystyle{\frac{V}{m}}}}
\end{aligned}


 互いに独立な確率変数U\sim \chi^2 (l),V~\chi^2 (m)を考える。このときF統計量



\begin{aligned}
F=\displaystyle{\frac{\displaystyle{\frac{U}{l}}}{\displaystyle{\frac{V}{m}}}}
\end{aligned}


は自由度(l,m)F分布に従う。
 F^{\prime}=\displaystyle{\frac{U}{V}}について考えてF=\displaystyle{\frac{m}{l}}F^{\prime}と変数変換することとする。まず



\begin{aligned}
Z:=\displaystyle{\frac{F^{\prime}}{1+F^{\prime}}}=\displaystyle{\frac{U}{U+V}}=\displaystyle{\frac{\displaystyle{\frac{U}{2}}}{\displaystyle{\frac{U}{2}}+\displaystyle{\frac{V}{2}}}}
\end{aligned}


とすると\displaystyle{\frac{U}{2}}\sim Ga\left(\displaystyle{\frac{l}{2}},1\right),\displaystyle{\frac{V}{2}}\sim Ga\left(\displaystyle{\frac{m}{2}},1\right)であるからZ\sim Be\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)であり



\begin{aligned}
f_Z(z)=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}z^{\frac{l}{2}-1}(1-z)^{\frac{m}{2}-1}}
\end{aligned}


である。
 ヤコビアン|J|=\displaystyle{\frac{dz}{df^{\prime}}}=(1+f^{\prime})^{-2}であるから、



\begin{aligned}
f_{F^{\prime}}(f^{\prime})=&\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\left(\displaystyle{\frac{f^{\prime}}{1+f^{\prime}}}\right)^{\frac{l}{2}-1}\left(\displaystyle{1-\frac{f^{\prime}}{1+f^{\prime}}}\right)^{\frac{m}{2}-1}(1+f^{\prime} )^{-2}}\\
&=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}{f^{\prime}}^{\frac{l}{2}-1}\left(\displaystyle{\frac{1}{1+f^{\prime}}}\right)^{\frac{l+m}{2}}}
\end{aligned}


を得る。したがってF=\displaystyle{\frac{m}{l}F^{\prime}}確率密度関数



\begin{aligned}
f_{F}(f)&=\left.f_{F^{\prime}}(f^{\prime})\right|_{f^{\prime}=\frac{l}{m}f}\cdot\displaystyle{\frac{l}{m}}=\displaystyle{\frac{1}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\left(\displaystyle{\frac{l}{m}}f\right)^{\frac{l}{2}-1}\left(\displaystyle{\frac{1}{1+\frac{l}{m}f}}\right)^{\frac{l+m}{2}}\cdot\displaystyle{\frac{l}{m}}}\\
&=\displaystyle{\frac{l^{\frac{l}{2}}m^{\frac{m}{2}}}{B\left(\displaystyle{\frac{l}{2}},\displaystyle{\frac{m}{2}}\right)}\displaystyle{\frac{f^{\frac{l}{2}-1}}{(m+lf)^{\frac{l+m}{2}}}}}
\end{aligned}


である。

5.3 順序統計量と経験分布関数

 標本の加工方法として、それを算術的に加工するのみならずそれらを並び替えたり頻度に加工したりすることでも標本がもつ母集団に関する情報を得ることができる。またノンパラメトリック・モデルであれば、順序の情報のみ利用することができる。そのための代表的な統計量として順序統計量および経験分布関数を導入する。

5.3.1 順序統計量

 分布P_{\theta},\theta\in\Thetaから得られた無作為標本をX_1,\cdots,X_nとするとき、これらを昇順で並び替えたもの、すなわち



\begin{aligned}
X_{(1)}:=\min\{X_1,\cdots,X_n\},X_{(k)}:=\min\{\{X_1,\cdots ,X_n\}\cap\{X_{(1)},\cdots ,X_{(k-1)}\}\}
\end{aligned}


と新たに定義したX_{(1)}\leq X_{(2)}\leq \cdots \leq X_{(n)}を順序統計量という。

5.3.2 経験分布関数

 分布P_\theta,\theta\in\Thetaから得られた無作為標本をX_1,\cdots,X_nとするとき、特定の実数値xを与えたときの経験分布関数の値F_n(x)を以下で定義する:



\begin{aligned}
F_n(x)=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\chi_{(-\infty,x]}(X_i)}
\end{aligned}


なお集合Eおよびその部分集合Aに対して\chi_{A}:E\rightarrow\{0,1\}



\begin{aligned}
\chi_{A}(x):=\begin{cases}1,x\in A\\0,x\notin A\end{cases}
\end{aligned}


と定義し、これを指示関数(単位関数)と呼ぶ*1。これは標本から分布関数を推定するのに用いる。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)

*1:\boldsymbol{1}_{A}と書くこともある。

プライバシーポリシー お問い合わせ