「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。

MENU

本気で学ぶ統計学(06/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

2. 統計学のための確率論

2.10 確率変数及び確率分布の収束

 統計学に基づいた議論を行う際に予め理論的に確認しておく必要があるのが、確率変数および確率分布の収束である。
 統計的な推測を行う際、通常母集団に属するすべての元を知ることはできず、そのうちの一部を観測して得られた標本を用いて、すなわち母集団の限られた一部から全体の情報を知ることとなる。しかし理論的には、その一部の性質が母集団の性質を示すか否かは自明ではないし、どのような意味でそれが成り立つかも調べておく必要がある。
 そこでそうした一部の情報が母集団の情報とどのように結びついているのかを理論的に議論すべく、確率変数および確率分布の収束を議論する。この関係性が分かれば、一定程度の観測数が担保されるという留保条件の下で、その一部の情報自体を解析することを母集団として想定できるものの性質を解析することに替えるのにある程度の正当性を与えるのである。
 確率変数は可測空間上の可測関数であるから、その収束を考えるには関数列の収束を考える必要がある。関数列の収束には一様収束各点収束の2種類がある。さらに確率変数独特の収束概念として、概収束確率収束および分布収束がある。
 これらには

   (1) 一様収束するならば各点収束する。
   (2) 各点収束すれば概収束する。
   (3) 概収束すれば確率収束する。
   (4) 確率収束すれば分布収束する。

という強弱関係がある。

2.10.10 中心極限定理

 大数の強法則によれば、独立で同一分布に従う実確率変数列\{X_n\}_{n=1,2,\cdots}の最初からn番目までの変数の標本平均\bar{X}_nn\rightarrow\inftyで期待値E[X_1]に概収束する。しかしこの定理は収束速度、すなわちnをどの程度大きく取れば\bar{X}_nE[X_1]に充分近いと言えるのかについては何も述べていないため、応用上の課題がある。そこで、大数の法則での誤差項Y_n-E[X]の挙動を考える。
 実確率変数列の分布収束は、それらが従う分布関数の特性関数列の収束で判定できる。


 \{X_n\}_{n=1,2,\cdots}\sim(\mu,\sigma^2),i.i.d.(\mu,\sigma^2<\lt\infty)であるとする。このとき



\begin{aligned}
Z_n:=\displaystyle{\frac{1}{\sqrt{n\sigma^2}}\sum_{k=1}^{n}(X_k-\mu)}
\end{aligned}


とおくと、



\begin{aligned}
P\{Z_n\leq z\}\rightarrow\displaystyle{\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}}\exp\left(-\displaystyle{\frac{y^2}{2}}\right)dy=\varphi(x)(n\rightarrow \infty),
\end{aligned}


すなわちZ_n\xrightarrow{d}Z\sim N(0,1)(n\rightarrow \infty)となる。
(\because X_n^{\prime}=\displaystyle{\frac{X_n-\mu}{\sigma}}とおけばよいので\mu=0,\sigma^2=1としても一般性を失わない。Z_nの特性関数は



\begin{aligned}
\varphi_{Z_n}(\xi)&=E\left[\exp⁡\left(i\displaystyle{\frac{\xi}{\sqrt{n}}\sum_{k=1}^{n}X_k} \right)\right]\\
&=E\left[\displaystyle{\prod_{k=1}^{n}\exp⁡\left(i\displaystyle{\frac{\xi}{\sqrt{n}}X_k}\right)}\right]\\
&=(\varphi_X(\xi))^n
\end{aligned}


である。



\begin{aligned}
\varphi_X (\xi)&=E[e^{i\xi}X],\\
\varphi_X^{\prime}(\xi)&=E[iXe^{i\xi}X],\\
\varphi_X^{\prime\prime}(\xi)&=E[-X^2 e^{i\xi}X]
\end{aligned}


\varphi_X\in C^2(\mathbb{R})であるため、Taylor展開を行なうと、\eta\in\mathbb{R}\ s.t.\ |\eta|\leq\displaystyle{\frac{|\xi|}{\sqrt{n}}}に対して



\begin{aligned}
\varphi_{X}\left(\displaystyle{\frac{\xi}{\sqrt{n}}}\right)=\varphi_{X}(0)+\displaystyle{\frac{\xi}{\sqrt{n}}}\varphi_X^{\prime}(0)+\displaystyle{\frac{\xi^2}{2n}}\varphi_X^{\prime\prime}(\eta)
\end{aligned}


が成り立つ。したがって\varphi_X (0)=1,\varphi_X^{\prime}(0)=0,\varphi_X^{\prime\prime}(0)=-1であるから



\begin{aligned}
\log⁡{\varphi_{Z_n}(\xi)}=n\log⁡{\varphi_X(\xi)}=n\log⁡\left(1+\displaystyle{\frac{\xi^2}{2n}}\varphi_X^{\prime\prime}(\eta)\right)
\end{aligned}


となり、|\varphi_X^{\prime\prime}(\eta)|\lt1および



\begin{aligned}
\log(1+\delta)=\delta+o(\delta)(\delta\rightarrow 0)
\end{aligned}


であるから



\begin{aligned}
\displaystyle{\log⁡{\varphi_{Z_n}(\xi)}}&=n\log⁡\left(1+\displaystyle{\frac{\xi^2}{2n}}\varphi_X^{\prime\prime}(\eta)\right)\\
&=\displaystyle{\frac{\xi^2}{2}}\varphi_X^{\prime\prime}(\eta)+o(1)\\
&\rightarrow\displaystyle{\frac{\xi^2}{2}}\varphi_X^{\prime\prime}(0)=-\displaystyle{\frac{\xi^2}{2}}(n\rightarrow\infty)
\end{aligned}


が成り立つ。したがって



\begin{aligned}
\varphi_{Z_n}(\xi)\rightarrow\exp\left(-\displaystyle{\frac{\xi^2}{2}}\right)= \varphi_Z(\xi)(n\rightarrow\infty),Z\sim N(0,1)
\end{aligned}


となる。 \blacksquare

2.11 確率変数の変数変換

 後述する統計量など確率変数を引数とする関数へと新たに変換することが興味の対象となる場合がある。そのときに確率密度関数を明示的に導出できるならば、その後の解析において大変に有用である。無論常に解析的に導出できるとは言えないが、それができる際には非常に有効であるからその一般的な方法を述べておく。

2.11.1 一般的な確率変数変換

 確率変数Xを用いて定義される新たな確率変数Y=g(X)の分布を導く。まず



\begin{aligned}
F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=P(X\in\{x|g(x)\leq y\})
\end{aligned}


と表せる。Xが連続であるときg(\cdot)微分可能であるならば



\begin{aligned}
f_Y(y)=\displaystyle{\frac{d}{dy}F_Y(y)}=\displaystyle{\frac{d}{dy}P(X\in\{x|g(x)\leq y\})}
\end{aligned}


が成り立つ。
 さらにg(\cdot)が(擬)逆関数をもつならば\{x|g(x)\leq y\}=\{x|x\leq g^{(-1)}(y)\}であるから



\begin{aligned}
F_Y(y)=\displaystyle{\int_{-\infty}^{g^{(-1)}(y)}f_X(x)}dx\Leftrightarrow\ &f_Y(y)=\displaystyle{\frac{d}{dy}\int_{-\infty}^{g^{(-1)}(y)}f_X(x)dx}\\
\Leftrightarrow\ &f_Y(y)=f_X(g^{(-1)}(y) )\left|\displaystyle{\frac{d}{dy}g^{(-1)}(y)}\right|
\end{aligned}


が成り立つ。ここでg\left(g^{(-1)}(y)\right)=yの両辺をy微分することで



\begin{aligned}
g^{\prime}\left(g^{(-1)}(y)\right)\displaystyle{\frac{d}{dy}g^{(-1)}(y)}=1\Leftrightarrow\displaystyle{\frac{d}{dy}g^{(-1)}(y)}=\displaystyle{\frac{1}{g^{\prime}\left(g^{(-1)}(y)\right)}}
\end{aligned}


が得られることから



\begin{aligned}
f_Y(y)=f_X(g^{(-1)}(y) )\left|\displaystyle{\frac{1}{g^{\prime}(g^{(-1)}(y) )}}\right|
\end{aligned}


である。

2.11.2 例1 分布関数を新たな確率変数とする場合

 ある確率変数Xに対して確率変数Y=F_X(X)と定義する。このとき



\begin{aligned}
f_Y(y)=f_X\left(F_X^{-1}(y)\right)\displaystyle{\frac{1}{f_X\left(F_X^{-1}(y)\right)}}=1
\end{aligned}


であるから、Yは一様分布に従う。
 逆に確率変数U\sim U(0,1)に対して(擬)逆関数を定義できる分布関数F逆関数で変換することで



\begin{aligned}
P(F^{-1}(U)\leq x)=P(U\leq F(x) )=(I\circ F)(x)=F(x)
\end{aligned}


となることから、一様分布を逆変換することで分布関数Fに従う確率変数が得られる。すなわち一様乱数を作成しその値をF^{-1}で変換することで分布関数Fに従う確率変数の乱数を得ることができることとなる。

2.11.3 例2 平方変換

 確率変数X確率密度関数f_X(x)とし、Xの平方変換Y=X^2を考える。y\gt0に対して



\begin{aligned}
I=\{x|x^2\leq y\}\Leftrightarrow\{x|-\sqrt{y}\leq x\leq \sqrt{y}\}
\end{aligned}


である。x=\pm\sqrt{y},dy=\pm(2\sqrt{y})^{-1}dxであるから



\begin{aligned}
f_Y (y)&=\displaystyle{\frac{d}{dy}P(X\in I)}\\
&=\displaystyle{\frac{d}{dy}\int_{-\sqrt{y}}^{\sqrt{y}}f_X(x)dx}\\
&=\displaystyle{\frac{1}{2\sqrt{y}}\{f_X(\sqrt{y})+f_X(-\sqrt{y})\}}
\end{aligned}


が成り立つ。したがって



\begin{aligned}
f_Y(y)=\displaystyle{\frac{1}{2\sqrt{y}}\{f_X(\sqrt{y})+f_X(-\sqrt{y})\}}
\end{aligned}


である。

2.12 畳み込み

 これまでは1つの確率変数を変換する手法を想定してきたが、今度は多変数のときを考える。特に2つの確率変数X,Yに対して確率変数Z=X+Yの分布はどうなるか。X,Y確率密度関数をそれぞれf_X(x),f_Y(y)としX,Yの同時密度関数をf_{(X,Y)}(x,y)とするとき



\begin{aligned}
F_Z (z)&=P\{Z\leq z\}=P\{X+Y\leq z\}\\
&=\displaystyle{\iint_{x+y\leq z}f_{(X,Y)}(x,y)dxdy}\\
&=\displaystyle{\int_{-\infty}^{\infty}dx\int_{-\infty}^{z-x}f_{(X,Y)}(x,y)dy}\\
&=\displaystyle{\int_{-\infty}^{\infty}dx\int_{-\infty}^{z}f_{(X,Y)}(x,t-x)dt},y=t-x\\
&=\displaystyle{\int_{-\infty}^{z}{\int_{-\infty}^{\infty}f_{(X,Y)}(x,t-x)dx}}dt
\end{aligned}


が成り立つ。両辺をzについて微分することで



\begin{aligned}
f_Z(z)=\displaystyle{\int_{-\infty}^{\infty}f_{(X,Y)}(x,z-x)dx}
\end{aligned}


を得、特にX,Yが独立ならば



\begin{aligned}
f_Z (z)=\displaystyle{\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)dx}
\end{aligned}


が成り立つ。これをf_X(x)f_Y(y)の畳み込みという。

2.13 擬逆関数

 分布関数は一般にすべての点で連続であるとは限らない。分布関数はcàdlàg(continue à droite et limité à gauche)でさえあればよい。しかしそうであると通常の意味での逆関数を定義できなくなる。そこで分布関数F(x)に対してその擬逆関数または分位点関数(quasi-inverse function)を



\begin{aligned}
F^{(-1)}(\alpha):=\inf\{x|F(x)\geq\alpha\},0\lt\alpha\lt1
\end{aligned}


で定義する。ここで\alphaに対して定まる値F^{(-1)}(\alpha)F100\alpha点と呼ぶ。
 定義から、任意の\alpha\in(0,1)および任意のx\in\mathbb{R}に対して



\begin{aligned}
F^{(-1)}(\alpha)\leq x\Leftrightarrow\alpha\leq F(x)
\end{aligned}


が成り立つ。したがって、一様乱数U\sim U(0,1)を取り、



\begin{aligned}
X=F^{(-1)}(U)
\end{aligned}


とおくと、



\begin{aligned}
P\{X\leq x\}=P\{F^{(-1)}(U)\leq x\}=P\{U\leq F(x)\}=F(x)
\end{aligned}


となり、Xの分布関数がF(x)であることが分かる。
 また



\begin{aligned}
f(x-):=\displaystyle{\lim_{\varepsilon\rightarrow-0}⁡f(x-\varepsilon)}
\end{aligned}


とおくと、以下の性質を持つ:

(1) F^{(-1)}(F(x) )\geq x,x\in\mathbb{R}


\begin{aligned}
y=\inf\{z|F(z)\geq F(x)\}
\end{aligned}

である。分布関数は単調非減少であるから



\begin{aligned}
z&\geq y\geq x\\
\therefore\ &y=F^{(-1)}(f(x))\geq x \blacksquare
\end{aligned}



(2)F\left(F^{(-1)}(p)\right)\geq p
 p\in[0,1]に対してF^{(-1)}(p)=\inf\{x|F(x)\geq p\}であるからF^{(-1)}(p)\in\{x|F(x)\geq p\}が成り立つ。したがって



\begin{aligned}
p\leq F(F^{(-1)}(p) ) \blacksquare
\end{aligned}


(3) F(x)\geq p\Leftrightarrow x\geq F^{(-1)}(p)
 F(x)\geq pを仮定すると(1)より



\begin{aligned}
F^{(-1)}(p)\leq F^{(-1)}(F(x))\leq x
\end{aligned}


が成り立つ。逆にx\geq F^{(-1)}(p)と仮定すると擬逆関数の定義より



\begin{aligned}
F^{(-1)}(p)&=\inf\{x|F(x)\geq p\}\\
\therefore\ F(x)&\geq p\ \ \blacksquare
\end{aligned}

2.14 1点分布:Dirac関数

 任意の\omega\in\Omegaに対してX:\Omega\rightarrow\mathbb{R}



\begin{aligned}
X(\omega)=a\in\mathbb{R}
\end{aligned}


で定め、その分布関数を\Delta_a(\cdot)と書くと



\begin{aligned}
\Delta_a(x)=\chi_{\{x\geq a\}}(x)=\begin{cases}1,&x\geq a\\0,&x\lt a\end{cases}
\end{aligned}


となる。通常の意味ではその微分を定義できないものの、それがあるものと考えて、それを\Delta_a(x)と書くことにすると、



\begin{aligned}
\displaystyle{\frac{d}{dx}\Delta_a(x)}=\begin{cases}\infty,&x=a\\0,&x\neq a\end{cases},\displaystyle{\int_{\mathbb{R}}\Delta_a(x)}=1
\end{aligned}


と考えることができる。これは



\begin{aligned}
F(x)=\displaystyle{\sum_{\{i|a_i\leq x\}}p(a_i)}=\displaystyle{\sum_{i=1}^{\infty}p(a_i)\Delta_{a_i}(x)},f(x)=F^{\prime}(x)=\displaystyle{\sum_{i=1}^{\infty}p(a_i)\Delta_{a_i}(x)}
\end{aligned}


とでき、また



\begin{aligned}
\displaystyle{\int_{\mathbb{R}}f(x)dx}=\displaystyle{\sum_{i=1}^{\infty}p(a_i)\int_{\mathbb{R}}\Delta_{a_i}(x)dx}=\displaystyle{\sum_{i=1}^{\infty}p(a_i)}=1
\end{aligned}


とでき、離散分布を連続分布のように扱うことが出来るようになる。
 分布関数\Delta_a(x)に対応する確率測度



\begin{aligned}
\Delta_{a}(A)=\chi_{A}(\cdot),A\in \mathcal{F}
\end{aligned}


Dirac測度という。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)
プライバシーポリシー お問い合わせ