「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(02/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として



を用いる。

2. 統計学のための確率論

 統計データの数理的な解析を行うにあたり、観測してみるまでその値が不明であるという意味で観測対象は不確実であるものの、その値の「出方」には規則性があるという前提を置いている。現代の統計学では、その規則性を数学的に表現するための道具として確率を導入する。
 観測するまではその値がいくつになるのかは分からないとしても、取り得る範囲や起こり得るすべての値・場合は事前に分かっているか、分かるような範囲に限定して実験を設計する。そこで取り得るすべての値(場合)の集合\Omegaを考え、それを標本空間と呼ぶ。また標本空間の部分集合を事象と呼ぶ。事象の元\omega\in\Omegaは、試行の具体的な結果を対応付けたもので、根源事象または標本と呼ぶ。
 当然ながら試行と\omegaの対応付け方法や\Omegaの取り方は任意である。そのため試行を確率で表現する際には数学的にも如何に簡便に表現できるかどうかで判断すればよいだろう。

例2.1 コイン投げ
 コインを1回投げて表ないし裏が出るという試行を考える。この標本空間\Omegaとして


\begin{aligned}
\Omega=\{表,裏\},\ \Omega=\{0,1\}
\end{aligned}

といった対応付けが考えられる(後者では表を1,裏を0として表現した)。
 他方で\Omega=\mathbb{R}と取り\omega\in\Omegaに対して


\begin{aligned}
\omega\geq 0ならば表, \omega\lt 0ならば裏
\end{aligned}

と対応付けても試行を設定することが可能である。 \blacksquare

2.1 加法族

 試行を数学的に扱う場合、その試行“状況”を数学的に定義した上で「確率」という“構造”を定義していく流れとなる。最初は“状況”を定義したいのだが、そのためにそこで求められるいくつかの要請を考察することから始めたい。

  • (1) 標本空間\Omegaが当たり前に存在しなければならない。これが考察する試行の全体像を与えるのだから当然である。
  • (2)事象を考えるときにその否定に当たる事象も当然に想定出来て欲しい。コイン投げで言えば、表が出るか裏が出るかの二択と考えている以上、表が出るという事象を考えるならば裏が出るという事象も当然に想定できなければならない。
  • (3)ある複数の事象が考えられるのであればそれらの和集合も事象として想起出来て欲しい。

これらを数学的に定式化するために「加法族」という概念を導入する。


定義2.1 有限加法族 標本空間\Omegaの部分集合からなる集合族\mathcal{F}が以下を満たすとき、\mathcal{F}\Omegaの有限加法族であるという:
\ \ \ \ (1) \Omega\in\mathcal{F}
\ \ \ \ (2) A\in\mathcal{F}\Rightarrow A^{C}\in\mathcal{F}\ (\Omega^{C}=\emptyset)
\ \ \ \ (3) A_1,A_2\in\mathcal{F}\Rightarrow A_1\cup A_2\in\mathcal{F}

有限加法族の条件(3)がより強い条件である(3){}^{\prime}を満たすとき、特に\sigma-加法族という:


定義2.2 \sigma-加法族 標本空間\Omegaの部分集合からなる集合族\mathcal{F}が以下を満たすとき、\mathcal{F}\Omega\sigma-加法族であるという:
\ \ \ \ (1) \Omega\in\mathcal{F}
\ \ \ \ (2) A\in\mathcal{F}\Rightarrow A^{C}\in\mathcal{F}\ (\Omega^{C}=\emptyset)
\ \ \ \ (3)^{\prime} A_i\in\mathcal{F},i\in\mathbb{N}\Rightarrow \displaystyle{\bigcup_{i=1}^{\infty}}A_i\in\mathcal{F}

 このように定義した\sigma-加法族に対して“確率”を考えることができる。このような確率を与えることのできる“状況”を以下のとおり定義する。


定義2.3 可測空間 標本空間\Omegaおよびその上の\sigma-加法族\mathcal{F}が与えられたときにそれらの組(\Omega,\mathcal{F})可測空間という。

可測空間を与えた際には、A\in\mathcal{F}を特に可測集合という。なお統計学ではΩ=\mathbb{R}^{d},d\in\{1,2,\cdots,n,\cdots\}と取ることが少なくない。

2.2 Borel集合族

 さて可測空間という概念を与えたが、では標本空間\Omegaが具体的に与えられたとして何を\sigma-加法族として与えるべきなのか。というのも、ここまでの議論で特に制約を与えなかったように、その与え方に一意性があるわけではないのである。たとえば \Omegaの部分集合全体\mathcal{F}=2^{\Omega}を考えることもできる。しかし2^{\mathbb{R}}では自然な確率が定義できなくなることが知られている。このようにただ闇雲に可測空間、すなわち\sigma-加法族を与えるわけにはいかない。そこでその良し悪しを測ることが必要となる。
 具体的には集合の包含関係を用いて“大小”を測ることとする。\Omega=\mathbb{R}^{d}を考えるとして区間


\begin{aligned}
\mathcal{T}^{n}=\{(a_1,b_1]\times\cdots\times(a_n,b_n]|a_i,b_i∈\mathbb{R}\cup\{\pm\infty\},a\lt b\}
\end{aligned}
を考える。これに対して

\begin{aligned}
\mathcal{A}=\left\{\displaystyle{\bigcup_{k=1}^{m}I_k|m\in\mathbb{N},\ I_i\cap I_j=\emptyset\ (1\leq \lt j\leq m),\ I_i,I_j\in\mathcal{T}^{n}}\right\}
\end{aligned}

とすれば、これは有限加法族である。このような\mathcal{A}区間塊という。
 \mathcal{A}の元にその補集合や積集合を加え\mathcal{A}を拡張することで\sigma-加法族を構成することを考える。特に集合を必要最低限だけ追加することで、\mathcal{A}を含みつつ包含の意味で最小な\sigma-加法族を構成することができる。


定義2.4 最小な\sigma-加法族 標本空間\Omegaの部分集合族\mathcal{A}に対して\sigma-加法族\mathcal{F}が以下の2つの条件
  (1) \mathcal{A}\subset\mathcal{F}
  (2) \mathcal{A}を含む任意の\sigma-加法族\mathcal{G}に対して\mathcal{F}\subset\mathcal{G}
を満たすとき、\mathcal{F}=\sigma(\mathcal{A})と書き、\mathcal{A}を含む最小の\sigma-加法族という。

 \mathcal{A}を含む\sigma-加法族全体の集合を\Sigma(\mathcal{A})とおけば、


\begin{aligned}
\sigma(\mathcal{A})=\displaystyle{\bigcap_{\mathcal{G}\in\Sigma(\mathcal{A})}\mathcal{G}}
\end{aligned}

と書ける。2^{\Omega}\in\Sigma(\mathcal{A})であるから\Sigma(\mathcal{A})\neq\emptysetである。また任意の\mathcal{B},\mathcal{C}\in\Sigma(\mathcal{A})に対して\mathcal{B}\cap\mathcal{C}を考えると、

  • (1)\ \ \Omega\in\mathcal{B}かつ\Omega\in\mathcal{C}であるから
    \begin{aligned}\Omega\in\mathcal{B}\cap\mathcal{C}\end{aligned}
  • (2)\ \ A\in\mathcal{B}\cap\mathcal{C}に対してA\in\mathcal{B}かつA\in\mathcal{C}であり、A\in\mathcal{B}^{C}かつA\in\mathcal{C}^{C}であるから、
    \begin{aligned}A^{C}\in\mathcal{B}\cap\mathcal{C}\end{aligned}
  • (3)\ \ {}^{\prime}{}^{\forall}A_{i}\in\mathcal{B}\cap\mathcal{C},\ i\in\mathbb{N}とすれば{}^{\prime}{}^{\forall}A_{i}\in\mathcal{B},\ i\in\mathbb{N}かつ{}^{\forall}A_{i}\in\cap\mathcal{C},\ i\in\mathbb{N}であるから、
    \begin{aligned}\left(\displaystyle{\bigcup_{i=1}^{\infty}}A_i\in\mathcal{B}\right)\land\left(\displaystyle{\bigcup_{i=1}^{\infty}}A_i\in\mathcal{C}\right)\end{aligned}
    である。したがって{}^{\forall}A_{i}\in\cap\mathcal{C},\ i\in\mathbb{N}であるから、
    \begin{aligned}\displaystyle{\bigcup_{i=1}^{\infty}}A_i\in\mathcal{B}\cap\mathcal{C}\end{aligned}

の3つが成り立つ。
 以上から、同じ標本空間からなる任意の\sigma-加法族の共通部分も\sigma-加法族となるから、どのような部分集合族\mathcal{A}に対しても\sigma(\mathcal{A})が存在し、それはその最小性から一意である。この\sigma(\mathcal{A})\mathbb{R}上のBorel集合族と呼び、\mathcal{B}:=\sigma(\mathcal{A})と書く。

 Borel集合族という概念を導入したが、さて当初の疑問であった、\sigma-加法族の与え方、すなわちBorel集合族を構成する方法ついてはまさにそれを与えるような適当な定理がある。


定理2.5 Borel集合族の構築 区間

\begin{aligned}
\mathcal{T}^{n}=\{(a_1,b_1]\times\cdots\times(a_n,b_n]|a_i,b_i\in\mathbb{R}\cup\{\pm\infty\},\ a\lt b\}
\end{aligned}

に対して


\begin{aligned}
\mathcal{B}=\sigma(\mathcal{T}^{n})
\end{aligned}
が成り立つ。

(\because \mathcal{A}


\begin{aligned}
\mathcal{A}=\left\{\bigcup_{k=1}^{m} I_k|m\in\mathbb{N},\ I_i\cap I_j =\emptyset (1\lt j\leq m),\ I_i,I_j\in\mathcal{T}^{n}\right\}
\end{aligned}

と定義する。このとき定義から


\begin{aligned}
\sigma(\mathcal{T}^{n})\subset\sigma(\mathcal{A})
\end{aligned}

が成り立つ。
 他方で任意のA\in\mathcal{A}区間の有限直和であるからA\in\sigma(\mathcal{T}^{n})である。したがって\sigma(\mathcal{T}^{n})\mathcal{A}を含む\sigma-加法族である。このとき\sigma(\mathcal{A})の最小性に注意すれば


\begin{aligned}
\sigma(\mathcal{A})\subset\sigma(\mathcal{T}^{n})
\end{aligned}

が得られるから、\sigma(\mathcal{A})=\sigma(\mathcal{T}^{n})である。 \blacksquare

2.3 確率の導入

 前節までで準備が終了したので、いよいよ確率を導入する。


定義2.6 確率 可測空間(\Omega,\mathcal{F})に対して関数P:\mathcal{F}\rightarrow \mathbb{R}が以下の条件を満たすとする:

  • (1)\ \ 任意のA\in\mathcal{F}に対して0\leq P(A)\leq 1である。
  • (2)\ \ P(\Omega)=1である。
  • (3)\ \ A_1,A_2,\cdots\in\mathcal{F},\ A_i\cap A_j=\emptyset(i\neq j),\ i,j\in\{1,2,\cdots,n,\cdots\}に対して
    \begin{aligned}P\left(\displaystyle{\bigcup_{i=1}^{\infty}A_i}\right)=\displaystyle{\sum_{i=1}^{\infty}P(A_i)}\end{aligned}
    が成り立つ。

このとき関数P(\cdot)を可測空間(\Omega,\mathcal{F})上の確率と呼び、(\Omega,\mathcal{F},P)を確率空間と呼ぶ。

 この確率は、高校数学などで導入された(ナイーブな)確率論を論理的に厳密にしたものである。そうした確率論では連続値への適用など限界があったものの、それまではナイーブに議論していた集合を“測る”ということを厳密に与えてそれを克服した。更にそもそも確率で“測る”ことのできるような集合に議論を限定すべく可測空間という概念を与え、その上で確率を定義したのであった。


定理2.7 確率の性質 関数P(\cdot)を可測空間(\Omega,\mathcal{A})上の確率とする。このとき以下が成り立つ:

  • (1)\ \ P(\emptyset)=0である。
  • (2)\ \ 任意のA\in\mathcal{A}に対してP(A^{C})=1-P(A)が成り立つ。
  • (3)\ \ A\subset Bであるような任意のA,B\in\mathcal{A}に対してP(A)\leq P(B)である。
  • (4)\ \ 任意のA,B\in\mathcal{A}に対してP(A\cup B)=P(A)+P(B)-P(A\cap B)が成り立つ。
  • (5)\ \ 任意の有限または加算無限個の集合族\{A_i\}\subset\mathcal{A}に対して
    \begin{aligned}P\left(\displaystyle{\bigcup_{i=1}^{\infty}}A_i\right)\leq \displaystyle{\sum_{i=1}^{\infty}}P(A_i)\end{aligned}
    が成り立つ。
  • (6)集合列\ \ \{A_i\}\subset \mathcal{A}が単調増大列または単調減少列のとき
    \begin{aligned}P\left(\displaystyle{\bigcup_{i=1}^{\infty}}A_i\right)=\displaystyle{\lim_{n\rightarrow\infty}}P(A_n)\end{aligned}
    である。

\because
(1)\emptyset=\emptyset\cup\emptyset\cup\emptyset\cup\cdotsであるから、定義2.6(3)を用いることで


\begin{aligned}
P(\emptyset)=P(\emptyset)+P(\emptyset)+\cdots
\end{aligned}
が成り立つ。定義2.6(1)より上式を満たすようなP(\emptyset)=0である。

(2) 任意のA\in\mathcal{A}に対してA\cup A^{C}=\Omega,\ A\cap A^{C}=\emptysetが成り立つ。定義2.6(3)においてA_1=A,\ A_2=A^{C},A_i=\emptyset,\ i\geq3とすれば、定義2.6(2)および本定理(1)より、


\begin{aligned}
P(\Omega)&=P(A\cup A^{C}\cup \emptyset\cup\emptyset\cdots)\\
         &=P(A)+P(A^{C})+\displaystyle{\sum_{i=3}^{\infty}P(\emptyset)}\\
         &=P(A)+P(A^{C})=1\\
\therefore\ \ P(A^{C})&=1-P(A)
\end{aligned}

(3) A\subset Bであるような任意のA,B\in\mathcal{A}に対してA\cup(B\cap A^{C})=Bであるから、


\begin{aligned}
P(B)=P(A\cup(B\cap A^{C}))
\end{aligned}

である。定義2.6(3)より


\begin{aligned}
P(B)&=P(A\cup(B\cap A^{C}))\\
    &=P(A)+P(B\cap A^{C})\\
    &\geq P(A)\ (\because 0\leq P(B\cap A^{C})\leq 1)
\end{aligned}

が成り立つ。

(4) 任意のA,B\in\mathcal{A}に対してA=(A\cap B)\cup(A\cap B^{C}),\ B=(A\cap B)\cup (A^{C}\cap B)であるから


\begin{aligned}
P(A)&=P( (A\cap B)\cup(A\cap B^{C}) )=P(A\cap B)+P(A\cap B^{C}),\\
P(B)&=P( (A\cap B)\cup(A^{C}\cap B) )=P(A\cap B)+P(A^{C}\cap B),\\
\end{aligned}

が得られる。これらを辺々足し合わせることで


\begin{aligned}
&\ \ P(A)+P(B)=P(A\cap B)+P(A\cap B^{C})+P(A\cap B)+P(A^{C}\cap B),\\
\therefore&\ \ P(A\cap B^{C})+P(A\cap B)+P(A^{C}\cap B)=P(A)+P(B)-P(A\cap B)
\end{aligned}

が成り立つ。
 左辺についてA\cap B^{C},A\cap B,A^{C}\cap Bはどの2つも互いに素であるから


\begin{aligned}
P(A\cap B^{C})+P(A\cap B)+P(A^{C}\cap B)&=P( (A\cap B^{C})\cup(A\cap B)\cup(A^{C}\cap B))\\
&=P(A\cup(A^{C}\cap B) )=P(A\cup B)\\
\therefore\ \ P(A\cup B)&=P(A)+P(B)-P(A\cup B)
\end{aligned}

(5) 集合列\{B_n\}B_1=A_1, B_n=A_n, \displaystyle{\bigcup_{i=1}^{n-1}}A_i,n\geq2とおく。このとき各B_nは互いに素であり、定義2.6(1)に注意すれば


\begin{aligned}
P\left(\bigcup_{i=1}^{\infty}A_i\right)=P\left(\bigcup_{i=1}^{\infty}B_i\right)=\displaystyle{\sum_{i=1}^{\infty}P(B_i)}\leq \displaystyle{\sum_{i=1}^{\infty}P(A_i)}
\end{aligned}

(6) 集合列\{A_i\}\subset\mathcal{A}が単調増大列であると仮定する。このとき集合列\{B_n\}B_1=A_1,B_k=A_k\cap A_{k-1}^{C},k=2,3,\cdotsで定義すれば、各B_i,\ i=1,2,\cdotsはすべて互いに素である。したがって


\begin{aligned}
P\left(\displaystyle{\bigcup_{i=1}^{\infty}}B_i\right)=\displaystyle{\sum_{i=1}^{\infty}P(B_i)}
\end{aligned}

が成り立つ。定義から明らかに


\begin{aligned}
\displaystyle{\bigcup_{i=1}^{\infty}B_i}=\displaystyle{\bigcup_{i=1}^{\infty}A_i}
\end{aligned}

である。他方で\{A_i\}は単調増大列であるから、


\begin{aligned}
\displaystyle{\sum_{i=1}^{\infty}P(B_i)}=P(A_1)+\displaystyle{\sum_{k=2}^{n}\left\{P(A_k)-P(A_{k-1})\right\}}=P(A_n)
\end{aligned}

が成り立つ。したがって


\begin{aligned}
\displaystyle{\sum_{i=1}^{\infty}P(B_i)}=\displaystyle{\lim_{n\rightarrow \infty}P(A_n)}
\end{aligned}

が得られる。 \blacksquare

参考文献

  • Lehmann, E.L., Casella, George(1998), "Teory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)
プライバシーポリシー お問い合わせ