統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
2. 統計学のための確率論
統計データの数理的な解析を行うにあたり、観測してみるまでその値が不明であるという意味で観測対象は不確実であるものの、その値の「出方」には規則性があるという前提を置いている。現代の統計学では、その規則性を数学的に表現するための道具として「確率」を導入する。
観測するまではその値がいくつになるのかは分からないとしても、取り得る範囲や起こり得るすべての値・場合は事前に分かっているか、分かるような範囲に限定して実験を設計する。そこで取り得るすべての値(場合)の集合を考え、それを標本空間と呼ぶ。また標本空間の部分集合を事象と呼ぶ。事象の元は、試行の具体的な結果を対応付けたもので、根源事象または標本と呼ぶ。
当然ながら試行との対応付け方法やの取り方は任意である。そのため試行を確率で表現する際には数学的にも如何に簡便に表現できるかどうかで判断すればよいだろう。
例2.1 コイン投げ
コインを1回投げて表ないし裏が出るという試行を考える。この標本空間としてといった対応付けが考えられる(後者では表を,裏をとして表現した)。
他方でと取りに対してと対応付けても試行を設定することが可能である。
2.1 加法族
試行を数学的に扱う場合、その試行“状況”を数学的に定義した上で「確率」という“構造”を定義していく流れとなる。最初は“状況”を定義したいのだが、そのためにそこで求められるいくつかの要請を考察することから始めたい。
- (1) 標本空間が当たり前に存在しなければならない。これが考察する試行の全体像を与えるのだから当然である。
- (2)事象を考えるときにその否定に当たる事象も当然に想定出来て欲しい。コイン投げで言えば、表が出るか裏が出るかの二択と考えている以上、表が出るという事象を考えるならば裏が出るという事象も当然に想定できなければならない。
- (3)ある複数の事象が考えられるのであればそれらの和集合も事象として想起出来て欲しい。
これらを数学的に定式化するために「加法族」という概念を導入する。
定義2.1 有限加法族 標本空間の部分集合からなる集合族が以下を満たすとき、はの有限加法族であるという:
(1)
(2)
(3)
有限加法族の条件(3)がより強い条件である(3)を満たすとき、特に-加法族という:
定義2.2 -加法族 標本空間の部分集合からなる集合族が以下を満たすとき、はの-加法族であるという:
(1)
(2)
(3)
このように定義した-加法族に対して“確率”を考えることができる。このような確率を与えることのできる“状況”を以下のとおり定義する。
定義2.3 可測空間 標本空間およびその上の-加法族が与えられたときにそれらの組を可測空間という。
可測空間を与えた際には、を特に可測集合という。なお統計学ではと取ることが少なくない。
2.2 Borel集合族
さて可測空間という概念を与えたが、では標本空間が具体的に与えられたとして何を-加法族として与えるべきなのか。というのも、ここまでの議論で特に制約を与えなかったように、その与え方に一意性があるわけではないのである。たとえば の部分集合全体を考えることもできる。しかしでは自然な確率が定義できなくなることが知られている。このようにただ闇雲に可測空間、すなわち-加法族を与えるわけにはいかない。そこでその良し悪しを測ることが必要となる。
具体的には集合の包含関係を用いて“大小”を測ることとする。を考えるとして区間
とすれば、これは有限加法族である。このようなを区間塊という。
の元にその補集合や積集合を加えを拡張することで-加法族を構成することを考える。特に集合を必要最低限だけ追加することで、を含みつつ包含の意味で最小な-加法族を構成することができる。
定義2.4 最小な-加法族 標本空間の部分集合族に対して-加法族が以下の2つの条件
(1)
(2) を含む任意の-加法族に対して
を満たすとき、と書き、を含む最小の-加法族という。
を含む-加法族全体の集合をとおけば、
と書ける。であるからである。また任意のに対してを考えると、
- (1)かつであるから
- (2)に対してかつであり、かつであるから、
- (3)とすればかつであるから、である。したがってであるから、
の3つが成り立つ。
以上から、同じ標本空間からなる任意の-加法族の共通部分も-加法族となるから、どのような部分集合族に対してもが存在し、それはその最小性から一意である。このを上のBorel集合族と呼び、と書く。
Borel集合族という概念を導入したが、さて当初の疑問であった、-加法族の与え方、すなわちBorel集合族を構成する方法ついてはまさにそれを与えるような適当な定理がある。
( を
と定義する。このとき定義から
が成り立つ。
他方で任意のは区間の有限直和であるからである。したがってはを含む-加法族である。このときの最小性に注意すれば
が得られるから、である。 )
2.3 確率の導入
前節までで準備が終了したので、いよいよ確率を導入する。
定義2.6 確率 可測空間に対して関数が以下の条件を満たすとする:
- (1)任意のに対してである。
- (2)である。
- (3)に対してが成り立つ。
このとき関数を可測空間上の確率と呼び、を確率空間と呼ぶ。
この確率は、高校数学などで導入された(ナイーブな)確率論を論理的に厳密にしたものである。そうした確率論では連続値への適用など限界があったものの、それまではナイーブに議論していた集合を“測る”ということを厳密に与えてそれを克服した。更にそもそも確率で“測る”ことのできるような集合に議論を限定すべく可測空間という概念を与え、その上で確率を定義したのであった。
定理2.7 確率の性質 関数を可測空間上の確率とする。このとき以下が成り立つ:
- (1)である。
- (2)任意のに対してが成り立つ。
- (3)であるような任意のに対してである。
- (4)任意のに対してが成り立つ。
- (5)任意の有限または加算無限個の集合族に対してが成り立つ。
- (6)集合列が単調増大列または単調減少列のときである。
(
(1)であるから、定義2.6(3)を用いることで
(2) 任意のに対してが成り立つ。定義2.6(3)においてとすれば、定義2.6(2)および本定理(1)より、
(3) であるような任意のに対してであるから、
である。定義2.6(3)より
が成り立つ。
(4) 任意のに対してであるから
が得られる。これらを辺々足し合わせることで
が成り立つ。
左辺についてはどの2つも互いに素であるから
(5) 集合列をとおく。このとき各は互いに素であり、定義2.6(1)に注意すれば
(6) 集合列が単調増大列であると仮定する。このとき集合列をで定義すれば、各はすべて互いに素である。したがって
が成り立つ。定義から明らかに
である。他方では単調増大列であるから、
が成り立つ。したがって
が得られる。 )
参考文献
- Lehmann, E.L., Casella, George(1998), "Teory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)