統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
前回
2. 統計学のための確率論
2.10 確率変数及び確率分布の収束
統計学に基づいた議論を行う際に予め理論的に確認しておく必要があるのが、確率変数および確率分布の収束である。
統計的な推測を行う際、通常母集団に属するすべての元を知ることはできず、そのうちの一部を観測して得られた標本を用いて、すなわち母集団の限られた一部から全体の情報を知ることとなる。しかし理論的には、その一部の性質が母集団の性質を示すか否かは自明ではないし、どのような意味でそれが成り立つかも調べておく必要がある。
そこでそうした一部の情報が母集団の情報とどのように結びついているのかを理論的に議論すべく、確率変数および確率分布の収束を議論する。この関係性が分かれば、一定程度の観測数が担保されるという留保条件の下で、その一部の情報自体を解析することを母集団として想定できるものの性質を解析することに替えるのにある程度の正当性を与えるのである。
確率変数は可測空間上の可測関数であるから、その収束を考えるには関数列の収束を考える必要がある。関数列の収束には一様収束と各点収束の2種類がある。さらに確率変数独特の収束概念として、概収束、確率収束および分布収束がある。
これらには
(1) | 一様収束するならば各点収束する。 | |
(2) | 各点収束すれば概収束する。 | |
(3) | 概収束すれば確率収束する。 | |
(4) | 確率収束すれば分布収束する。 |
という強弱関係がある。
2.10.10 中心極限定理
大数の強法則によれば、独立で同一分布に従う実確率変数列の最初からn番目までの変数の標本平均はで期待値に概収束する。しかしこの定理は収束速度、すなわちをどの程度大きく取ればがに充分近いと言えるのかについては何も述べていないため、応用上の課題がある。そこで、大数の法則での誤差項の挙動を考える。
実確率変数列の分布収束は、それらが従う分布関数の特性関数列の収束で判定できる。
であるとする。このとき
とおくと、
すなわちとなる。
( とおけばよいのでとしても一般性を失わない。の特性関数は
である。
とであるため、Taylor展開を行なうと、に対して
が成り立つ。したがってであるから
となり、および
であるから
が成り立つ。したがって
となる。 )
2.11 確率変数の変数変換
後述する統計量など確率変数を引数とする関数へと新たに変換することが興味の対象となる場合がある。そのときに確率密度関数を明示的に導出できるならば、その後の解析において大変に有用である。無論常に解析的に導出できるとは言えないが、それができる際には非常に有効であるからその一般的な方法を述べておく。
2.11.1 一般的な確率変数変換
確率変数を用いて定義される新たな確率変数の分布を導く。まず
と表せる。が連続であるときが微分可能であるならば
が成り立つ。
さらにが(擬)逆関数をもつならばであるから
が成り立つ。ここでの両辺をで微分することで
が得られることから
である。
2.12 畳み込み
これまでは1つの確率変数を変換する手法を想定してきたが、今度は多変数のときを考える。特に2つの確率変数に対して確率変数の分布はどうなるか。の確率密度関数をそれぞれとしの同時密度関数をとするとき
が成り立つ。両辺をについて微分することで
を得、特にが独立ならば
が成り立つ。これをとの畳み込みという。
2.13 擬逆関数
分布関数は一般にすべての点で連続であるとは限らない。分布関数はcàdlàg(continue à droite et limité à gauche)でさえあればよい。しかしそうであると通常の意味での逆関数を定義できなくなる。そこで分布関数に対してその擬逆関数または分位点関数(quasi-inverse function)を
で定義する。ここでに対して定まる値をの点と呼ぶ。
定義から、任意のおよび任意のに対して
が成り立つ。したがって、一様乱数を取り、
とおくと、
となり、の分布関数がであることが分かる。
また
とおくと、以下の性質を持つ:
(1)
である。分布関数は単調非減少であるから
(2)
に対してであるからが成り立つ。したがって
(3)
を仮定すると(1)より
が成り立つ。逆にと仮定すると擬逆関数の定義より
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)