統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
7. 統計的推測論
データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを「真の値」という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。
7.1.3 十分性
標本から統計量を得るとき、標本自体が有する“情報”は反映されるとは限らない。通常は何らかの縮約が起こるはずで、もし標本から統計量を推定する過程で除外された情報が真の値に関するものであれば、推定精度を悪化させるはずである。であれば統計量は標本が持つ情報を可能な限り活かすような関数であることが望ましい。これを数学的に表現すると、統計量を与えたときのの条件付き分布が未知の母数に依存しないことが望ましいと言える。
以上を踏まえ、統計量が母数に関する十分推定量であるとは、を与えたときの標本の条件付き分布に依存しないことをいう。
例:二項乱数の生成とベルヌーイ乱数の生成
において統計量に関する何らかの観測を行う場合を考える。二項分布の性質から明らかにである。このときの分布が分かっているのだから、自体を観測する方法と、を直接的に観測して間接的にを得る方法を想定できるが、これらに違いはあるのだろうか。
である。このようにの値にかかわらず、通りの成功と失敗の並び方はすべて同様に確からしいことが分かる。したがってが与えられたとき、成功と失敗の並び自体はに関する情報を有していないと考えられる。
は直観的には成功総数と言えるが、後者で得た場合、何回目の試行で成功したのかという情報が得られる。ここでを知りたくて推定を行う場合、その情報の有無はの推定精度に意味をもたらすだろうか。
もし意味を持つのであれば、あるを与えたときのの条件付き分布がに依存するはずである。しかし、
ただし条件付き分布を求めるのは、特に標本数が多くなれば、一般に難しい。そこで以下のの因子分解定理を利用する方が望ましい。
平均二乗誤差を用いるような統計的決定理論に基づく推定では、十分統計量に基づく非確率化決定関数を構成することができる。を未知母数の推定量とし、平均二乗誤差
をリスク関数として取る。ここで
とおくとき、以下の-の定理が成り立つ。
( 推定量の平均二乗誤差を計算すると、
である。右辺第3項について
を代入すれば、
が成り立つ。等号が成り立つのはの場合で、それはと同値である。 )
-の定理から、分散の小さい不偏推定量を求める場合、十分統計量の関数になっている不偏推定量のみを考えればよいことが分かる。
7.1.4 完備十分統計量
十分統計量が完備性を持つ場合、十分統計量に基づく推定においてより強固な議論を進めることができる。
完備十分統計量 統計量が完備であるとは、の関数の中で恒等的にその期待値がになることは定数に限ることをいう。すなわち
が成り立つことをいう。完備であるような十分統計量を完備十分統計量という。
完備性の利点は、完備統計量の関数であるようなの不偏推定量はであり、したがっての不偏推定量で完備統計量の関数であるようなものは存在しても高々1つしかないということが保証される点にある。
完備性を持つならば、-の定理から一様最小分散不偏統計量の求め方を与えるLehmann-Schefféの定理が導かれる。
Lehmann-Schefféの定理 確率変数の同時分布をとし、統計量はに対して完備十分統計量であるとする。母数の関数に対し、分散が有限な不偏推定量が少なくとも1つ存在するならば、に対する一様最小分散不偏統計量が存在する。
である。いまを導入する。すると-の定理から、はの不偏推定量であり、さらに
が成り立つ。
に関する任意の不偏推定量に対しても-の定理から
はの不偏推定量であり、さらに
が成り立つ。
はともにの関数での不偏推定量であるから、はの関数でしかもの不偏推定量である。は完備であったから、
が成り立ち、
を得るが、の不偏性と併せ、これは一様最小分散不偏統計量の定義に他ならない。
Lehmann-Schefféの定理に基づけば、完備十分統計量の関数であるような不偏推定量は一様最小分散不偏統計量である。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)