統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
7. 統計的推測論
データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを「真の値」という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。
7.3 区間推定論
未知母数の含まれる区間を与える、すなわち区間を用いて未知母数を推定する手法を区間推定という。具体的には、未知母数を含む確率分布について標本をとする。このとき,について集合を定めて、すべてのに対して
となるようにすることを区間推定(領域推定)という。を信頼係数の信頼域という。信頼係数は事後的な確率と解釈することができないため、確率とは呼べない(後述)。特に一次元の確率変数については、無作為標本であるを取る。に対して、2つの関数を選んで、すべてのについて
となるとき、区間を信頼係数の信頼区間といい、信頼区間を構成することを区間推定という。このときを信頼限界と呼ぶ。
信頼区間の構築にあたっては一般的に以下のような手順を踏むこととなる:
(1) | と母数の関数でその密度関数がに依存しないものが存在するとき、に対してとなるような実数が求められる。 | |
(2) | が与えられたときにをの関数とみなし、その(擬)逆関数があるならばの下限および上限で定める。 | |
(3) | こうして得られた上下限から区間を構築する。 |
信頼係数の信頼区間は複数存在し得るが、その中でもが最も小さいものを選べばより精度の高い区間推定が可能である。多変量の場合は信頼域が分かりにくい点など難点がある。
7.3.1 区間推定における“良さ”の概念
区間推定も信頼域の定め方が一意的でないため、その“良さ”を与える基準を考える必要がある。そのために改めて
に注目する。各に対してとなるようなの部分集合をとすると、その定義から
である*1。
逆にすべてのに関して仮説に対する有意水準の検定に対する採択域が与えられると、標本に対してとすれば信頼係数の信頼域が構築される。また信頼域は高い確率で真の母数を含むことが望ましい。その一方で真の母数以外の母数の値は含まない方が望ましい。そこで不偏の概念が導入される。
これは真の母数以外の母数の値を含む確率が以下になるならばは不偏だという意味で、点推定における不偏に相当する概念である。
点推定における不偏性に類似する概念として、区間推定における不偏性を導入した。同様に一様最小分散不偏推定量()に相当する概念として一様最強力不偏信頼域を導入する。
7.3.2 最尤推定量に基づく信頼区間
簡単のため1次元の母数を考える。を母数に関する情報量とする。またをサイズの標本に基づくの最尤推定量だとする。このとき前節において示したように漸近的に
が成り立つから、近似的に
が成り立つ。したがってに関してこの不等式を解くことで、に関する信頼区間を構築することができる。ただしは一般にに関して複雑な関数になることが多い。そのため代わりにで置き換えることが多い。そうすればはを含まないから、
が成り立つ。これが最尤推定量に基づく母数の信頼係数の近似的な信頼区間である。
この方法は汎用的かつ簡便的で便利であるものの、確率の評価を近似している上、情報量も近似値に置き換えていることから、やや粗い点には注意が必要である。
7.3.3 具体的な区間推定の例
標本をとする。このとき未知母数を区間推定する、すなわちの信頼区間を求める。なお信頼係数をとする。を既知とするならば、統計量を考えると正規分布の再生性からである。それを規格化したものは標準正規分布に従う、すなわち
であり、そのうえ未知母数には依存しなくなる。したがって
となるようなが存在し、区間
が求める信頼区間となる。
もしが未知ならば、統計量
を考えると既に示したように
であり、これはに依存しない。したがって
7.3.4 信頼区間の解釈
信頼係数と呼ぶのは、を確率と解釈するのに問題があるためである。において確率的に変化するのは、であり、これは無作為な集合である。これが意味するのは無作為に発生する集合が未知母数を含む確率がになるということである。これは言ってみればを観測する前の事前確率であり、特定のが実現した後に母数がに含まれる確率を議論することは出来ない。すなわち母数は未知であるものの固定された値であるから、特定のを固定した場合、はに含まれるか含まれないかの2択でしかなく、確率ものいずれかになってしまう。が未知であるからのいずれなのかも未知である。そのため通常の意味での確率を考えることに意味が無いのである。
ただし統計学の立場に立てば母数が信頼域に含まれる事後的な確率を明示的に求めることは出来る。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)