統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
8. 統計的仮説検定
ここまでデータが与えられたときにそのデータが従うと思われる確率的な規則性を推測する方法を議論してきた。他方で「データに基づき何らかの科学的根拠を踏まえつつ合理的に判定を下したい」状況が存在する。これを数学的に定式化すると、母集団からの1組の観測値が与えられたとき、これらの観測値がある特定の分布に従うとみなしてよいかどうかを知りたい場合があるということになる。このときの判定法として、
観測値が分布のもとでの平均的な状況から著しくズレており、を仮定するとそのようなことが起こる確率が非常に小さいならば、分布がと考えるのは誤りであると見なした方がよいと考える
という方法がある。ここにが正しくない場合に分布がどうなっているかを想定することもセットとして考える方法が一般的になった。
この考え方を数学的に定式化してみよう。ある確率変数の実現値が観測されており、それが従う確率分布の母数空間が互いに排反な2つの部分集合に分割されているとして*1、
帰無仮説 | 未知母数がに属しているとする仮説 | |
対立仮説 | 未知母数がに属しているとする仮説 |
とする。これを
と書く*2。これが統計的仮説検定である。
ここまででひとまず問題設定が完了した。とはいえ、これでは具体的な議論な進まないため、まずはこの仮説検定の定式化をより詳しく議論していく。その後、ここからどのように判断を下すか(すなわち帰無仮説と対立仮説のうちどちらが正しいと判断するか)、そのような方法が(一意的に)存在するのか、複数存在するならば何を以て“良い検定方法”を決めればよいのかといった更なる課題設定を考える。
ここで、まずは検定に関する各用語を紹介しておく。
(1) 母数空間に関するもの ・帰無仮説に対応する母数空間が1点からなる場合:単純帰無仮説 ・対立仮説に対応する母数空間が1点からなる場合:単純対立仮説 ・単純仮説でない場合:複合仮説 (2) 両側検定・片側検定 ・両側検定: ・片側検定:*3 (3) 局外母数・攪乱母数:母数が多次元のときに検定問題で興味のない母数 例:正規分布に従う確率変数の平均に関する検定における分散 (4) 受容・棄却 データに基づいて統計家が取る決定に対し ・帰無仮説を受容する:が正しいと判断すること ・帰無仮説を棄却する:が正しいと判断すること (5) 決定における誤り ・第1種の過誤:「帰無仮説が正しい」にも拘わらず「帰無仮説を棄却する()」誤り ・第2種の過誤:「対立仮説が正しい」にも拘わらず「帰無仮説を受容する()」誤り
8.1 統計的決定論に基づく検定の定式化
まずは統計的決定論に基づいて、統計的仮説検定を定式化していく。
仮説検定
において、標本に基づいて統計家が取る決定に対して、を損失関数と見なすこととする。具体的には-損失関数、すなわちを
としたときに、
とおく。
ここで関数、すなわちデータ(標本)から決定を下す関数を決定関数(検定関数)と定義する。
このとき検定関数のリスク関数
はを満たす。したがって検定問題におけるリスク関数は
すなわち
となるのであって、検定問題の具体的な設定は「第1種の過誤を犯す確率および第2種の過誤を犯す確率をバランスさせつつ最小化するような検定関数を見つけること」に帰着する。
伝統的な検定論では、第1種の過誤を重視し「第1種の誤りを犯す確率を与えられた限界に抑えつつ第2種の過誤を犯す確率を最小化させる」。この限界を有意水準という*4。大抵の場合、第1種の過誤と第2種の過誤はトレード・オフであるため、有意水準を小さく設定した場合、帰無仮説を受容してもそれは帰無仮説が正しいというよりは帰無仮説を暫定的に受け入れることを意味すると解釈すべきである。
と定義すると
とすっきりと書ける。このときは対立仮説が正しいという状況下において帰無仮説が誤りであることを“検出する”確率を意味するため、を検出力関数と呼び、その具体的な値を検出力という。またを検定のサイズと呼ぶ。
8.2 検定統計量に基づく検定方式の定式化
ここまででは検定関数を用いた検定方式を議論してきた。他方でこれ以外の検定の定式が存在し、具体的に検定を行う際にはそちらの方が便利な場合がある。そこで別の検定の定式化、すなわち検定関数が与えられたときに標本空間をの値に応じて分割することを考える。
受容域、棄却域とおき、検出力関数と表現する。こうした分割において境界となる値を特定の検定量で与え
と定義する。このときを検定統計量、を棄却点(または棄却限界)と呼ぶ。もしとなり帰無仮説を棄却する場合には「は有意である」という。
が棄却点から離れていればいる程、帰無仮説はデータからの矛盾度合いがより強いと考えられる。そこで帰無仮説が棄却されたかどうかのみを表示するのではなく、新たに観測されたがあったとしてそこから計算されたについて棄却点がちょうど特定値を取るような検定のサイズを表示することが考えられる。すなわち検定方式がを用いて
という形式で与えられているとする。このとき帰無仮説の下でのの分布の上側確率を
とおくとき、
を値という。こうすると
という検定方式は有意水準の検定方式となる。
( 値を
と定義する。
まず帰無仮説が単純仮説である場合を考える。このときである。ここで示すべきは
である。の逆関数をとおき、またとする。このとき
という定義から、
が成り立つ。したがってが成り立ち、そのため
を得る。であるから、であり、これは示すべき不等式である。
次に帰無仮説が複合仮説である場合、
を示せばよい。に対して
が成り立つから、が成り立つ。この右辺は既に示したとおり以下である。 )
例:として検定問題
を考え、で帰無仮説を棄却する検定方式を用いることとする。このとき
- 検定統計量:
- 棄却点:
- 検定方式:棄却
- 検出力:
- サイズ:
また帰無仮説を棄却する場合、「は有意である」と呼ぶ。
さてであるから検出力関数は
でありサイズは
ここまでのまとめ
- データに基づき何らかの科学的根拠を踏まえつつ合理的に判定を下すための統計的な枠組みが統計的仮説検定である。
- それに当たり、「観測値が分布のもとでの平均的な状況から著しくズレており、を仮定するとそのようなことが起こる確率が非常に小さいならば、分布がと考えるのは誤りであると見なした方がよい」と考える。
- ある確率変数の実現値が観測されており、それが従う確率分布の母数空間が互いに排反な2つの部分集合に分割されているとして、2つの命題の真偽を判断するのが統計的仮説検定の数学的な定式化である。
- 帰無仮説が正しいときにデータから対立仮説が正しいと判断した場合、または対立仮説が正しいときにデータから帰無仮説を採用した場合に(それ以外は)となるような損失を考え、データから採用する仮説を決定する関数(検定関数)のリスク関数(損失の期待値)は、第1種の過誤または第2種の過誤を起こす確率に等しい。したがって良い検定は第1種の過誤および第2種の過誤を両方とも小さくするような検定関数である。ただし両者はトレードオフの関係にあるため、第1種の過誤を事前に与えた有意水準に抑えつつ、第2種の過誤を犯す確率をなるべく小さくする検定関数が“良い”検定であるとする。
- ある母数を与えたときの検定関数のリスク関数は帰無仮説を誤りだと検出する確率と言え、検出力関数と呼ぶ。
- 統計的仮説検定は想定した分布の母数の値に関する議論とは別に、検定関数が与えられたときに標本空間を分割することでも定式化することができる。更に検定統計量が特定の値よりも大きくなるか否かによって定式化することができ、このとき検定統計量がある値を上回れば帰無仮説を棄却するとすると、帰無仮説の下での検定統計量の上側確率の上限をp値と呼び、そのp値が有意水準以下であれば帰無仮説を棄却するものとも定式化できる。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)