統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
8. 統計的仮説検定
8.4 具体的な検定問題
今までで仮説検定の理論的な背景について議論してきた。ここからは詳細な問題設定を与えた上で具体的な検定手法を導出していくことにする。
その前にここまでの議論をシステマティックに考え方を整理しておこう。
(1)帰無仮説の設定 | 棄却されることを前提とした仮説を立てる。 | |
---|---|---|
(2)対立仮説の設定 | 採択されることを前提とした仮説を立てる。 | |
(3)標本の確認 | 得た標本から標本統計量および標本サイズを確認する。 | |
(4)検定統計量の計算 | 条件に合った検定統計量を計算する。 | |
(5)棄却域の決定 | 有意水準、両側検定か片側検定か否か、自由度などから棄却域を決定する。 | |
(6)検定統計量と棄却域の比較 | ならば帰無仮説を棄却する。そうでなければ棄却しない。 | |
(7)結論を述べる | 以上を受けて結論付ける。 |
まず自分が示したい仮説を否定するような、すなわち棄却されることを前提とした仮説を立てて、それを帰無仮説と設定する。次に本来自分が示したかった仮説を対立仮説として設定する。
次にいくつかの検討事項、すなわち
(1)「パラメトリック検定」か「ノンパラメトリック検定」か否か | |
(2)検定の目的 | |
(3)標本サイズ | |
(4)分散(標準偏差)が既知か否か | |
(5)「対応のあるデータ」か「対応の無いデータ」か否か*1 |
を考慮して適切な検定統計量を決定する。
検定統計量の分布および有意水準に基づき、棄却域と採択域とに分布を区分けすることができる。あらためて整理しておくと、対立仮説を前提としたときに観測した標本から計算した標本統計量の推定値が得られるが、その標本統計量の分布からその推定値以下(以上)の値を取る確率が計算できる。その計算した確率が有意水準よりも小さいということは、対立仮説の下で標本統計量の推定値を得るような確率*2がまずあり得ない程に低いということだから、対立仮説が正しいという仮定に疑問を呈するべきだと考え、帰無仮説を棄却しない(=示したかった仮説があやまりだろうと考える。)。
上記では有意水準と確率とを比較したが、これは標本統計量の①推定値自体とその標本統計量の分布の下において有意水準を与えるような値(棄却限界値という。)とを比較することとやっていることは等しい。そこで標本統計量の推定値と棄却限界値(棄却域)とを比較することで仮説の棄却について検討する。
棄却限界値および棄却域を決めるためには、両側検定をするのか、片側検定をするのかが決まっていないといけない。両側検定を用いるべきときと片側検定を用いるべきときはそれぞれ以下のような場合である:
両側検定を用いるべきとき: | |
---|---|
(1)分析者が両側の偏りに興味を持つとき | |
(2)調査結果(標本)の方向性が想定できないとき | |
(3)具体的に特定の値を取るか否かを検討するとき | |
片側検定を用いるべきとき: | |
(1)分析者が特定の方向に関心があるとき | |
(2)具体的に特定の値よりも大きい(小さい)を検討するとき |
特段指定が無いのであれば、両側検定をしておくことが望ましい。
仮説の真偽を検討する際には、第1種の誤りおよび第2種の誤りの発生を検討することになる。
検定で帰無仮説を採択するか |
検定で帰無仮説を棄却するか |
||
---|---|---|---|
仮説の真偽 |
を採択 |
を棄却 |
|
は真 | ①正しい判定(確率) | ③第1種の誤り(確率) | |
は偽 | ②第2種の誤り(確率) | ④正しい判定(確率) |
最も問題になるのは、③帰無仮説が偽であるのにその帰無仮説を採択してしまうことで、この第2種の誤りは確率で生じ、またこれはコントロールできない。
標本サイズは明確な区分けがあるわけではないが、分布が標準正規分布にほぼ近似できるという観点から、1つの目安として標本サイズが以上か否かで判断することがある。より堅確にするには以上あるか否かを見るとよい。以下では左記の条件を満たす程大きい標本サイズを持つときを大標本、そうでない場合を小標本と呼ぶこととする。
8.4.1 仮説検定法の分類一覧
パラメトリック検定 |
検定内容 |
|
---|---|---|
母平均 |
母平均の比較値との差の検定 | |
母平均の比較値との差の検定 | ||
対応の無い2つの母平均の差の検定 | ||
対応の無い2つの母平均の差の検定 | ||
2つの母平均の差のの検定 | ||
2つの母平均の差の検定 | ||
2つの母平均の差の検定 | ||
母分散 |
母分散の比較値との差の検定 | |
母分散の比の検定 | ||
分散分析表の分散比の検定 | ||
相関係数・回帰係数 |
の積率相関係数の無相関の検定 | |
母相関係数の比較値との差の検定 | ||
偏相関係数の無相関の検定 | ||
単回帰における回帰係数の検定 | ||
ノンパラメトリック検定 |
検定内容 |
|
母比率 |
母比率の比較値との差の検定 | |
母比率の比較値との差の検定 | ||
2つの母比率の差の検定(対応のないデータ) | ||
2つの母比率の差の検定(対応のある排反データ) | ||
2つの母比率の差の検定(対応のある重複データ) | ||
比率の差の「検定」 | ||
比率の差の「の検定」 | ||
適合度 |
適合度の検定 | |
1標本-検定 | ||
独立性 |
独立性の検定(表) | |
独立性の検定(分割表) | ||
対応の無い2標本 |
代表値の差の-の検定 | |
代表値の差の2標本-検定 | ||
対応のある2標本 |
代表値の差のの符号付順位和検定 | |
対応の無い標本 |
代表値の差の-検定 | |
対応のある標本 |
代表値の差の検定 | |
順位相関係数 |
の順位相関係数の検定 | |
の順位相関係数の検定 |
8.5 ノンパラメトリック検定
8.5.1 母比率の比較値との差のz検定
母集団のうちある条件を満たすものの比率(母比率)がある値よりも大きいのか否かを検定する。すなわち母比率およびその比較水準について
帰無仮説:
対立仮説:
を考える。このとき大標本による標本比率をとして検定統計量
は、近似的に標準正規分布に従うことが知られている。そこで標準正規分布の片側%点をとおくとき、であれば帰無仮説を棄却する。
8.5.2 母比率の比較値との差のF検定
母集団のうちある条件を満たすものの比率(母比率)がある値よりも大きいのか否かを検定する。すなわち母比率およびその比較水準について
帰無仮説:
対立仮説:
を考える。このとき小標本による標本比率をとして検定統計量または
は、それぞれ近似的に分布に従うことが知られている。そこで統計量の値を対応する分布のパーセント点と比較して帰無仮説の受容・棄却を判断する。
8.5.3 2つの母比率の差のz検定(対応のないデータ)
2つの母集団のある比率が等しいか否かを検定する。これらの母集団からの標本サイズ()の異なる2つの独立した標本の標本比率として、母比率について
帰無仮説:
対立仮説:
を考える。このとき検定統計量
は、近似的に標準正規分布に従うことが知られている。そこで標準正規分布の両側%点をとおくとき、であれば帰無仮説を棄却する。
8.5.4 2つの母比率の差のz検定(対応のある排反データ)
ある母集団について互いに排反な事象の起きた母比率をとしてそれらに差があるかを検定する。母比率について
帰無仮説:
対立仮説:
を考える。の起きた標本サイズおよび標本比率をそれぞれとすれば、このとき検定統計量
は、近似的に標準正規分布に従うことが知られている。そこで標準正規分布の両側%点をとおくとき、であれば帰無仮説を棄却する。
8.5.5 2つの母比率の差のz検定(対応のある重複データ)
ある母集団について共通部分が空でない事象の起きた母比率をとしてそれらに差があるかを検定する。母比率について
帰無仮説:
対立仮説:
を考える。の起きた標本サイズおよび標本比率をそれぞれとし、これらが両方とも起きた標本比率をすれば、このとき検定統計量
は、近似的に標準正規分布に従うことが知られている。そこで標準正規分布の両側%点をとおくとき、であれば帰無仮説を棄却する。
8.5.6 比率の差の「McNemar検定」
データ表(分割表)があるとき、対応のある2つのデータの比率の差を判定したいとする。すなわち以下の表
要素 | ||||
---|---|---|---|---|
当てはまる |
当てはまらない |
計 |
||
要素 | 当てはまる |
|||
当てはまらない |
||||
計 |
において要素の母比率および要素の母比率に差があるか否かについて、検定
帰無仮説:
対立仮説:
を考える。このとき検定統計量
は、分母が充分に大きいとき、近似的に自由度のカイ二乗分布に従うことが知られている。そこで自由度のカイ二乗分布の片側%点をとおくとき、であれば帰無仮説を棄却する。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- Wald, A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)