統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
前回
5. 統計量・標本分布とサンプリング
5.4 サンプリング
確率変数の実現値としてが得られているとする。このときこれらの分布関数はつの固定した分布関数で、各に確率を持つような離散分布である。に従う確率変数を観測するということは既に得られた標本から再度標本抽出を行うことになる。このことを標本からのリサンプリングといい、上記のようなサンプリングは特に単純ランダムサンプリングという。
このとき、
であるが、固定したに対してを確率変数と考えれば、は成功確率のベルヌーイ乱数と考えることができる。すなわち
が成り立つ。
既に得られたの経験分布からリサンプリングを繰り返し仮想的な標本の取り直しをから行う方法をブートストラップ法(bootstrapping/bootstrap method)という。具体的には、から復元抽出で同じ標本サイズのブートストラップ標本を抽出することを複数回繰り返す。標本サイズが十分に大きく、経験分布が未知の母集団分布の良い近似になっていれば、ブートストラップ法により、からの標本抽出を近似できる。
標本平均や標本分散など標本の特性値は、を確率分布とする母集団の特性値だと見なすことができる。実際、標本平均の場合、とすれば
である。
5.4.1 有限母集団からの非復元抽出
有限母集団から非復元抽出する場合、対数の弱法則や中心極限定理の成立に疑問を呈せざるを得なく、独立性も満たされない。
サイズの有限母集団を考え、母集団に所属する各個体の特性値をとする。またを標本として抽出された観測値だとする。非復元無作為抽出とは、任意の互いに異なるについて
となるような標本抽出法である。
個の個体を一度に抜き出す場合、
である。ここで有限母集団の母平均及び母分散は
で定義する。
標本平均を
で定義すると
が成り立つ。実際
である。
また
である。ここで
であるから、これを代入することで
である。このときの係数を有限補正という。
推定の精度がある程度要求される場合、サンプリングに要する費用を最小化すべく、その精度を満たすのに必要な最低限度のサイズを調べよう。たとえば母平均を標本平均を推定することを考えると、の不等式から
が成り立つ。これを基にを決めればよい。
5.4.2 層別サンプリング
もし母集団が特性値に関して、その中では似たような値を取る複数の層に分けることが可能ならば、層毎に平均を推定した方がより精度を高くできると期待できる。
いまサイズがそれぞれの個の層に母集団が分けられているとし、に含まれている要素の特性値をとする。の層平均を、層分散をとし、サイズの割合を
で定義する。このとき
で与えられる。ここで
を層内分散と呼ぶ。これは各層の分散の大きさの割合をウェイトとした加重平均である。他方で右辺第2項
は、各層を代表値で置き換えたときの大きさの割合をウェイトとした母平均の周りのバラつきを表す。これを層間分散という。
層内サンプリングでの母平均の推定を考える。層からサイズの非復元ランダムサンプルを行い、それで得られた各標本をとする。これらの平均値に重みを付けた平均値
を用いて推定量とする。このとき
が成り立つ。
5.4.3 比例サンプリング
各層から取る標本数をその層のサイズに比例させて決める方式を比例サンプリングという。すなわち大きさがである各層から取る標本数をある比例定数を用いて
とする。このとき母集団のサイズを観測総数として
が明らかに成り立ち、
を得る。比例サンプリングから算出する標本平均をで表すと
が成り立つ。いま観測総数に対して母集団のサイズが十分に大きく
が成立するならば、
を得る。したがって層内分散をより小さく、すなわちより層間分散を大きくすれば層別の効果がより大きく成り得る。
5.4.4 Neymanサンプリング
観測総数(一定)として
を最小にするように各層における観測数を定める方法をサンプリングという。このとき、各層における標準偏差が既知であるならば、
である。サンプリングによる標本平均をとすれば
が成り立つ。したがって
ならば、
よりサンプリングの方が比例サンプリングよりも標本平均の分散を小さく出来る。
5.4.5 Demingサンプリング
サンプリングでは標本平均の分散を最小にするように各層からの観測数を決定した。サンプリングではそれに加え標本を観測する際のコスト円を加味し、総費用を一定として
を最小にするように各層からの観測数を選ぶ。
このサンプリング手法における各層からの観測数を求めよう。これは条件付き極値問題であるから、の未定乗数を導入して
を定義する。このとき
であるから
および
を得る。一方で
であるから
を得る。したがって
が成り立つ。
5.4.6 集落サンプリング
母集団を集落(クラスター)と呼ばれる複数のグループに分け、そのうちのいくつかを非復元単純ランダムサンプリングで選び、選ばれた集落は全数調査をする。
集落の総数をとし、サンプリングされた集落数をとする。番目の集落の元は標識を持つとする。元当たりの母集団平均
を考える。集落での総和
を新しい標識と考えると、集落は非復元単純ランダムサンプルで個選ばれるため、
は集落当たりの母集団平均
の不偏推定量である。したがってもともと知りたかった元当たりの母集団平均
の不偏推定量として
を得る。このとき
が成り立つから、
を得る。この結果から、集落間のの分散
が小さければ、この分散は小さくなる。そうなるように集落は設定する必要がある。
5.4.7 2段サンプリング
集落に相当する第1次サンプリング単位をいくつか選んだ後にそれぞれの単位から単純ランダムサンプリングによって第2次サンプリング単位を選ぶ。このようなサンプリングを2段サンプリングという。
第1次サンプリング単位の数をとし、番目の単位の大きさをで表すことにする。これからサイズがの第1次サンプルを非復元単純ランダムサンプリングで選び、で表す。選ばれた第単位から再び非復元単純ランダムサンプリングで大きさがの第2次サンプルを得る()。
第番目の第1次サンプリング単位の番目の要素の標識をで表す()。母集団平均
の推定を考えることにする。
とし、番目の第1次サンプリング単位の平均を
と表す。このときに推定量
である。
また
が成り立つ。ここで
である。実際、
が成り立つことに注意すれば、
で、は
からの非復元単純ランダムサンプリングだと考えられるから、
を得る。次にについて、選ばれた異なる第1次サンプリング単位内の観測値は独立であることに注意すれば
である。したがって
となり、示すべき式を得た。
5.4.8 母集団の大きさの推定
母集団の大きさを推定する方法として、-法がある。
5.4.9 逐次サンプリング
取るべき標本のサイズは、一般に推定の精度に関係する。
逐次サンプリング法は予め設定された推定の精度を達するのに、1つ1つ観測値を取りそれを見ながらそれまでの観測値に基づいてある推論を下すのか、またはそれだけでは不十分でもう1つ観測が必要と判断するか、その都度決めながら進む方法である。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)