本気で学ぶ統計学(16/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
5.　統計量・標本分布とサンプリング
- 5.4　サンプリング
次回
参考文献

5.　統計量・標本分布とサンプリング

5.4　サンプリング

　確率変数 $X_1,\cdots,X_n$ の実現値として $x_1,\cdots,x_n$ が得られているとする。このときこれらの分布関数 $F_n(x)$ は $1$ つの固定した分布関数で、各 $x_i$ に確率 $\displaystyle{\frac{1}{n}}$ を持つような離散分布である。 $F_n(x)$ に従う確率変数を観測するということは既に得られた標本から再度標本抽出を行うことになる。このことを標本からのリサンプリングといい、上記のようなサンプリングは特に単純ランダムサンプリングという。
　このとき、

$\begin{aligned} F_n(x)=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\boldsymbol{1}_{(-\infty,x]}(X_i)} \end{aligned}$

であるが、固定した $x$ に対して $F_n(x)$ を確率変数と考えれば、 $\boldsymbol{1}_{(-\infty,x]}(X_i)$ は成功確率 $F_n(x)$ のベルヌーイ乱数と考えることができる。すなわち

$\begin{aligned} n F_n(x)\sim Bin(n,F(x)) \end{aligned}$

が成り立つ。
　既に得られた $x_1,\cdots,x_n$ の経験分布 $F_n$ からリサンプリングを繰り返し仮想的な標本の取り直しを $F_n$ から行う方法をブートストラップ法（bootstrapping/bootstrap method）という。具体的には、 $F_n$ から復元抽出で同じ標本サイズ $n$ のブートストラップ標本 $\tilde{X}_1,\cdots,\tilde{X}_n$ を抽出することを複数回繰り返す。標本サイズ $n$ が十分に大きく、経験分布 $F_n$ が未知の母集団分布 $F$ の良い近似になっていれば、ブートストラップ法により、 $F$ からの標本抽出を近似できる。
　標本平均や標本分散など標本の特性値は、 $F_n$ を確率分布とする母集団の特性値だと見なすことができる。実際、標本平均の場合、 $Y\sim F_n$ とすれば

$\begin{aligned} E[Y]=\displaystyle{\sum_{i=1}^{n}p(Y=x_i)x_i}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i }=\bar{x} \end{aligned}$

である。

5.4.1　有限母集団からの非復元抽出

　有限母集団から非復元抽出する場合、対数の弱法則や中心極限定理の成立に疑問を呈せざるを得なく、独立性も満たされない。
　サイズ $n$ の有限母集団を考え、母集団に所属する各個体の特性値を $a_1,\cdots,a_n$ とする。また $X_i,i=1,2,\cdots,k$ を標本として抽出された観測値だとする。非復元無作為抽出とは、任意の互いに異なる $i_1,\cdots,i_k$ について

$\begin{aligned} P(X_1=a_1,\cdots,X_k=a_k)=\displaystyle{\frac{1}{n(n-1)⋯(n-k+1)}} \end{aligned}$

となるような標本抽出法である。
　 $k$ 個の個体を一度に抜き出す場合、

$\begin{aligned} P(\{X_1,\cdots,X_k\}=\{a_1,\cdots,a_k\})=\displaystyle{\frac{1}{{}_nC_k}} \end{aligned}$

である。ここで有限母集団の母平均及び母分散は

$\begin{aligned} \mu=\bar{a}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}a_i},\sigma^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}(a_i-\mu)^2} \end{aligned}$

で定義する。
　標本平均を

$\begin{aligned} \bar{X}=\displaystyle{\frac{1}{k}\sum_{i=1}^{k}X_i} \end{aligned}$

で定義すると

$\begin{aligned} E[\bar{X}]=\mu,V[\bar{X}]=\displaystyle{\frac{n-k}{n-1}\frac{\sigma^2}{k}} \end{aligned}$

が成り立つ。実際

$\begin{aligned} E[\bar{X}]=E\left[\displaystyle{\frac{1}{k}\sum_{i=1}^{k}X_i}\right]=\displaystyle{\frac{1}{k}\sum_{i=1}^{k}}E[X_i]=\displaystyle{\frac{1}{k}}\cdot k\mu=\mu \end{aligned}$

である。
　また

$\begin{aligned} V[\bar{X}]&=V\left[\displaystyle{\frac{1}{k}\sum_{i=1}^{k}X_i}\right]\\ &=\displaystyle{\frac{1}{k^2}V\left[\displaystyle{\sum_{i=1}^{k}X_i}\right]}\\ &=\displaystyle{\frac{1}{k^2}\left(\displaystyle{\sum_{i=1}^{k}V[X_i]}+\displaystyle{\sum_{i\neq j}\mathrm{Cov}[X_i,X_j]}\right)}\\ &=\displaystyle{\frac{1}{k^2}\left(k V[X_i]+k(k-1)\mathrm{Cov}[X_1,X_2]\right)}\\ &=\displaystyle{\frac{1}{k}\left\{\sigma^2+(k-1)\mathrm{Cov}[X_1,X_2]\right\}} \end{aligned}$

である。ここで

$\begin{aligned} \mathrm{Cov}[X_1,X_2]&=E[X_1 X_2]-E[X_1]E[X_2]\\ &=\left\{\displaystyle{\frac{1}{n(n-1)}\sum_{i\neq j}a_i a_j}\right\}-\left(\displaystyle{\frac{1}{n}\sum_{i=1}^{n}a_i}\right)^2\\ &=\displaystyle{\frac{1}{n(n-1)}}\left\{\left(\displaystyle{\sum_{i=1}^{n}a_i}\right)^2-\displaystyle{\sum_{i=1}^{n}a_i^2}\right\}-\left(\displaystyle{\frac{1}{n}\sum_{i=1}^{n}a_i}\right)^2\\ &=\displaystyle{\frac{1}{n^2(n-1)}}\left(\displaystyle{\sum_{i=1}^{n}a_i}\right)^2-\displaystyle{\frac{1}{n(n-1)}\sum_{i=1}^{n}a_i^2}\\ &=-\displaystyle{\frac{1}{n(n-1)}\left\{\sum_{i=1}^{n}a_i^2-\frac{1}{n}\left(\sum_{i=1}^{n}a_i\right)^2\right\}}\\ &=-\displaystyle{\frac{1}{n-1}\frac{1}{n}\left\{\displaystyle{\sum_{i=1}^{n}a_i^2-\frac{1}{n}\left(\displaystyle{\sum_{i=1}^{n}a_i}\right)^2}\right\}}\\ &=-\displaystyle{\frac{\sigma^2}{n-1}} \end{aligned}$

であるから、これを代入することで

$\begin{aligned} V[\bar{X}]&=\displaystyle{\frac{1}{k}\left\{\sigma^2+(k-1)\mathrm{Cov}[X_1,X_2]\right\}}\\ &=\displaystyle{\frac{1}{k}\left(1-\frac{k-1}{n-1}\right)\sigma^2}\\ &=\displaystyle{\frac{n-k}{n-1}\frac{\sigma^2}{k}} \end{aligned}$

である。このときの係数 $\displaystyle{\frac{n-k}{n-1}}$ を有限補正という。
　推定の精度がある程度要求される場合、サンプリングに要する費用を最小化すべく、その精度を満たすのに必要な最低限度のサイズ $k$ を調べよう。たとえば母平均 $\mu$ を標本平均 $\bar{X}$ を推定することを考えると、 $\mathrm{Chebyshev}$ の不等式から

$\begin{aligned} &P\left\{|\bar{X}-\mu|\lt k\sqrt{V[\bar{X}]}\right\}\geq1-\displaystyle{\frac{1}{k^2}}\\ \Leftrightarrow\ &P\left\{\displaystyle{\frac{|\bar{X}-\mu|}{\sqrt{V[\bar{X}]}}}\lt k\right\}\geq1-\displaystyle{\frac{1}{k^2}} \end{aligned}$

が成り立つ。これを基に $k$ を決めればよい。

5.4.2　層別サンプリング

　もし母集団が特性値に関して、その中では似たような値を取る複数の層に分けることが可能ならば、層毎に平均を推定した方がより精度を高くできると期待できる。
　いまサイズがそれぞれ $n_1,\cdots,n_k(n_1+\cdots+n_k=n)$ の $k$ 個の層 $S_1,\cdots,S_k$ に母集団が分けられているとし、 $S_j$ に含まれている要素の特性値を $\theta_{j1},\cdots,\theta_{jn_j}$ とする。 $S_j$ の層平均を $\mu_j$ 、層分散を $\sigma_j^2$ とし、サイズの割合 $\pi_j$ を

$\begin{aligned} \pi_j=\displaystyle{\frac{n_j}{n}} \end{aligned}$

で定義する。このとき

$\begin{aligned} \mu&=\displaystyle{\sum_{j=1}^{k}\pi_j \mu_j},\\ \sigma^2&=\displaystyle{\sum_{j=1}^{k}\pi_j \sigma_j^2}+\displaystyle{\sum_{j=1}^{k}\pi_j(\mu_j-\mu)^2} \end{aligned}$

で与えられる。ここで

$\begin{aligned} \sigma_w^2=\displaystyle{\sum_{j=1}^{k}\pi_j\sigma_j^2} \end{aligned}$

を層内分散と呼ぶ。これは各層の分散の大きさの割合をウェイトとした加重平均である。他方で右辺第2項

$\begin{aligned} \sigma_b^2=\displaystyle{\sum_{j=1}^{k}\pi_j(\mu_j-\mu)^2} \end{aligned}$

は、各層を代表値で置き換えたときの大きさの割合をウェイトとした母平均の周りのバラつきを表す。これを層間分散という。
　層内サンプリングでの母平均 $\mu$ の推定を考える。層 $S_j$ からサイズ $k_j$ の非復元ランダムサンプルを行い、それで得られた各標本を $X_{j1},\cdots,X_{jk_{j}}$ とする。これらの平均値 $\bar{X}_j$ に重み $\pi_j$ を付けた平均値

$\begin{aligned} \bar{X}&=\displaystyle{\sum_{j=1}^{k}\pi_{j}\bar{X}_{j}}\\ &=\displaystyle{\sum_{j=1}^{k}\pi_j\frac{1}{n_j}\sum_{l=1}^{n_j}X_{jl}} \end{aligned}$

を用いて推定量とする。このとき

$\begin{aligned} V[\bar{X}]=\displaystyle{\sum_{j=1}^{k}\pi_{j}^2\frac{\sigma_j^2}{k_j}\frac{n_j-k_j}{n_j-1}} \end{aligned}$

が成り立つ。

5.4.3　比例サンプリング

　各層から取る標本数をその層のサイズに比例させて決める方式を比例サンプリングという。すなわち大きさが $n_j$ である各層から取る標本数 $k_j$ をある比例定数 $A$ を用いて

$\begin{aligned} k_j=An_j,j=1,2,\cdots,l \end{aligned}$

とする。このとき母集団のサイズを $n=\displaystyle{\sum_{j=1}^{l}n_j},\$ 観測総数 $k=\displaystyle{\sum_{j=1}^{l}k_j}$ として

$\begin{aligned} \displaystyle{\frac{k_1}{n_1}}=\cdots=\displaystyle{\frac{k_l}{n_l}}=\displaystyle{\frac{k}{n}} \end{aligned}$

が明らかに成り立ち、

$\begin{aligned} k_j=\displaystyle{\frac{n_j}{n}}k=\pi_j k,j=1,2,\cdots,l \end{aligned}$

を得る。比例サンプリングから算出する標本平均 $\bar{X}$ を $\bar{X}_p$ で表すと

$\begin{aligned} V[\bar{X}_p]=\displaystyle{\sum_{j=1}^{k}\pi_j^2\frac{\sigma_j^2}{k_j}\frac{n_j-k_j}{n_j-1}}=\displaystyle{\frac{1}{k}\sum_{j=1}^{k}\pi_j\sigma_j^2\frac{1-\frac{k_j}{n}}{1-\frac{1}{n_j}}} \end{aligned}$

が成り立つ。いま観測総数に対して母集団のサイズが十分に大きく

$\begin{aligned} \displaystyle{\frac{n_j-k_j}{n_j-1}}\approx1,\displaystyle{\frac{1-\displaystyle{\frac{k_j}{n}}}{1-\displaystyle{\frac{1}{n_j}}}}\approx 1,j=1,2,\cdots,l \end{aligned}$

が成立するならば、

$\begin{aligned} V[\bar{X}]-V[\bar{X}_p]\approx\displaystyle{\frac{\sigma^2}{k}-\frac{1}{k}\sum_{j=1}^{k}\pi_j \sigma_j^2}=\displaystyle{\frac{1}{k}\sum_{j=1}^{k}\pi_j(\mu_i-\mu)^2}\geq0 \end{aligned}$

を得る。したがって層内分散をより小さく、すなわちより層間分散を大きくすれば層別の効果がより大きく成り得る。

5.4.4　Neymanサンプリング

　観測総数 $k=\displaystyle{\sum_{j=1}^{l}k_j}=C$ (一定)として

$\begin{aligned} V[\bar{X}]=\displaystyle{\sum_{j=1}^{k}\pi_j^2{\sigma_j^2}{k_j}\frac{n_j-k_j}{n_j-1}} \end{aligned}$

を最小にするように各層における観測数 $k_j,j=1,2,\cdots,l$ を定める方法を $\mathrm{Neyman}$ サンプリングという。このとき、各層における標準偏差が既知であるならば、

$\begin{aligned} k_j=\displaystyle{\frac{kn_j\sigma_j\sqrt{\frac{n_j}{n_j-1}}}{\displaystyle{\sum_{j=1}^{l}n_j\sigma_j\sqrt{\frac{n_j}{n_j-1}}}}} \end{aligned}$

である。 $\mathrm{Neyman}$ サンプリングによる標本平均を $\bar{X}_N$ とすれば

$\begin{aligned} V[\bar{X}_N]&=\displaystyle{\sum_{j=1}^{k}\pi_j^2\frac{\sigma_j^2}{k_j}\frac{n_j-k_j}{n_j-1}}\\ &=\displaystyle{\sum_{j=1}^{k}\pi_j^2 \sigma_j^2\frac{n_j-k_j}{n_j-1}\frac{kn_j \sigma_j\sqrt{\frac{n_j}{n_j-1}}}{\displaystyle{\sum_{j=1}^{l}n_j\sigma_j\sqrt{\frac{n_j}{n_j-1}}}}}\\ &=\displaystyle{\frac{1}{k}\left(\displaystyle{\sum_{j=1}^{k}\pi_j\sigma_j\sqrt{\frac{n_j}{n_j-1}}}\right)\left(\displaystyle{\sum_{j=1}^{k}\pi_j\sigma_j\frac{n_j-k_j}{\sqrt{n_j(n_j-1)}}}\right)} \end{aligned}$

が成り立つ。したがって

$\begin{aligned} \displaystyle{\frac{n_j}{n_j-1}}&\approx1,\displaystyle{\frac{k_j}{n_j}}&\approx0,j=1,2,\cdots,l \end{aligned}$

ならば、

$\begin{aligned} \displaystyle{\sum_{j=1}^{k}\pi_j\sigma_j^2}\geq\left(\displaystyle{\sum_{j=1}^{k}\pi_j \sigma_j}\right)^2 \end{aligned}$

より $\mathrm{Neyman}$ サンプリングの方が比例サンプリングよりも標本平均の分散を小さく出来る。

5.4.5　Demingサンプリング

　 $\mathrm{Neyman}$ サンプリングでは標本平均の分散を最小にするように各層からの観測数を決定した。 $\mathrm{Deming}$ サンプリングではそれに加え標本を観測する際のコスト $c_j$ 円を加味し、総費用 $T_c=\displaystyle{\sum_{k=1}^{l}k_j c_j}$ を一定として

$\begin{aligned} V[\bar{X}]=\displaystyle{\sum_{j=1}^{k}\pi_j^2\frac{\sigma_j^2}{k_j}\frac{n_j-k_j}{n_j-1}} \end{aligned}$

を最小にするように各層からの観測数 $k_j,j=1,2,\cdots,l$ を選ぶ。
　このサンプリング手法における各層からの観測数 $k_j$ を求めよう。これは条件付き極値問題であるから、 $\mathrm{Lagrange}$ の未定乗数 $\lambda$ を導入して

$\begin{aligned} f(k_1,\cdots,k_l,\lambda)=V[\bar{X}]-\lambda\left(T_c-\displaystyle{\sum_{k=1}^{l}k_j c_j}\right) \end{aligned}$

を定義する。このとき

$\begin{aligned} \displaystyle{\frac{\partial f}{\partial k_i}}=-\displaystyle{\pi_j^2\frac{\sigma_j^2}{k_j^2}\frac{n_j-k_j}{n_j-1}}-\pi_j^2\displaystyle{\frac{\sigma_j^2}{k_j}\frac{1}{n_j-1}}+\lambda c_j=0 \end{aligned}$

であるから

$\begin{aligned} \lambda=\displaystyle{\frac{1}{c_j}\pi_j^2\frac{\sigma_j^2}{k_j^2}\frac{n_j}{n_j-1}} \end{aligned}$

および

$\begin{aligned} k_j=\displaystyle{\frac{\pi_j \sigma_j}{\sqrt{c_j}\sqrt{\lambda}}} \end{aligned}$

を得る。一方で

$\begin{aligned} T_c=\displaystyle{\sum_{k=1}^{l}k_j c_j}=\displaystyle{\frac{1}{\sqrt{\lambda}}\sum_{k=1}^{l}\frac{\pi_j\sigma_j c_j}{\sqrt{c_j}}\sqrt{\displaystyle{\frac{n_j}{n_j-1}}}} \end{aligned}$

であるから

$\begin{aligned} \displaystyle{\frac{1}{\sqrt{\lambda}}}=\displaystyle{\frac{T_c}{\displaystyle{\sum_{k=1}^{l}\pi_j\sigma_j\sqrt{c_j}\sqrt{\frac{n_j}{n_j-1}}}}} \end{aligned}$

を得る。したがって

$\begin{aligned} k_j=\displaystyle{\frac{T_c}{\displaystyle{\sum_{k=1}^{l}\pi_j \sigma_j\sqrt{c_j}\sqrt{\frac{n_j}{n_j-1}}}\frac{\pi_j \sigma_j}{\sqrt{c_j}}\sqrt{\displaystyle{\frac{n_j}{n_j-1}}}}} \end{aligned}$

が成り立つ。

5.4.6　集落サンプリング

　母集団を集落(クラスター)と呼ばれる複数のグループに分け、そのうちのいくつかを非復元単純ランダムサンプリングで選び、選ばれた集落は全数調査をする。
　集落の総数を $k$ とし、サンプリングされた集落数を $s$ とする。 $j$ 番目の集落の元は標識 $\theta_{j1},\cdots,\theta_{jN_j},j=1,2,\cdots,k$ を持つとする。元当たりの母集団平均

$\begin{aligned} \mu=\displaystyle{\frac{1}{N}\sum_{j=1}^{k}\sum_{i=1}^{N_j}\theta_{ji}},N=\displaystyle{\sum_{j=1}^{k}N_j} \end{aligned}$

を考える。集落 $j$ での総和

$\begin{aligned} \tau_j=\displaystyle{\sum_{i=1}^{N_j}\theta_{ji}} \end{aligned}$

を新しい標識と考えると、集落は非復元単純ランダムサンプルで $s$ 個選ばれるため、

$\begin{aligned} \bar{X}=\displaystyle{\frac{1}{s}\sum_{j=i_1}^{i_S}\tau_j} \end{aligned}$

は集落当たりの母集団平均

$\begin{aligned} \tau=\displaystyle{\frac{1}{k}\sum_{j=1}^{k}\tau_j}=\displaystyle{\frac{1}{k}\sum_{j=1}^{k}\sum_{i=1}^{N_j}\theta_{ji}} \end{aligned}$

の不偏推定量である。したがってもともと知りたかった元当たりの母集団平均

$\begin{aligned} \mu=\displaystyle{\frac{1}{N}\sum_{j=1}^{k}\sum_{i=1}^{N_j}\theta_{ji}}=\displaystyle{\frac{k}{N}\bar{\tau}} \end{aligned}$

の不偏推定量として

$\begin{aligned} \displaystyle{\frac{k}{N}\bar{X}}=\displaystyle{\frac{k}{N}\frac{1}{s}\sum_{j=i_1}^{i_S}\tau_j}=\displaystyle{\frac{k}{N}\frac{1}{s}\sum_{i=i_1}^{i_S}\sum_{i=1}^{N_j}\theta_{ji}} \end{aligned}$

を得る。このとき

$\begin{aligned} V[\bar{X}]=\displaystyle{\frac{1}{s}\frac{1}{k}\sum_{j=1}^{k}(\tau_j-\bar{\tau})^2\left(1-\displaystyle{\frac{s-1}{k-1}}\right)} \end{aligned}$

が成り立つから、

$\begin{aligned} V\left[\displaystyle{\frac{k}{N}}\bar{X}\right]=\displaystyle{\frac{k}{N^2 s}\frac{k-s}{k-1}\sum_{j=1}^{k}(\tau_j-\bar{\tau})^2} \end{aligned}$

を得る。この結果から、集落間の $\tau_j$ の分散

$\begin{aligned} \displaystyle{\frac{1}{k}\sum_{j=1}^{k}(\tau_j-\bar{\tau})^2} \end{aligned}$

が小さければ、この分散は小さくなる。そうなるように集落は設定する必要がある。

5.4.7　2段サンプリング

　集落に相当する第1次サンプリング単位をいくつか選んだ後にそれぞれの単位から単純ランダムサンプリングによって第2次サンプリング単位を選ぶ。このようなサンプリングを2段サンプリングという。
　第1次サンプリング単位の数を $K$ とし、 $i$ 番目の単位の大きさを $N_i$ で表すことにする。これからサイズが $k$ の第1次サンプルを非復元単純ランダムサンプリングで選び、 $i_1,\cdots,i_k$ で表す。選ばれた第 $i_j$ 単位から再び非復元単純ランダムサンプリングで大きさが $n_{i_j}$ の第2次サンプルを得る( $j=1,2,\cdots,k$ )。
　第 $i$ 番目の第1次サンプリング単位の $j$ 番目の要素の標識を $\theta_{i_j}$ で表す（ $i=1,\cdots,K,$ $j=1,\cdots,N_i$ ）。母集団平均

$\begin{aligned} \mu=\displaystyle{\frac{1}{N}\sum_{i=1}^{K}\sum_{j=1}^{N_i}}\theta_{i_j},\ N=\displaystyle{\sum_{i=1}^{K}N_i} \end{aligned}$

の推定を考えることにする。
　 $\theta=(\theta_{j_i}:j=1,\cdots,K,i=1,\cdots,N_j)$ とし、 $j$ 番目の第1次サンプリング単位の平均を

$\begin{aligned} \mu_j=\displaystyle{\frac{1}{N_j}\sum_{i=1}^{N_j}\theta_{j_i}} \end{aligned}$

と表す。このときに推定量

$\begin{aligned} \bar{X}=\displaystyle{\frac{1}{N}\frac{K}{k}\sum_{j=i_1}^{i_k}\frac{N_j}{n_j}\theta_{j_i}} \end{aligned}$

を考える。この推定量は $\mu$ の不偏推定量である。
　実際、

$\begin{aligned} E_{\theta}[\bar{X}]&=E_{\theta}[E_{\theta}[\bar{X}|\{i_1,i_2,\cdots,i_k\}]]\\ &=E_{\theta}\left[\displaystyle{\frac{K}{Nk}\sum_{j=i_1}^{i_k}N_j\mu_j}\right]\\ &=\displaystyle{\frac{K}{Nk}\frac{1}{K(K-1)\cdots(K^k+1)}\sum_{l=1}^{k}N_{i_l}\mu_{i_l}}\\ &=\displaystyle{\frac{K}{Nk}\frac{1}{K(K-1)\cdots(K^k+1)}k(K-1)\cdots(K-k+1)\sum_{j=1}^{K}N_{j}\mu_{j}}\\ &=\displaystyle{\frac{1}{N}\sum_{j=1}^{K}N_{j}\mu_{j}}\\ &=\mu \end{aligned}$

である。
　また

$\begin{aligned} V[\bar{X}]=\displaystyle{\frac{K^2}{N^2}\frac{\sigma_{N\mu}^2}{k}\frac{K-k}{K-1}}+\displaystyle{\frac{K}{k}\sum_{j=1}^{K}\pi_j^2\frac{\sigma_j^2}{n_j}\frac{n_j-1}{N_j-1}} \end{aligned}$

が成り立つ。ここで

$\begin{aligned} \sigma_{N\mu}^2&=\displaystyle{\frac{1}{K}\sum_{j=1}^{K}\left(N_j\mu_j-\displaystyle{\frac{1}{K}}\sum_{j=1}^{K}N_j\mu_j\right)^2},\\ \pi_j&=\displaystyle{\frac{N_j}{N}},\\ \sigma_j^2&=\displaystyle{\frac{1}{N_j}\sum_{i=1}^{N_j}(\theta_{j_i}-\mu_j)^2},j=1,2,\cdots,K \end{aligned}$

である。実際、

$\begin{aligned} V_{\theta}[\bar{X}]=V_{\theta}[E_{\theta}[\bar{X}|\{i_1,i_2,\cdots,i_k\}]]+E_{\theta}[V_{\theta}[\bar{X}|\{i_1,\cdots,i_k\}]] \end{aligned}$

が成り立つことに注意すれば、

$\begin{aligned} E_{\theta}[\bar{X}|\{i_1,\cdots,i_k\}]=\displaystyle{\frac{K}{Nk}\sum_{j=i_1}^{i_k}N_j\mu_j} \end{aligned}$

で、 $N_j\mu_j j=i_1,i_2,\cdots,i_k$ は

$\begin{aligned} N_1\mu_1,\cdots,N_K\mu_K \end{aligned}$

からの非復元単純ランダムサンプリングだと考えられるから、

$\begin{aligned} V\left[\displaystyle{\frac{K}{Nk}\sum_{j=i_1}^{i_k}N_j\mu_j}\right]=\displaystyle{\frac{K^2}{N^2}\frac{\sigma_{N\nu}^2}{k}\frac{K-k}{K-1}} \end{aligned}$

を得る。次に $E_{\theta}[V_{\theta}[\bar{X}|\{i_1,\cdots,i_k\}]]$ について、選ばれた異なる第1次サンプリング単位内の観測値は独立であることに注意すれば

$\begin{aligned} V_{\theta}[\bar{X}|\{i_1,\cdots,i_k\}]=\displaystyle{\frac{K^2}{N^2k^2}\sum_{j=i_1}^{i_k}N_j^2\frac{\sigma_j^2}{n_j}\frac{n_j-1}{N_j-1}} \end{aligned}$

である。したがって

$\begin{aligned} &E_{\theta}[V_{\theta}[\bar{X}|\{i_1,\cdots,i_k\}]]\\ =&\displaystyle{\frac{K^2}{N^2k^2}\frac{1}{K(K-1)\cdots(K-k+1)}k(K-1)\cdots(K-k+1)\sum_{j=1}^{K}N_j^2\frac{\sigma_j^2}{n_j}\frac{n_j-1}{N_j-1}}\\ =&\displaystyle{\frac{K}{N^2k}\sum_{j=1}^{K}N_j^2\frac{\sigma_j^2}{n_j}\frac{n_j-1}{N_j-1}} \end{aligned}$

となり、示すべき式を得た。

5.4.8　母集団の大きさの推定

　母集団の大きさを推定する方法として、 $\mathrm{Jolly}$ - $\mathrm{Seber}$ 法がある。

5.4.9　逐次サンプリング

　取るべき標本のサイズは、一般に推定の精度に関係する。
　逐次サンプリング法は予め設定された推定の精度を達するのに、1つ1つ観測値を取りそれを見ながらそれまでの観測値に基づいてある推論を下すのか、またはそれだけでは不十分でもう1つ観測が必要と判断するか、その都度決めながら進む方法である。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

前回

5. 統計量・標本分布とサンプリング

5.4 サンプリング

5.4.1 有限母集団からの非復元抽出

5.4.2 層別サンプリング

5.4.3 比例サンプリング

5.4.4 Neymanサンプリング

5.4.5 Demingサンプリング

5.4.6 集落サンプリング

5.4.7 2段サンプリング

5.4.8 母集団の大きさの推定

5.4.9 逐次サンプリング

次回