本気で学ぶ統計学(19/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
7.　統計的推測論
次回
参考文献

7.　統計的推測論

　データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
　他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値（これを「真の値」という）が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。

7.1.3　十分性

　標本から統計量を得るとき、標本自体が有する“情報”は $100\%$ 反映されるとは限らない。通常は何らかの縮約が起こるはずで、もし標本から統計量を推定する過程で除外された情報が真の値に関するものであれば、推定精度を悪化させるはずである。であれば統計量は標本が持つ情報を可能な限り活かすような関数であることが望ましい。これを数学的に表現すると、統計量 $T$ を与えたときの $X=(X_1,\cdots,X_n)$ の条件付き分布が未知の母数 $\theta$ に依存しないことが望ましいと言える。
　以上を踏まえ、統計量 $T$ が母数 $\theta$ に関する十分推定量であるとは、 $T$ を与えたときの標本の条件付き分布に依存しないことをいう。

例：二項乱数の生成とベルヌーイ乱数の生成
　 $X_i\sim B(p),i=1,2,\cdots,n$ において統計量
$\begin{aligned} Y=\displaystyle{\sum_{i=1}^{n}X_i} \end{aligned}$
に関する何らかの観測を行う場合を考える。二項分布の性質から明らかに $Y\sim Bin(n,p)$ である。このとき $Y$ の分布が分かっているのだから、 $Y$ 自体を観測する方法と、 $X_1,\cdots,X_n$ を直接的に観測して間接的に $Y$ を得る方法を想定できるが、これらに違いはあるのだろうか。
　 $Y$ は直観的には成功総数と言えるが、後者で得た場合、何回目の試行で成功したのかという情報が得られる。ここで $p$ を知りたくて推定を行う場合、その情報の有無は $p$ の推定精度に意味をもたらすだろうか。
　もし意味を持つのであれば、ある $Y$ を与えたときの $X=(X_1,\cdots,X_n)$ の条件付き分布が $Y$ に依存するはずである。しかし、
$\begin{aligned} P(X_1=x_1,\cdots,X_n=x_n|Y=y)&=\displaystyle{\frac{P(X_1=x_1,\cdots,X_n=x_n,Y=y)}{P(Y=y)}}\\ &=\displaystyle{\frac{1}{{}_{n}C_{y}}} \end{aligned}$
である。このように $p$ の値にかかわらず、 ${}_{n}C_{y}$ 通りの成功と失敗の並び方はすべて同様に確からしいことが分かる。したがって $Y=y$ が与えられたとき、成功と失敗の並び自体は $p$ に関する情報を有していないと考えられる。

　ただし条件付き分布を求めるのは、特に標本数が多くなれば、一般に難しい。そこで以下の $\mathrm{Neyman}$ の因子分解定理を利用する方が望ましい。

Neymanの因子分解定理　確率変数 $X_1,\cdots,X_n$ の結合密度関数または確率関数 $f(x_1,\cdots,x_n,\theta)$ に対して統計量 $T$ が十分統計量であることの必要十分条件は $f(x_1,\cdots,x_n,\theta)$ が

$\begin{aligned} f(x_1,\cdots,x_n,\theta)=g_\theta (T(X_1,\cdots,X_n))h(x_1,\cdots,x_n ) \end{aligned}$

という形で分解できることである。

　平均二乗誤差を用いるような統計的決定理論に基づく推定では、十分統計量に基づく非確率化決定関数を構成することができる。 $\delta(X)$ を未知母数 $\theta$ の推定量とし、平均二乗誤差

$\begin{aligned} R(\theta,\delta)=E_{\theta}[(\delta(X)-\theta)^2] \end{aligned}$

をリスク関数として取る。ここで

$\begin{aligned} \delta^{*} (T)=E[\delta(X)|T] \end{aligned}$

とおくとき、以下の $\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理が成り立つ。

$\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理　未知母数 $\theta$ の推定量 $\delta(X)$ に関して $\delta^{*} (T)=E[\delta(X)|T]$ を考えると、

$\begin{aligned} E_{\theta}[(\delta^{*}(T)-\theta)^2]\leq E_{\theta}[(\delta(X)-\theta)^2],{}^{\forall}\theta \end{aligned}$

が成り立つ。等号は $\delta(X)=\delta^{*}(T)=1$ となるときのみ成立する。

( $\because$ 　推定量 $\delta(X)$ の平均二乗誤差を計算すると、

$\begin{aligned} E_{\theta}[(\delta(X)-\theta)^2]=&E_{\theta}[\left\{(\delta(X)-\delta^{*}(T))+(\delta^{*}(T)-\theta)\right\}^2]\\ =&E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)^2]+E_{\theta}[(\delta^{*}(T)-\theta)^2]\\ &+2E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)] \end{aligned}$

である。右辺第3項について

$\begin{aligned} E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)\right]&=E_\theta^{T}\left[E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)\right]|T\right]\\ &=E_\theta^{T}\left[(\delta^{*}(T)-\theta)E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)\right]|T\right]\\ &=0(\because　E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)]=0) \end{aligned}$

を代入すれば、

$\begin{aligned} E_{\theta}[(\delta(X)-\theta)^2]&=E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)^2]+E_{\theta}[(\delta^{*}(T)-\theta)^2]\\ &\geq E_{\theta}[(\delta^{*}(T)-\theta)^2] \end{aligned}$

が成り立つ。等号が成り立つのは $E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)^2\right]=0$ の場合で、それは $P_{\theta}\left(\delta(X)=\delta^{*}(T)\right)=1$ と同値である。　 $\blacksquare$ )

　 $\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理から、分散の小さい不偏推定量を求める場合、十分統計量の関数になっている不偏推定量のみを考えればよいことが分かる。

7.1.4　完備十分統計量

　十分統計量が完備性を持つ場合、十分統計量に基づく推定においてより強固な議論を進めることができる。

完備十分統計量　統計量 $T(X)$ が完備であるとは、 $T$ の関数 $g(T)$ の中で恒等的にその期待値が $0$ になることは定数 $0$ に限ることをいう。すなわち

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(E_\theta^{T}\left[g(T)\right]=0\right)\Longrightarrow g(t)\equiv0 \end{aligned}$

が成り立つことをいう。完備であるような十分統計量を完備十分統計量という。

　完備性の利点は、完備統計量の関数であるような $0$ の不偏推定量は $0$ であり、したがって $g(\theta)$ の不偏推定量で完備統計量の関数であるようなものは存在しても高々1つしかないということが保証される点にある。
　完備性を持つならば、 $\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理から一様最小分散不偏統計量の求め方を与えるLehmann-Schefféの定理が導かれる。

Lehmann-Schefféの定理　確率変数 $X=(X_1,\cdots,X_n)$ の同時分布を $P_{\theta},\theta\in\Theta$ とし、統計量 $T$ は $\left\{P_{\theta};\theta\in\Theta\right\}$ に対して完備十分統計量であるとする。母数 $\theta$ の関数 $g(\theta)$ に対し、分散が有限な不偏推定量が少なくとも1つ存在するならば、 $g(\theta)$ に対する一様最小分散不偏統計量が存在する。

( $\because$ 　　分散が有限な $g(\theta)$ の不偏推定量を $U(X)$ とする。このとき不偏性の定義から

$\begin{aligned} E_{\theta}\left[U(X)\right]=g(\theta) \end{aligned}$

である。いま $U_0(t)=E[U|T=t]$ を導入する。すると $\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理から、 $U_0$ は $g(\theta)$ の不偏推定量であり、さらに

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(V[U_0]\leq V[U]\right) \end{aligned}$

が成り立つ。
　 $g$ に関する任意の不偏推定量 $S(X)$ に対しても $\mathrm{Rao}$ - $\mathrm{Blackwell}$ の定理から

$\begin{aligned} S_0 (t)=E[S|T=t] \end{aligned}$

は $g(\theta)$ の不偏推定量であり、さらに

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(V[S_0]\leq V[S]\right) \end{aligned}$

が成り立つ。
　 $U_0,S_0$ はともに $T$ の関数で $g(\theta)$ の不偏推定量であるから、 $U_0-S_0$ は $T$ の関数でしかも $0$ の不偏推定量である。 $T$ は完備であったから、

$\begin{aligned} U_0-S_0=0 \end{aligned}$

が成り立ち、

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(V[U_0]=V[S_0]\leq V[S]\right) \end{aligned}$

を得るが、 $U_0$ の不偏性と併せ、これは一様最小分散不偏統計量の定義に他ならない。　 $\blacksquare)$

　Lehmann-Schefféの定理に基づけば、完備十分統計量の関数であるような不偏推定量は一様最小分散不偏統計量である。

7.1.5　一致性

　直感的に言えば、標本数の多い方が母集団の確率的な振る舞いを検討する、すなわち推定を行うにあたっては望ましいと考えられる。そこで分布 $P_{\theta},\theta\in\Theta$ から得られた標本数 $n$ の無作為標本 $X_1,\cdots,X_n$ に基づく関数 $g(\theta)$ の推定量 $T_n=T(X_1,\cdots,X_n)$ について、その“良さ”を考える見地として標本数が無限に大きくなるときの点列 $\{T_n\}$ の近似的な性質を考えて、そこから望ましい性質を追究する方法が想定できる。またある推定量の確率分布がその極限において代表的な確率分布（たとえば正規分布）で表される場合、充分な標本数がある場合に近似的にその分布の下で議論すれば、相当簡単に推定を行うことができる。そこで一致性という概念を導入できる。

一致性　推定量 $T_n=T(X_1,\cdots,X_n)$ が任意の $\epsilon\gt0,\theta\in\Theta$ に対して

$\begin{aligned} \displaystyle{\lim_{n\rightarrow\infty}P_{\theta}\left(\|T_n-g(\theta)\|\gt\varepsilon\right)}=0 \end{aligned}$

となるとき、すなわち $T_n$ が $g(\theta)$ に確率収束するとき、 $T_n$ は $g(\theta)$ の一致推定量であるという。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

前回

7. 統計的推測論

7.1.3 十分性

7.1.4 完備十分統計量

7.1.5 一致性

次回

参考文献

7.　統計的推測論

7.1.3　十分性

7.1.4　完備十分統計量

7.1.5　一致性