本気で学ぶ統計学(18/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
7.　統計的推測論
- 7.1　点推定論
  - 7.1.1　不偏性
  - 7.1.2　Cramér-Raoの不等式
次回
参考文献

7.　統計的推測論

　データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
　他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値（これを「真の値」という）が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。
　統計量のうち特にある特性値が取る値の推定を志向しているとき、実際の推定問題においては、観測した標本を何らかの手段で加工して推測した値とする。このとき標本は確率変数と見なされるが、こうして推測するために標本（確率変数）の関数として表された統計量を推定量（ $\mathrm{estimator}$ ）という。統計量は確率変数の関数であるから、推定量も確率変数であることは明らかである。標本の値を具体的に得ているのであれば、具体的に観測した標本の値を推定量に代入することで具体的な実現値を計算することができる。このような実現値を推定値( $\mathrm{estimate}$ )という。推定量と推定値の意味の違いは大きいので注意されたい。
　統計的推測にあたっては、

点推定論：推計対象を標本の関数として具体的に表現し実際の観測値を与えて具体的な推計値（1点）を与えるような考え方
区間推定論：推計対象が所属し観測値に依存する区間（範囲）を与えるような考え方

の2つの方法がある。いずれが望ましいのかは自らが考えている問いに応じて選ぶべきものであり、統計的推測論からその選択が機械的になされるわけではない。

7.1　点推定論

　点推定は具体的な1つの実現値を得られるという意味では統計学的な見地からではなく実際の問題の見地から扱いやすい場面も少なくない。しかしその1つの数値を見ただけではその意味や背景における仮定を解釈することは困難である。また推計方法が一意でない以上、数値からではその推計に用いた方法が“良い”ものなのかは判断できない。そのため、推定量を“上手く”与えることで“良い”方法で推計を行うことが望ましいと言える。すなわち点推定を考える場合、（1）「“良い”推定」のための基準を導入し、そうした基準を満たすという意味での（2）知りたい特定値の“良い”推定量を与えることが目標となる *1。

　点推定にあたって推定量は標本の関数であるが、標本は確率変数であるから具体的に観測しない限り、推定量も確率変数である。すなわち推定量は確率的な振る舞いを行うのである。推定対象は何らかの値を有しているのだが未知であるというのが推計にあたっての大前提であるが、その未知だが存在すると仮定している推定対象の値を「真の値」と呼ぶ。この真の値に対して推定量がどのような振る舞いをするのかを考えれば理想的な基準を演繹できそうである。ではその基準をどのように考えるべきか。

　点推定を数学的に規定すると分布 $P_{\theta},\theta\in\Theta$ から得られた標本数 $n$ の無作為標本 $X_1,\cdots,X_n$ に基づく関数 $g(\theta)$ の推定量 $T_n=T(X_1,\cdots,X_n)$ を考えることに他ならないのであるが、ここから

	(a)	同じ標本数 $n$ を与えて何度か観測を行った場合に、(a)真の値を中心として値が出やすく、また(b)その中心からのブレがなるべく小さい推定量が“良い”推定量である。
	(b)	ある無作為標本 $X_1,\cdots,X_n$ があったとき、それが母集団について有する「情報」を極力反映した推定量が“良い”推定量である。
	(c)	標本数が無限に大きいという理想的な状況で推定量が有する性質を（なるべく小さな標本数でも）有する推定量が“良い”推定量である。

と考えることができる。
　以上の考察から「“良い”推定」手段について現在普通に認められる代表的な基準として以下の3つを導入できる：

(1)	不偏性・有効性	推定量の期待値が真の値に等しいという性質。また特定の不等式から得た分散の最小値にその推定量の分散が等しい性質。
(2)	十分性	推定量が与えられたときに標本の分布が推定対象となる母数に依存しない性質。
(3)	一致性	標本数を増やせば増やす程、推定量が真の値に近づく性質。

7.1.1　不偏性

　観測したデータを分析する際にまず行うオーソドックスな方法は、平均や中央値といった代表値で水準を検討することと、分散などでその散らばり具合を検討することである。推定量の“良さ”についてもこのような記述統計学のときと同様の考え方を援用することで、推定量の“良さ”に関して2つのアイディアをもたらすことができる。
　第一のアイディアとして、推定量は確率変数である以上確定的に真の値を取ることはあり得ないが可能な限り真の値を取るのが望ましい。それを認めるならば、標本nを一旦固定して何度か標本を獲得する試行を考えたとき、各試行から得られた推定値についてその水準が真の値に近い、より望ましいのは水準が真の値に等しいことが1つの“良さ”であり、それを与えるような推定量が“良い”推定量である。こうして不偏性の概念を導入する。

不偏性　標本 $X=(X_1,\cdots,X_n)$ が得られているとする。ある母数 $\theta\in\Theta$ の推定量 $T_n=T(X_1,\cdots,X_n)$ について

$\begin{aligned} E_{\theta}[T]=\theta \end{aligned}$

が成り立つとき $T$ は不偏であるといい、また不偏性を持つような $T$ を $\theta$ の不偏推定量であるという。

　なお

$\begin{aligned} b(\theta)=E_{\theta}[T]-\theta \end{aligned}$

を偏り（バイアス）といい、定義から明らかに不偏推定量のバイアスは $0$ である。
　一般に推定対象となる母数 $\theta$ の写像 $g(\theta)$ に対する不偏推定が考えられるとき、 $g(\theta)$ は推定可能もしくは $\mathrm{U}$ -推定可能という。

　不偏推定量は必ずしも存在するとは限らず、またたとえ存在するとしても常に一意に存在するとは限らない。そこで不偏推定量が複数あるときにそれらの中での“良さ”を検討する必要がある。可能な限り真の値に近い推定量を得るという観点にもとづけば、第二のアイディアとして推定量の散らばり具合は可能な限り小さい方が望ましいと考えられる。すなわち実母数（一次元の母数） $\theta\in\Theta$ の推定を考えている場合、統計的決定理論にもとづけば、平均二乗誤差

$\begin{aligned} E_{\theta}[(T-\theta)^2] \end{aligned}$

を最小にするような推定量が望ましいものと考えることができる。ここで $T$ は不偏であるため $\theta=E_{\theta}[T]$ であり、ここから不偏推定量の平均二乗誤差は分散である。以上から、“良い”推定量の1つとして「一様最小分散不偏推定量（ $\mathrm{UMVUE}$ ）」を導入できる：

一様最小分散不偏推定量　母数 $\theta\in\Theta$ の任意の不偏推定量 $\hat{\theta}$ のうち、

$\begin{aligned} V_{\theta}[\hat{\theta}^{*}]\leq V_{\theta}[\hat{\theta}],{}^{\forall}\theta \end{aligned}$

となるような不偏推定量 $\hat{\theta}^{*}$ を一様最小分散不偏推定量という。

　一様最小分散不偏推定量は不偏性を受け入れるならば自然な“良い”推定量であり、一部の分布とその母数についてはその存在が分かっている。ただし前述したように一般に不偏推定量が（常に）存在するわけではない。
　不偏推定量が与えられたときにそれが一様最小分散不偏統計量であることを示す方法は2つある：

Cramér-Raoの不等式を用いる方法
完備十分統計量を用いた方法

7.1.2　Cramér-Raoの不等式

　まずCramér-Raoの不等式を考える。準備として、標本 $X=(X_1,\cdots,X_n)$ が従う同時密度関数（同時確率関数）を $f(x,\theta)$ とする。簡単のため、 $\theta$ を1次元とする*2。このとき $\theta$ に関する $\mathrm{Fisher}$ 情報量 $I_n(\theta)$ を

$\begin{aligned} I_n(\theta)=E_{\theta}\left[\left(\displaystyle{\frac{\partial\log f(x,\theta)}{\partial\theta}}\right)^2\right] \end{aligned}$

で定義する*3。 $\mathrm{Fisher}$ 情報量は標本 $X=x$ を観測したとして、母数 $\theta$ が変化した場合に確率（の密度の対数）がどの程度変化するのかを考え、それを二乗して確率分布について加重平均したものを指す。
　 $\mathrm{Fisher}$ 情報行列は標本が独立かつ同一分布に従う場合、

$\begin{aligned} I_n(\theta)=n I_1(\theta) \end{aligned}$

を満たす。
( $\because$ 　 $f(x,\theta)$ は密度関数であるから、

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(\displaystyle{\int_{-\infty}^{\infty}f(x,\theta)}dx=1\right) \end{aligned}$

を満たす。この両辺を $\theta$ に関して偏微分することで、積分と微分の交換可能性に注意すれば

$\begin{aligned} \displaystyle{\frac{\partial }{\partial \theta}\int_{-\infty}^{\infty}f(x,\theta)}dx\displaystyle{\int_{-\infty}^{\infty}\frac{\partial f(x,\theta)}{\partial \theta}}dx=0 \end{aligned}$

を得る。
　また $l^{\prime}(x,\theta)=\displaystyle{\frac{\partial l(x,\theta)}{\partial \theta}}=\displaystyle{\frac{\partial \log f(x,\theta)}{\partial \theta}}$ に対して

$\begin{aligned} E_{\theta}\left[l^{\prime}(\theta,X)\right]&=\displaystyle{\int_{-\infty}^{\infty}l^{\prime}(x,\theta)f(x,\theta)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}\frac{\partial \log f(x,\theta)}{\partial \theta}f(x,\theta)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}\frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta}f(x,\theta)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}\frac{\partial f(x,\theta)}{\partial \theta}}dx\\ &=0 \end{aligned}$

である。　
　仮定より確率変数 $X_1,\cdots,X_n$ が独立かつ同一の分布に従う。このとき $X_i,i=1,2,\cdots,n$ の密度関数を $f_i(x,\theta)$ とすれば、これらの同時密度関数 $f_n(x_1,\cdots,x_n,\theta)$ は独立の定義から

$\begin{aligned} f_n(x_1,\cdots,x_n,\theta)=\displaystyle{\prod_{i=1}^{n}f_1(x_i,\theta)} \end{aligned}$

と書ける。ここで $l_n(\theta,x)=\log f_n(x,\theta),l_1(\theta,x_i)=\log f_1(x_i,\theta)$ とおく。
　同時密度関数の両辺において対数を取った上で $\theta$ に関して偏微分することで

$\begin{aligned} \displaystyle{\frac{\partial f_n(x_1,\cdots,x_n,\theta)}{\partial\theta}}&=l_n^{\prime}(\theta,X)\\ &=\displaystyle{\sum_{i=1}^{n}\log f_1(x_i,\theta)}\\ &=\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)} \end{aligned}$

を得る。
　ここで $\mathrm{Fisher}$ 情報量 $I_n(\theta)$ について、既に得た $E_{\theta}[l^{\prime}(\theta,X)]=0$ を踏まえれば

$\begin{aligned} I_n(\theta)&=E_{\theta}\left[(l^{\prime}(\theta,X))^2\right]\\ &=\displaystyle{\int_{-\infty}^{\infty}(l^{\prime}(\theta,X) )^2 f(x,\theta)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}(l^{\prime}\left(\theta,X)-E_{\theta}[l^{\prime}(\theta,X)]\right)^2 f(x,\theta)}dx\\ &=V_{\theta}\left[l^{\prime}(\theta,X)\right] \end{aligned}$

であるから、これに $l_n^{\prime}(\theta,X)=\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}$ を代入することで

$\begin{aligned} I_n(\theta)&=V_{\theta}\left[l^{\prime}(\theta,X)\right]\\ &=V_{\theta}\left[\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}\right] \end{aligned}$

を得る。
　さて $l_1^{\prime}(\theta,X_i)$ は $X_i$ の関数であり、 $X_i,i=1,2,\cdots,n$ は独立かつ同一の分布に従うのであったから、これもまた独立かつ同一の分布に従う。したがって

$\begin{aligned} I_n(\theta)&=V_{\theta}\left[\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}\right]\\ &=\displaystyle{\sum_{i=1}^{n}V_{\theta}\left[l_1^{\prime}(\theta,X_i)\right]}\\ &=\displaystyle{\sum_{i=1}^{n}I_1(\theta)}\\ &=n I_1(\theta) \end{aligned}$

を得る。　 $\blacksquare$ )

Cramér-Raoの不等式　標本 $X=(X_1,\cdots,X_n)$ が独立かつ同一の分布に従い、その密度関数を $f(x;\theta)$ とする。母数 $\theta\in\Theta$ の不偏推定量 $\hat{\theta}$ の分散と $\mathrm{Fisher}$ 情報量 $I_n(\theta)$ が、正則条件

(1)	母数空間 $\Theta$ は実数空間の開区間で、 $f(x,\theta)$ の台( $\mathrm{support}$ ) $\{x;f(x;\theta)\gt0\}$ は母数 $\theta$ に依らない。
(2)	すべての $x,\theta$ に対して $\displaystyle{\frac{\partial\log f(x;\theta)}{\partial\theta}}$ が存在する。
(3)	$\hat{\theta}$ の不偏性および標本の同時密度関数 $f_n(x;\theta)$ の性質に関する式において、左辺の母数 $\theta$ に関する微分が積分として交換して計算できる： $\begin{aligned}E\left[\hat{\theta}\right]&=\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}\hat{\theta}\prod_{i=1}^{n}f(x_i;\theta)}dx_1\cdots dx_n=\theta\\\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f_n(x;\theta)}dx&=\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}\prod_{i=1}^{n}f(x_i;\theta)}dx_1\cdots dx_n=1\end{aligned}$
(4)	$\mathrm{Fisher}$ 情報量 $I_n(\theta)$ が存在する。すなわち $\begin{aligned}0\lt I_n(\theta)=E_{\theta}\left[\left(\displaystyle{\frac{\partial\log f(X;\theta)}{\partial\theta}}\right)^2\right]\lt\infty\end{aligned}$ が成り立つ。
(5)	不偏推定量 $\hat{\theta}$ は母数 $\theta$ に関して微分可能である。

を満たすとき、

$\begin{aligned} V_{\theta}\left[\hat{\theta}\right]\geq \displaystyle{\frac{1}{I_n(\theta)}} \end{aligned}$

が成り立つ。この不等式をCramér-Raoの不等式という。

( $\because$ 　正則条件(3)の1つ目の式において両辺を $\theta$ に関して偏微分すると、同式における微分と積分の交換可能性から

$\begin{aligned} 1&=\displaystyle{\frac{\partial}{\partial\theta}\int_{-\infty}^{\infty}\hat{\theta}f(x,\theta)}dx\\ &=\displaystyle{\int_{-\infty}^{\infty}\hat{\theta}\frac{\partial\log f(x,\theta)}{\partial\theta}}dx\\ &=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right] \end{aligned}$

を得る。
　独立かつ同一の分布に従う標本の $\mathrm{Fisher}$ 情報量に関する性質にて示した式 $E_{\theta}[l^{\prime}(\theta,X)]=0$ から

$\begin{aligned} \theta E_{\theta}[l^{\prime}(\theta,X)]=E_{\theta}[\theta l^{\prime}(\theta,X)]=0 \end{aligned}$

であるから、 $E_{\theta}[l^{\prime}(\theta,X)]=0$ に注意すれば

$\begin{aligned} 1&=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right]\\ &=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right]-E_{\theta}[\theta l^{\prime}(\theta,X)]\\ &=E_{\theta}\left[(\hat{\theta}-\theta)l^{\prime}(\theta,X)\right]\\ &=E_{\theta}\left[(\hat{\theta}-E_{\theta}[\theta l^{\prime}(\theta,X)])(l^{\prime}(\theta,X)-E_{\theta}[l^{\prime}(\theta,X)])\right]\\ &=\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right] \end{aligned}$

を得る。
　相関係数の絶対値が $1$ 以下であるから、

$\begin{aligned} 1=\displaystyle{\frac{\left(\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right]\right)^2}{V_{\theta}[\hat{\theta}]V_{\theta}[l^{\prime}(\theta,X)]}}\leq1 \end{aligned}$

を得、したがって

$\begin{aligned} 1=\left(\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right]\right)^2&\leq V_{\theta}[\hat{\theta}]V_{\theta}[l^{\prime}(\theta,X)]\\ &=V_{\theta}[\hat{\theta}]I_n(\theta) \end{aligned}$

であり、両辺を $\mathrm{Fisher}$ 情報量 $I_n(\theta)$ で割ることで示すべき式を得る。　 $\blacksquare$ )

　バイアスのある推定量に関してもCramér-Raoの不等式と同様の式を導くことができる。母数 $\theta$ のバイアスのある推定量 $\tilde{\theta}$ に関して、そのバイアスを $b(\theta)$ とおけば、その定義から

$\begin{aligned} E_{\theta}[\tilde{\theta}]=\theta+b(\theta) \end{aligned}$

と書くことができる。この両辺を $\theta$ に関して偏微分することで

$\begin{aligned} 1+b^{\prime}(\theta)=E_{\theta}[\tilde{\theta}l^{\prime}(\theta,X)] \end{aligned}$

が成り立つ。したがって不等式

$\begin{aligned} E_{\theta}\left[(\tilde{\theta}-\theta)^2\right]\geq \displaystyle{\frac{(1+b^{\prime}(\theta) )^2}{I_n(\theta)}} \end{aligned}$

を得る。また $1+b^{\prime}(\theta)=E_{\theta}[(\tilde{\theta}-E[\tilde{\theta}])l^{\prime}(\theta,X)]$ とも書けるから

$\begin{aligned} V_{\theta}[\tilde{\theta}]\geq \displaystyle{\frac{(1+b^{\prime}(\theta) )^2}{I_n(\theta)}} \end{aligned}$

を得る。
　Cramér-Raoの不等式が成り立つとき、 $\mathrm{Fisher}$ 情報量が不偏推定量の分散の最小値を与えてくれる。

Cramér-Raoの定理と一様最小分散不偏推定量　不偏推定量 $\hat{\theta}^{*}$ が

$\begin{aligned} {}^{\forall}\theta\in\Theta\left(V_{\theta}\left[\hat{\theta}^{*}\right]=\displaystyle{\frac{1}{I_n(\theta)}}\right) \end{aligned}$

を満たすとき、 $\hat{\theta}^{*}$ は母数 $\theta$ の一様最小分散不偏推定量である。

　母数の関数 $g(\theta)$ の不偏推定量 $S(X)$ の推定精度を表現する方法として、Cramér-Raoの不等式の下限（ $\mathrm{Fisher}$ 情報量の逆数）と推定量 $S$ の分散との比率

$\begin{aligned} \displaystyle{\frac{\displaystyle{\frac{(g^{\prime}(\theta) )^2}{n I_n(\theta)}}}{V_{\theta}[S]}} \end{aligned}$

を $S$ の効率という。効率が $1$ であるような不偏推定量を有効推定量という。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1:こうした議論を基として後に議論するような性質を持っているという意味で望ましい推定量が一般的な点推定で扱われがちである。ただしそれは真の値に可能な限り近い値を得やすいからという利用上の意図を前提にした場合であり、たとえば外れ値に対する感度が低い（ロバスト性がある）からそうした性質は持たないものの安定して値が得られるような推定量を敢えて用いることは充分にあり得るのであって、以下で議論されるものを必ず使わなければならないという訳ではない。

*2:ただし母数ベクトルでも議論は同じである。

*3:母数が多次元の場合、 $\mathrm{Fisher}$ 情報行列という。

前回

7. 統計的推測論

7.1 点推定論

7.1.1 不偏性

7.1.2 Cramér-Raoの不等式

次回

参考文献

7.　統計的推測論

7.1　点推定論

7.1.1　不偏性

7.1.2　Cramér-Raoの不等式