「大人の教養・知識・気付き」を伸ばすブログ

※今月(8月)は一部コンテンツを隔週更新にします(夏休みです…)。 一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

本気で学ぶ統計学(18/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

7. 統計的推測論

 データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
 他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを真の値という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。
 統計量のうち特にある特性値が取る値の推定を志向しているとき、実際の推定問題においては、観測した標本を何らかの手段で加工して推測した値とする。このとき標本は確率変数と見なされるが、こうして推測するために標本(確率変数)の関数として表された統計量定量\mathrm{estimator})という。統計量は確率変数の関数であるから、推定量も確率変数であることは明らかである。標本の値を具体的に得ているのであれば、具体的に観測した標本の値を推定量に代入することで具体的な実現値を計算することができる。このような実現値を推定値(\mathrm{estimate})という。推定量と推定値の意味の違いは大きいので注意されたい。
 統計的推測にあたっては、

  • 点推定論:推計対象を標本の関数として具体的に表現し実際の観測値を与えて具体的な推計値(1点)を与えるような考え方
  • 区間推定論:推計対象が所属し観測値に依存する区間(範囲)を与えるような考え方

の2つの方法がある。いずれが望ましいのかは自らが考えている問いに応じて選ぶべきものであり、統計的推測論からその選択が機械的になされるわけではない。

7.1 点推定論

 点推定は具体的な1つの実現値を得られるという意味では統計学的な見地からではなく実際の問題の見地から扱いやすい場面も少なくない。しかしその1つの数値を見ただけではその意味や背景における仮定を解釈することは困難である。また推計方法が一意でない以上、数値からではその推計に用いた方法が“良い”ものなのかは判断できない。そのため、推定量を“上手く”与えることで“良い”方法で推計を行うことが望ましいと言える。すなわち点推定を考える場合、(1)「“良い”推定」のための基準を導入し、そうした基準を満たすという意味での(2)知りたい特定値の“良い”推定量を与えることが目標となる *1

 点推定にあたって推定量は標本の関数であるが、標本は確率変数であるから具体的に観測しない限り、推定量も確率変数である。すなわち推定量は確率的な振る舞いを行うのである。推定対象は何らかの値を有しているのだが未知であるというのが推計にあたっての大前提であるが、その未知だが存在すると仮定している推定対象の値を真の値と呼ぶ。この真の値に対して推定量がどのような振る舞いをするのかを考えれば理想的な基準を演繹できそうである。ではその基準をどのように考えるべきか。

 点推定を数学的に規定すると分布P_{\theta},\theta\in\Thetaから得られた標本数nの無作為標本X_1,\cdots,X_nに基づく関数g(\theta)の推定量T_n=T(X_1,\cdots,X_n)を考えることに他ならないのであるが、ここから

   (a) 同じ標本数nを与えて何度か観測を行った場合に、(a)真の値を中心として値が出やすく、また(b)その中心からのブレがなるべく小さい推定量が“良い”推定量である。
   (b) ある無作為標本X_1,\cdots,X_nがあったとき、それが母集団について有する「情報」を極力反映した推定量が“良い”推定量である。
   (c) 標本数が無限に大きいという理想的な状況で推定量が有する性質を(なるべく小さな標本数でも)有する推定量が“良い”推定量である。

と考えることができる。
 以上の考察から「“良い”推定」手段について現在普通に認められる代表的な基準として以下の3つを導入できる:

  (1) 不偏性・有効性 定量の期待値が真の値に等しいという性質。また特定の不等式から得た分散の最小値にその推定量の分散が等しい性質。
  (2) 十分性 定量が与えられたときに標本の分布が推定対象となる母数に依存しない性質。
  (3) 一致性 標本数を増やせば増やす程、推定量が真の値に近づく性質。
7.1.1 不偏性

 観測したデータを分析する際にまず行うオーソドックスな方法は、平均や中央値といった代表値で水準を検討することと、分散などでその散らばり具合を検討することである。推定量の“良さ”についてもこのような記述統計学のときと同様の考え方を援用することで、推定量の“良さ”に関して2つのアイディアをもたらすことができる。
 第一のアイディアとして、推定量は確率変数である以上確定的に真の値を取ることはあり得ないが可能な限り真の値を取るのが望ましい。それを認めるならば、標本nを一旦固定して何度か標本を獲得する試行を考えたとき、各試行から得られた推定値についてその水準が真の値に近い、より望ましいのは水準が真の値に等しいことが1つの“良さ”であり、それを与えるような推定量が“良い”推定量である。こうして不偏性の概念を導入する。


不偏性 標本X=(X_1,\cdots,X_n)が得られているとする。ある母数\theta\in\Thetaの推定量T_n=T(X_1,\cdots,X_n)について

\begin{aligned}
E_{\theta}[T]=\theta
\end{aligned}

が成り立つときTは不偏であるといい、また不偏性を持つようなT\thetaの不偏推定量であるという。

 なお



\begin{aligned}
b(\theta)=E_{\theta}[T]-\theta
\end{aligned}


を偏り(バイアス)といい、定義から明らかに不偏推定量のバイアスは0である。
 不偏推定量は必ずしも存在するとは限らず、またたとえ存在するとしても常に一意に存在するとは限らない。そこで不偏推定量が複数あるときにそれらの中での“良さ”を検討する必要がある。可能な限り真の値に近い推定量を得るという観点にもとづけば、第二のアイディアとして定量の散らばり具合は可能な限り小さい方が望ましいと考えられる。すなわち実母数(一次元の母数)\theta\in\Thetaの推定を考えている場合、統計的決定理論にもとづけば、平均二乗誤差



\begin{aligned}
E_{\theta}[(T-\theta)^2]
\end{aligned}


を最小にするような推定量が望ましいものと考えることができる。ここでTは不偏であるため\theta=E_{\theta}[T]であり、ここから不偏推定量の平均二乗誤差は分散である。以上から、“良い”推定量の1つとして一様最小分散不偏推定量\mathrm{UMVUE})」を導入できる:


一様最小分散不偏推定量 母数\theta\in\Thetaの任意の不偏推定量\hat{\theta}のうち、

\begin{aligned}
V_{\theta}[\hat{\theta}^{*}]\leq V_{\theta}[\hat{\theta}],{}^{\forall}\theta
\end{aligned}

となるような不偏推定量\hat{\theta}^{*}を一様最小分散不偏推定量という。

 一様最小分散不偏推定量は不偏性を受け入れるならば自然な“良い”推定量であり、一部の分布とその母数についてはその存在が分かっている。ただし前述したように一般に不偏推定量が(常に)存在するわけではない。
 不偏推定量が与えられたときにそれが一様最小分散不偏統計量であることを示す方法は2つある

  • Cramér-Raoの不等式を用いる方法
  • 完備十分統計量を用いた方法
7.1.2 Cramér-Raoの不等式

 まずCramér-Raoの不等式を考える。準備として、標本X=(X_1,\cdots,X_n)が従う同時密度関数(同時確率関数)をf(x,\theta)とする。簡単のため、\thetaを1次元とする*2。このとき\thetaに関する\mathrm{Fisher}情報量I_n(\theta)



\begin{aligned}
I_n(\theta)=E_{\theta}\left[\left(\displaystyle{\frac{\partial\log f(x,\theta)}{\partial\theta}}\right)^2\right]
\end{aligned}


で定義する*3\mathrm{Fisher}情報量は標本X=xを観測したとして、母数\thetaが変化した場合に確率(の密度の対数)がどの程度変化するのかを考え、それを二乗して確率分布について加重平均したものを指す。
 \mathrm{Fisher}情報行列は標本が独立かつ同一分布に従う場合、



\begin{aligned}
I_n(\theta)=n I_1(\theta)
\end{aligned}


を満たす。
(\because f(x,\theta)は密度関数であるから、



\begin{aligned}
{}^{\forall}\theta\in\Theta\left(\displaystyle{\int_{-\infty}^{\infty}f(x,\theta)}dx=1\right)
\end{aligned}


を満たす。この両辺を\thetaに関して偏微分することで、積分微分の交換可能性に注意すれば



\begin{aligned}
\displaystyle{\frac{\partial }{\partial \theta}\int_{-\infty}^{\infty}f(x,\theta)}dx\displaystyle{\int_{-\infty}^{\infty}\frac{\partial f(x,\theta)}{\partial \theta}}dx=0
\end{aligned}


を得る。
 またl^{\prime}(x,\theta)=\displaystyle{\frac{\partial l(x,\theta)}{\partial \theta}}=\displaystyle{\frac{\partial \log f(x,\theta)}{\partial \theta}}に対して



\begin{aligned}
E_{\theta}\left[l^{\prime}(\theta,X)\right]&=\displaystyle{\int_{-\infty}^{\infty}l^{\prime}(x,\theta)f(x,\theta)}dx\\
&=\displaystyle{\int_{-\infty}^{\infty}\frac{\partial \log f(x,\theta)}{\partial \theta}f(x,\theta)}dx\\
&=\displaystyle{\int_{-\infty}^{\infty}\frac{1}{f(x,\theta)}\frac{\partial f(x,\theta)}{\partial \theta}f(x,\theta)}dx\\
&=\displaystyle{\int_{-\infty}^{\infty}\frac{\partial f(x,\theta)}{\partial \theta}}dx\\
&=0
\end{aligned}


である。 
 仮定より確率変数X_1,\cdots,X_nが独立かつ同一の分布に従う。このときX_i,i=1,2,\cdots,nの密度関数をf_i(x,\theta)とすれば、これらの同時密度関数f_n(x_1,\cdots,x_n,\theta)は独立の定義から



\begin{aligned}
f_n(x_1,\cdots,x_n,\theta)=\displaystyle{\prod_{i=1}^{n}f_1(x_i,\theta)}
\end{aligned}


と書ける。ここでl_n(\theta,x)=\log f_n(x,\theta),l_1(\theta,x_i)=\log f_1(x_i,\theta)とおく。
 同時密度関数の両辺において対数を取った上で\thetaに関して偏微分することで



\begin{aligned}
\displaystyle{\frac{\partial f_n(x_1,\cdots,x_n,\theta)}{\partial\theta}}&=l_n^{\prime}(\theta,X)\\
&=\displaystyle{\sum_{i=1}^{n}\log f_1(x_i,\theta)}\\
&=\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}
\end{aligned}


を得る。
 ここで\mathrm{Fisher}情報量I_n(\theta)について、既に得たE_{\theta}[l^{\prime}(\theta,X)]=0を踏まえれば



\begin{aligned}
I_n(\theta)&=E_{\theta}\left[(l^{\prime}(\theta,X))^2\right]\\
&=\displaystyle{\int_{-\infty}^{\infty}(l^{\prime}(\theta,X) )^2 f(x,\theta)}dx\\
&=\displaystyle{\int_{-\infty}^{\infty}(l^{\prime}\left(\theta,X)-E_{\theta}[l^{\prime}(\theta,X)]\right)^2 f(x,\theta)}dx\\
&=V_{\theta}\left[l^{\prime}(\theta,X)\right]
\end{aligned}


であるから、これにl_n^{\prime}(\theta,X)=\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}を代入することで



\begin{aligned}
I_n(\theta)&=V_{\theta}\left[l^{\prime}(\theta,X)\right]\\
&=V_{\theta}\left[\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}\right]
\end{aligned}


を得る。
 さてl_1^{\prime}(\theta,X_i)X_iの関数であり、X_i,i=1,2,\cdots,nは独立かつ同一の分布に従うのであったから、これもまた独立かつ同一の分布に従う。したがって



\begin{aligned}
I_n(\theta)&=V_{\theta}\left[\displaystyle{\sum_{i=1}^{n}l_1^{\prime}(\theta,X_i)}\right]\\
&=\displaystyle{\sum_{i=1}^{n}V_{\theta}\left[l_1^{\prime}(\theta,X_i)\right]}\\
&=\displaystyle{\sum_{i=1}^{n}I_1(\theta)}\\
&=n I_1(\theta)
\end{aligned}


を得る。 \blacksquare)


Cramér-Raoの不等式 標本X=(X_1,\cdots,X_n)が独立かつ同一の分布に従い、その密度関数をf(x;\theta)とする。母数\theta\in\Thetaの不偏推定量\hat{\theta}の分散と\mathrm{Fisher}情報量I_n(\theta)が、正則条件

(1) 母数空間\Thetaは実数空間の開区間で、f(x,\theta)の台(\mathrm{support})\{x;f(x;\theta)\gt0\}は母数\thetaに依らない。
(2) すべてのx,\thetaに対して\displaystyle{\frac{\partial\log f(x;\theta)}{\partial\theta}}が存在する。
(3) \hat{\theta}の不偏性および標本の同時密度関数f_n(x;\theta)の性質に関する式において、左辺の母数\thetaに関する微分積分として交換して計算できる:
\begin{aligned}E\left[\hat{\theta}\right]&=\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}\hat{\theta}\prod_{i=1}^{n}f(x_i;\theta)}dx_1\cdots dx_n=\theta\\\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f_n(x;\theta)}dx&=\displaystyle{\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}\prod_{i=1}^{n}f(x_i;\theta)}dx_1\cdots dx_n=1\end{aligned}
(4) \mathrm{Fisher}情報量I_n(\theta)が存在する。すなわち
\begin{aligned}0\lt I_n(\theta)=E_{\theta}\left[\left(\displaystyle{\frac{\partial\log f(X;\theta)}{\partial\theta}}\right)^2\right]\lt\infty\end{aligned}
が成り立つ。
(5) 不偏推定量\hat{\theta}は母数\thetaに関して微分可能である。

を満たすとき、



\begin{aligned}
V_{\theta}\left[\hat{\theta}\right]\geq \displaystyle{\frac{1}{I_n(\theta)}}
\end{aligned}


が成り立つ。この不等式をCramér-Raoの不等式という。

(\because 正則条件(3)の1つ目の式において両辺を\thetaに関して偏微分すると、同式における微分積分の交換可能性から



\begin{aligned}
1&=\displaystyle{\frac{\partial}{\partial\theta}\int_{-\infty}^{\infty}\hat{\theta}f(x,\theta)}dx\\
&=\displaystyle{\int_{-\infty}^{\infty}\hat{\theta}\frac{\partial\log f(x,\theta)}{\partial\theta}}dx\\
&=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right]
\end{aligned}


を得る。
 独立かつ同一の分布に従う標本の\mathrm{Fisher}情報量に関する性質にて示した式E_{\theta}[l^{\prime}(\theta,X)]=0から



\begin{aligned}
\theta E_{\theta}[l^{\prime}(\theta,X)]=E_{\theta}[\theta l^{\prime}(\theta,X)]=0
\end{aligned}


であるから、E_{\theta}[l^{\prime}(\theta,X)]=0に注意すれば



\begin{aligned}
1&=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right]\\
&=E_{\theta}\left[l^{\prime}(\theta,X)\hat{\theta}\right]-E_{\theta}[\theta l^{\prime}(\theta,X)]\\
&=E_{\theta}\left[(\hat{\theta}-\theta)l^{\prime}(\theta,X)\right]\\
&=E_{\theta}\left[(\hat{\theta}-E_{\theta}[\theta l^{\prime}(\theta,X)])(l^{\prime}(\theta,X)-E_{\theta}[l^{\prime}(\theta,X)])\right]\\
&=\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right]
\end{aligned}


を得る。
 相関係数の絶対値が1以下であるから、



\begin{aligned}
1=\displaystyle{\frac{\left(\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right]\right)^2}{V_{\theta}[\hat{\theta}]V_{\theta}[l^{\prime}(\theta,X)]}}\leq1
\end{aligned}


を得、したがって



\begin{aligned}
1=\left(\mathrm{Cov}\left[\hat{\theta},l^{\prime}(\theta,X)\right]\right)^2&\leq V_{\theta}[\hat{\theta}]V_{\theta}[l^{\prime}(\theta,X)]\\
&=V_{\theta}[\hat{\theta}]I_n(\theta)
\end{aligned}


であり、両辺を\mathrm{Fisher}情報量I_n(\theta)で割ることで示すべき式を得る。 \blacksquare)


 バイアスのある推定量に関してもCramér-Raoの不等式と同様の式を導くことができる。母数\thetaのバイアスのある推定量\tilde{\theta}に関して、そのバイアスをb(\theta)とおけば、その定義から



\begin{aligned}
E_{\theta}[\tilde{\theta}]=\theta+b(\theta)
\end{aligned}


と書くことができる。この両辺を\thetaに関して偏微分することで



\begin{aligned}
1+b^{\prime}(\theta)=E_{\theta}[\tilde{\theta}l^{\prime}(\theta,X)]
\end{aligned}


が成り立つ。したがって不等式



\begin{aligned}
E_{\theta}\left[(\tilde{\theta}-\theta)^2\right]\geq 
\displaystyle{\frac{(1+b^{\prime}(\theta) )^2}{I_n(\theta)}}
\end{aligned}


を得る。また1+b^{\prime}(\theta)=E_{\theta}[(\tilde{\theta}-E[\tilde{\theta}])l^{\prime}(\theta,X)]とも書けるから



\begin{aligned}
V_{\theta}[\tilde{\theta}]\geq \displaystyle{\frac{(1+b^{\prime}(\theta) )^2}{I_n(\theta)}}
\end{aligned}


を得る。
 Cramér-Raoの不等式が成り立つとき、\mathrm{Fisher}情報量が不偏推定量の分散の最小値を与えてくれる。


Cramér-Raoの定理と一様最小分散不偏推定量 不偏推定量\hat{\theta}^{*}

\begin{aligned}
{}^{\forall}\theta\in\Theta\left(V_{\theta}\left[\hat{\theta}^{*}\right]=\displaystyle{\frac{1}{I_n(\theta)}}\right)
\end{aligned}

を満たすとき、\hat{\theta}^{*}は母数\thetaの一様最小分散不偏推定量である。

 母数の関数g(\theta)の不偏推定量S(X)の推定精度を表現する方法として、Cramér-Raoの不等式の下限(\mathrm{Fisher}情報量の逆数)と推定量Sの分散との比率


\begin{aligned}
\displaystyle{\frac{\displaystyle{\frac{(g^{\prime}(\theta) )^2}{n I_n(\theta)}}}{V_{\theta}[S]}}
\end{aligned}

Sの効率という。効率が1であるような不偏推定量有効推定量という。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)

*1:こうした議論を基として後に議論するような性質を持っているという意味で望ましい推定量が一般的な点推定で扱われがちである。ただしそれは真の値に可能な限り近い値を得やすいからという利用上の意図を前提にした場合であり、たとえば外れ値に対する感度が低い(ロバスト性がある)からそうした性質は持たないものの安定して値が得られるような推定量を敢えて用いることは充分にあり得るのであって、以下で議論されるものを必ず使わなければならないという訳ではない。

*2:ただし母数ベクトルでも議論は同じである。

*3:母数が多次元の場合、\mathrm{Fisher}情報行列という。

プライバシーポリシー お問い合わせ