本気で学ぶ統計学(20/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
7.　統計的推測論
- 7.2　最尤法
  - 7.2.1　最尤推定量の性質
次回
参考文献

7.　統計的推測論

　データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
　他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値（これを「真の値」という）が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。

7.2　最尤法

　有効推定量が存在しない場合、一様最小分散不偏推定量が存在しないもしくは存在してもその利用が望ましいか疑わしい場合、最尤法を利用することが選択肢として存在する。
　最尤推定量は常に“良い”推定量ではないものの、多くの場合にさまざまな望ましい性質をもつ合理的な推定量となる。また標本数が大きいときに一様最小分散不偏推定量と同様の正当化が可能である。
　標本 $X=(X_1,\cdots,X_n)$ に対して同時密度関数を $f(x,\theta)$ とする。このときに $f(x,\theta)$ を母数 $\theta$ の関数と見たもの

$\begin{aligned} L(\theta)=L(\theta,x)=f(x,\theta) \end{aligned}$

を尤度関数という。さらに尤度関数の対数を取った

$\begin{aligned} l(\theta)=\log L(\theta)=\log f(x,\theta) \end{aligned}$

を対数尤度関数という。尤度関数は観測値が得られたときに、母数 $\theta$ の値のもっともらしさを表す関数と解釈できる。
　最尤法は尤度関数を最大にするような母数の値をその推定値とするような推定方法であり、このような推定量を最尤推定量である。すなわち最尤推定量 $\hat{\theta}$ は

$\begin{aligned} \hat{\theta}=\displaystyle{\mathrm{arg}\max_{\theta\in\Theta}L(\theta)} \end{aligned}$

で定義される。
　この観点では、最尤推定量は観測値が得られるのがもっとも自然である（＝もっとも確率が高い）ような母数の推定量と言うことができる。
　対数関数 $\log x$ は $x\in\mathbb{R}$ に関して単調増加であることから、最尤推定量は対数尤度を最大にするものでもある。標本が独立で同一の分布に従うならば、同時密度関数は標本の密度関数の積として表されることから、尤度関数は標本の密度関数の積として表現でき、これは対数尤度関数が標本の密度関数の対数の和で表されることを意味する。積よりも和の方が利用しやすいため、実用上は対数尤度関数を最大化させることで最尤法を行う方が多い。
　母数が複数の場合、母数を1つずつ（特に攪乱母数を先に）最大化していくことが多い。すなわち母数ベクトル $\boldsymbol{\theta}=(\boldsymbol{\theta}_1,\boldsymbol{\theta}_2)$ に対して前者に興味があるとき、

$\begin{aligned} \tilde{L}(\boldsymbol{\theta}_1)=\displaystyle{\max_{\boldsymbol{\theta}_2} L(\boldsymbol{\theta}_1,\boldsymbol{\theta}_2)}=L(\boldsymbol{\theta}_1,\hat{\boldsymbol{\theta}}_2(\boldsymbol{\theta}_1) ) \end{aligned}$

を集約尤度関数という。

7.2.1　最尤推定量の性質

　最尤法の背景にある尤度を最大にするような推定量との考え方は批判も少なくない。しかしさまざまな分布の最尤推定量を考えると直観的にも自然な推定量が得られることが多い。これは最尤推定量がある条件下で“良い”推定量であるからで、たとえば自動的に十分推定量の関数であるからである。

最尤推定量の性質(1)　確率変数 $X$ の標本を $X_1,\cdots,X_n$ とし、その統計量 $\theta$ に対してその最尤推定量を $\hat{\theta}(X_1,\cdots,X_n)$ とする。このとき、

最尤推定量は十分推定量である。

$\theta$ の関数 $g(\theta)$ に対して $g(\theta)$ の最尤推定量は $g(\hat{\theta})$ で与えられる。

( $\because$ 　 $T(X_1,\cdots,X_n)$ を $\theta$ の十分推定量とするとき、 $\mathrm{Neyman}$ の因子分解定理より標本 $X_1,\cdots,X_n$ の同時密度関数 $f(x_1,\cdots,x_n;\theta)$ について

$\begin{aligned} f(x_1,\cdots,x_n;\theta)=g(T(X_1,\cdots,X_n) )h(x_1,\cdots,x_n) \end{aligned}$

を満たすような $\theta$ の関数 $g(\theta)$ および $\theta$ に依存しない関数 $h(X_1,\cdots,X_n)$ が存在する。
　さて最尤法の定義から、最尤推定量は観測値 $x_1,\cdots,x_n$ を固定して左辺 $f(x_1,\cdots,x_n;\theta)$ を最大化することである。このとき $h(x_1,\cdots,x_n)$ は固定されているから、それは $g(\theta)$ を $\theta$ の関数として最大化させることに他ならない。したがって最尤推定量は十分推定量（の関数）である。

　次に任意の $\tau\in\mathbb{R}$ に対して $\hat{L}(\tau;x_1,\cdots,x_n)=\displaystyle{\sup_{\theta;g(\theta)=\tau}L(\theta;x_1,\cdots,x_n)}$ とおくとき

$\begin{aligned} \hat{L}(g(\hat{\theta});x_1,\cdots,x_n)&=\displaystyle{\sup_{\theta;g(\theta)=g(\hat{\theta})}L(\theta;x_1,\cdots,x_n)}\\ &\geq L(\hat{\theta};x_1,\cdots,x_n)\\ &\geq \displaystyle{\sup_{\theta;g(\theta)=\tau}L(\theta;x_1,\cdots,x_n)}\\ &=\hat{L}(\tau;x_1,\cdots,x_n) \end{aligned}$

を得る。　 $\blacksquare$ )

最尤推定量の性質(2)
　その確率密度が $f(x;\theta)$ であるような確率変数 $X$ の独立な標本を $X_1,\cdots,X_n$ とし、その実母数 $\theta$ の有効推定量 $T(X_1,\cdots,X_n)$ が存在するならば、 $\mathrm{Fisher}$ 情報量 $I_X(\theta)$ が正という条件の下で、それは $\theta$ の最尤推定量でもある。

( $\because$ 　母数 $\theta$ の有効推定量 $T$ はCramér-Raoの不等式を満たすから

$\begin{aligned} \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}&=A(\theta) (T-\theta),\\ A(\theta)&=nI_X(\theta) \end{aligned}$

が成り立つ。仮定より $A(\theta)\gt0$ であるから、対数尤度方程式

$\begin{aligned} \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}&=0 \end{aligned}$

の解として $\theta=T$ を得る。また

$\begin{aligned} \theta\lt T\Longrightarrow \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}\gt0,\\ \theta\gt T\Longrightarrow \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}\lt0 \end{aligned}$

が成り立つから、対数尤度を最大にするような $\theta$ は $T$ であり、それは $T$ が最尤推定量であることに他ならない。　 $\blacksquare$ )

　また証明が非常に煩雑であるためにここでは命題のみを述べるが、以下の性質も持つ。

最尤推定量の性質(3)　サイズが $n$ であるような標本 $X_1,\cdots,X_n$ に基づく最尤推定量 $\hat{\theta}_n=\hat{\theta}_n(X_1,\cdots,X_n)$ に対して、充分な正則条件の下で $n\rightarrow\infty$ のとき

$\begin{aligned} \hat{\theta}_n&\xrightarrow{\mathcal{P}}\theta,\\ \sqrt{n}(E_{\theta}[\hat{\theta}_n]-\theta)&\rightarrow0,\\ V_{\theta}[\hat{\theta}_n]&\rightarrow\displaystyle{\frac{1}{n I_X(\theta)}} \end{aligned}$

が成り立つ。ここで $I_X(\theta)$ は $\mathrm{Fisher}$ 情報量である。
　また $\sqrt{n}(\hat{\theta}_n-\theta)$ の確率分布の分布関数は $n\rightarrow\infty$ のとき正規分布に収束する。

　1つ目の極限を満たす、すなわち一般に標本サイズを $n$ としたときに母数 $\theta$ の推定量 $\hat{\theta}_n$ が

$\begin{aligned} \hat{\theta}_n&\xrightarrow{\mathcal{P}}\theta(n\rightarrow\infty) \end{aligned}$

を満たすとき、 $\hat{\theta}_n$ は一致性を持つ、または一致推定量であるという。
　2つ目の性質は最尤推定量が漸近的に有効性を持つことを意味し、これを漸近有効性を持つという。
　さらに $\sqrt{n}(\hat{\theta}_n-\theta)$ の確率分布の分布関数は $n\rightarrow\infty$ のとき正規分布に収束する性質を最尤推定量の漸近正規性という。2つ目及び3つ目の性質から最尤推定量は漸近的に

$\begin{aligned} \hat{\theta}_n\sim N\left(0,\displaystyle{\frac{1}{I_X(\theta)}}\right) \end{aligned}$

が成り立つ。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

前回

7. 統計的推測論

7.2 最尤法

7.2.1 最尤推定量の性質

次回

参考文献

7.　統計的推測論

7.2　最尤法

7.2.1　最尤推定量の性質