「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。今月(2022年10月)からは多忙につき、日々の投稿数を減らします。

MENU

本気で学ぶ統計学(20/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

7. 統計的推測論

 データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
 他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを真の値という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。

7.2 最尤法

 有効推定量が存在しない場合、一様最小分散不偏推定量が存在しないもしくは存在してもその利用が望ましいか疑わしい場合、最尤法を利用することが選択肢として存在する。
 最尤推定量は常に“良い”推定量ではないものの、多くの場合にさまざまな望ましい性質をもつ合理的な推定量となる。また標本数が大きいときに一様最小分散不偏推定量と同様の正当化が可能である 。
 標本X=(X_1,\cdots,X_n)に対して同時密度関数をf(x,\theta)とする。このときにf(x,\theta)を母数\thetaの関数と見たもの



\begin{aligned}
L(\theta)=L(\theta,x)=f(x,\theta)
\end{aligned}


を尤度関数という。さらに尤度関数の対数を取った



\begin{aligned}
l(\theta)=\log L(\theta)=\log f(x,\theta)
\end{aligned}


を対数尤度関数という。尤度関数は観測値が得られたときに、母数\thetaの値のもっともらしさを表す関数と解釈できる。
 最尤法は尤度関数を最大にするような母数の値をその推定値とするような推定方法であり、このような推定量最尤推定量である。すなわち最尤推定\hat{\theta}



\begin{aligned}
\hat{\theta}=\displaystyle{\mathrm{arg}\max_{\theta\in\Theta}L(\theta)}
\end{aligned}


で定義される。
 この観点では、最尤推定量は観測値が得られるのがもっとも自然である(=もっとも確率が高い)ような母数の推定量と言うことができる。
 対数関数\log xx\in\mathbb{R}に関して単調増加であることから、最尤推定量は対数尤度を最大にするものでもある。標本が独立で同一の分布に従うならば、同時密度関数は標本の密度関数の積として表されることから、尤度関数は標本の密度関数の積として表現でき、これは対数尤度関数が標本の密度関数の対数の和で表されることを意味する。積よりも和の方が利用しやすいため、実用上は対数尤度関数を最大化させることで最尤法を行う方が多い。
 母数が複数の場合、母数を1つずつ(特に攪乱母数を先に)最大化していくことが多い。すなわち母数ベクトル\boldsymbol{\theta}=(\boldsymbol{\theta}_1,\boldsymbol{\theta}_2)に対して前者に興味があるとき、



\begin{aligned}
\tilde{L}(\boldsymbol{\theta}_1)=\displaystyle{\max_{\boldsymbol{\theta}_2} L(\boldsymbol{\theta}_1,\boldsymbol{\theta}_2)}=L(\boldsymbol{\theta}_1,\hat{\boldsymbol{\theta}}_2(\boldsymbol{\theta}_1) )
\end{aligned}


を集約尤度関数という。

7.2.1 最尤推定量の性質

 最尤法の背景にある尤度を最大にするような推定量との考え方は批判も少なくない。しかしさまざまな分布の最尤推定量を考えると直観的にも自然な推定量が得られることが多い。これは最尤推定量がある条件下で“良い”推定量であるからで、たとえば自動的に十分推定量の関数であるからである。



最尤推定量の性質(1) 確率変数Xの標本をX_1,\cdots,X_nとし、その統計量\thetaに対してその最尤推定量を\hat{\theta}(X_1,\cdots,X_n)とする。このとき、

  • \thetaの関数g(\theta)に対してg(\theta)最尤推定量はg(\hat{\theta})で与えられる。

(\because T(X_1,\cdots,X_n)\thetaの十分推定量とするとき、\mathrm{Neyman}の因子分解定理より標本X_1,\cdots,X_nの同時密度関数f(x_1,\cdots,x_n;\theta)について



\begin{aligned}
f(x_1,\cdots,x_n;\theta)=g(T(X_1,\cdots,X_n) )h(x_1,\cdots,x_n)
\end{aligned}


を満たすような\thetaの関数g(\theta)および\thetaに依存しない関数h(X_1,\cdots,X_n)が存在する。
 さて最尤法の定義から、最尤推定量は観測値x_1,\cdots,x_nを固定して左辺f(x_1,\cdots,x_n;\theta)を最大化することである。このときh(x_1,\cdots,x_n)は固定されているから、それはg(\theta)\thetaの関数として最大化させることに他ならない。したがって最尤推定量は十分推定量(の関数)である。

 次に任意の\tau\in\mathbb{R}に対して\hat{L}(\tau;x_1,\cdots,x_n)=\displaystyle{\sup_{\theta;g(\theta)=\tau}L(\theta;x_1,\cdots,x_n)}とおくとき



\begin{aligned}
\hat{L}(g(\hat{\theta});x_1,\cdots,x_n)&=\displaystyle{\sup_{\theta;g(\theta)=g(\hat{\theta})}L(\theta;x_1,\cdots,x_n)}\\
&\geq L(\hat{\theta};x_1,\cdots,x_n)\\
&\geq \displaystyle{\sup_{\theta;g(\theta)=\tau}L(\theta;x_1,\cdots,x_n)}\\
&=\hat{L}(\tau;x_1,\cdots,x_n)
\end{aligned}


を得る。 \blacksquare)


最尤推定量の性質(2)
 その確率密度がf(x;\theta)であるような確率変数Xの独立な標本をX_1,\cdots,X_nとし、その実母数\thetaの有効推定量T(X_1,\cdots,X_n)が存在するならば、\mathrm{Fisher}情報量I_X(\theta)が正という条件の下で、それは\theta最尤推定量でもある。
(\because 母数\thetaの有効推定量TはCramér-Raoの不等式を満たすから

\begin{aligned}
\displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}&=A(\theta) (T-\theta),\\
A(\theta)&=nI_X(\theta)
\end{aligned}

が成り立つ。仮定よりA(\theta)\gt0であるから、対数尤度方程式



\begin{aligned}
\displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}&=0
\end{aligned}


の解として\theta=Tを得る。また



\begin{aligned}
\theta\lt T\Longrightarrow \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}\gt0,\\
\theta\gt T\Longrightarrow \displaystyle{\frac{\partial }{\partial \theta}\log\prod_{i=1}^{n}f(x_i;\theta)}\lt0
\end{aligned}


が成り立つから、対数尤度を最大にするような\thetaTであり、それはT最尤推定量であることに他ならない。 \blacksquare)


 また証明が非常に煩雑であるためにここでは命題のみを述べるが、以下の性質も持つ。


最尤推定量の性質(3) サイズがnであるような標本X_1,\cdots,X_nに基づく最尤推定\hat{\theta}_n=\hat{\theta}_n(X_1,\cdots,X_n)に対して、充分な正則条件の下でn\rightarrow\inftyのとき

\begin{aligned}
\hat{\theta}_n&\xrightarrow{\mathcal{P}}\theta,\\
\sqrt{n}(E_{\theta}[\hat{\theta}_n]-\theta)&\rightarrow0,\\
V_{\theta}[\hat{\theta}_n]&\rightarrow\displaystyle{\frac{1}{n I_X(\theta)}}
\end{aligned}

が成り立つ。ここでI_X(\theta)\mathrm{Fisher}情報量である。
 また\sqrt{n}(\hat{\theta}_n-\theta)の確率分布の分布関数はn\rightarrow\inftyのとき正規分布に収束する。

 1つ目の極限を満たす、すなわち一般に標本サイズをnとしたときに母数\thetaの推定量\hat{\theta}_n



\begin{aligned}
\hat{\theta}_n&\xrightarrow{\mathcal{P}}\theta(n\rightarrow\infty)
\end{aligned}


を満たすとき、\hat{\theta}_nは一致性を持つ、または一致推定量であるという。
 2つ目の性質は最尤推定量が漸近的に有効性を持つことを意味し、これを漸近有効性を持つという。
 さらに\sqrt{n}(\hat{\theta}_n-\theta)の確率分布の分布関数はn\rightarrow\inftyのとき正規分布に収束する性質を最尤推定量の漸近正規性という。2つ目及び3つ目の性質から最尤推定量は漸近的に



\begin{aligned}
\hat{\theta}_n\sim N\left(0,\displaystyle{\frac{1}{I_X(\theta)}}\right)
\end{aligned}


が成り立つ。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)
プライバシーポリシー お問い合わせ