「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(19/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

7. 統計的推測論

 データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
 他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを真の値という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。

7.1.3 十分性

 標本から統計量を得るとき、標本自体が有する“情報”は100\%反映されるとは限らない。通常は何らかの縮約が起こるはずで、もし標本から統計量を推定する過程で除外された情報が真の値に関するものであれば、推定精度を悪化させるはずである。であれば統計量は標本が持つ情報を可能な限り活かすような関数であることが望ましい。これを数学的に表現すると、統計量Tを与えたときのX=(X_1,\cdots,X_n)の条件付き分布が未知の母数\thetaに依存しないことが望ましいと言える。
 以上を踏まえ、統計量Tが母数\thetaに関する十分推定量であるとは、Tを与えたときの標本の条件付き分布に依存しないことをいう

例:二項乱数の生成とベルヌーイ乱数の生成
 X_i\sim B(p),i=1,2,\cdots,nにおいて統計量


\begin{aligned}
Y=\displaystyle{\sum_{i=1}^{n}X_i}
\end{aligned}

に関する何らかの観測を行う場合を考える。二項分布の性質から明らかにY\sim Bin(n,p)である。このときYの分布が分かっているのだから、Y自体を観測する方法と、X_1,\cdots,X_nを直接的に観測して間接的にYを得る方法を想定できるが、これらに違いはあるのだろうか。
 Yは直観的には成功総数と言えるが、後者で得た場合、何回目の試行で成功したのかという情報が得られる。ここでpを知りたくて推定を行う場合、その情報の有無はpの推定精度に意味をもたらすだろうか。
 もし意味を持つのであれば、あるYを与えたときのX=(X_1,\cdots,X_n)の条件付き分布がYに依存するはずである。しかし、


\begin{aligned}
P(X_1=x_1,\cdots,X_n=x_n|Y=y)&=\displaystyle{\frac{P(X_1=x_1,\cdots,X_n=x_n,Y=y)}{P(Y=y)}}\\
&=\displaystyle{\frac{1}{{}_{n}C_{y}}} 
\end{aligned}
である。このようにpの値にかかわらず、{}_{n}C_{y}通りの成功と失敗の並び方はすべて同様に確からしいことが分かる。したがってY=yが与えられたとき、成功と失敗の並び自体はpに関する情報を有していないと考えられる。

 ただし条件付き分布を求めるのは、特に標本数が多くなれば、一般に難しい。そこで以下の\mathrm{Neyman}の因子分解定理を利用する方が望ましい。


Neymanの因子分解定理 確率変数X_1,\cdots,X_nの結合密度関数または確率関数f(x_1,\cdots,x_n,\theta)に対して統計量Tが十分統計量であることの必要十分条件f(x_1,\cdots,x_n,\theta)

\begin{aligned}
f(x_1,\cdots,x_n,\theta)=g_\theta (T(X_1,\cdots,X_n))h(x_1,\cdots,x_n )
\end{aligned}

という形で分解できることである。

 平均二乗誤差を用いるような統計的決定理論に基づく推定では、十分統計量に基づく非確率化決定関数を構成することができる。\delta(X)を未知母数\thetaの推定量とし、平均二乗誤差


\begin{aligned}
R(\theta,\delta)=E_{\theta}[(\delta(X)-\theta)^2]
\end{aligned}

をリスク関数として取る。ここで


\begin{aligned}
\delta^{*} (T)=E[\delta(X)|T]
\end{aligned}

とおくとき、以下の\mathrm{Rao}-\mathrm{Blackwell}の定理が成り立つ。


\mathrm{Rao}-\mathrm{Blackwell}の定理 未知母数\thetaの推定量\delta(X)に関して\delta^{*} (T)=E[\delta(X)|T]を考えると、

\begin{aligned}
E_{\theta}[(\delta^{*}(T)-\theta)^2]\leq E_{\theta}[(\delta(X)-\theta)^2],{}^{\forall}\theta
\end{aligned}

が成り立つ。等号は\delta(X)=\delta^{*}(T)=1となるときのみ成立する。

(\because 推定量\delta(X)の平均二乗誤差を計算すると、


\begin{aligned}
E_{\theta}[(\delta(X)-\theta)^2]=&E_{\theta}[\left\{(\delta(X)-\delta^{*}(T))+(\delta^{*}(T)-\theta)\right\}^2]\\
=&E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)^2]+E_{\theta}[(\delta^{*}(T)-\theta)^2]\\
&+2E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)]
\end{aligned}

である。右辺第3項について


\begin{aligned}
E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)\right]&=E_\theta^{T}\left[E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)(\delta^{*}(T)-\theta)\right]|T\right]\\
&=E_\theta^{T}\left[(\delta^{*}(T)-\theta)E_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)\right]|T\right]\\
&=0(\because E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)]=0)
\end{aligned}

を代入すれば、


\begin{aligned}
E_{\theta}[(\delta(X)-\theta)^2]&=E_{\theta}[\left(\delta(X)-\delta^{*}(T)\right)^2]+E_{\theta}[(\delta^{*}(T)-\theta)^2]\\
&\geq E_{\theta}[(\delta^{*}(T)-\theta)^2]
\end{aligned}

が成り立つ。等号が成り立つのはE_{\theta}\left[\left(\delta(X)-\delta^{*}(T)\right)^2\right]=0の場合で、それはP_{\theta}\left(\delta(X)=\delta^{*}(T)\right)=1と同値である。 \blacksquare)

 \mathrm{Rao}-\mathrm{Blackwell}の定理から、分散の小さい不偏推定量を求める場合、十分統計量の関数になっている不偏推定量のみを考えればよいことが分かる。

7.1.4 完備十分統計量

 十分統計量が完備性を持つ場合、十分統計量に基づく推定においてより強固な議論を進めることができる。


完備十分統計量 統計量T(X)が完備であるとは、Tの関数g(T)の中で恒等的にその期待値が0になることは定数0に限ることをいう。すなわち

\begin{aligned}
{}^{\forall}\theta\in\Theta\left(E_\theta^{T}\left[g(T)\right]=0\right)\Longrightarrow g(t)\equiv0
\end{aligned}

が成り立つことをいう。完備であるような十分統計量を完備十分統計量という。

 完備性の利点は、完備統計量の関数であるような0の不偏推定量0であり、したがってg(\theta)の不偏推定量で完備統計量の関数であるようなものは存在しても高々1つしかないということが保証される点にある。
 完備性を持つならば、\mathrm{Rao}-\mathrm{Blackwell}の定理から一様最小分散不偏統計量の求め方を与えるLehmann-Schefféの定理が導かれる。


Lehmann-Schefféの定理 確率変数X=(X_1,\cdots,X_n)の同時分布をP_{\theta},\theta\in\Thetaとし、統計量T\left\{P_{\theta};\theta\in\Theta\right\}に対して完備十分統計量であるとする。母数\thetaの関数g(\theta)に対し、分散が有限な不偏推定量が少なくとも1つ存在するならば、g(\theta)に対する一様最小分散不偏統計量が存在する。
(\because  分散が有限なg(\theta)の不偏推定量U(X)とする。このとき不偏性の定義から

\begin{aligned}
E_{\theta}\left[U(X)\right]=g(\theta)
\end{aligned}

である。いまU_0(t)=E[U|T=t]を導入する。すると\mathrm{Rao}-\mathrm{Blackwell}の定理から、U_0g(\theta)の不偏推定量であり、さらに


\begin{aligned}
{}^{\forall}\theta\in\Theta\left(V[U_0]\leq V[U]\right)
\end{aligned}

が成り立つ。
 gに関する任意の不偏推定量S(X)に対しても\mathrm{Rao}-\mathrm{Blackwell}の定理から


\begin{aligned}
S_0 (t)=E[S|T=t]
\end{aligned}

g(\theta)の不偏推定量であり、さらに


\begin{aligned}
{}^{\forall}\theta\in\Theta\left(V[S_0]\leq V[S]\right)
\end{aligned}

が成り立つ。
 U_0,S_0はともにTの関数でg(\theta)の不偏推定量であるから、U_0-S_0Tの関数でしかも0の不偏推定量である。Tは完備であったから、


\begin{aligned}
U_0-S_0=0
\end{aligned}

が成り立ち、


\begin{aligned}
{}^{\forall}\theta\in\Theta\left(V[U_0]=V[S_0]\leq V[S]\right)
\end{aligned}

を得るが、U_0の不偏性と併せ、これは一様最小分散不偏統計量の定義に他ならない。 \blacksquare)

 Lehmann-Schefféの定理に基づけば、完備十分統計量の関数であるような不偏推定量は一様最小分散不偏統計量である。

7.1.5 一致性

 直感的に言えば、標本数の多い方が母集団の確率的な振る舞いを検討する、すなわち推定を行うにあたっては望ましいと考えられる。そこで分布P_{\theta},\theta\in\Thetaから得られた標本数nの無作為標本X_1,\cdots,X_nに基づく関数g(\theta)の推定量T_n=T(X_1,\cdots,X_n)について、その“良さ”を考える見地として標本数が無限に大きくなるときの点列\{T_n\}の近似的な性質を考えて、そこから望ましい性質を追究する方法が想定できる。またある推定量の確率分布がその極限において代表的な確率分布(たとえば正規分布)で表される場合、充分な標本数がある場合に近似的にその分布の下で議論すれば、相当簡単に推定を行うことができる。そこで一致性という概念を導入できる。


一致性 推定量T_n=T(X_1,\cdots,X_n)が任意の\epsilon\gt0,\theta\in\Thetaに対して

\begin{aligned}
\displaystyle{\lim_{n\rightarrow\infty}P_{\theta}\left(\|T_n-g(\theta)\|\gt\varepsilon\right)}=0
\end{aligned}

となるとき、すなわちT_ng(\theta)に確率収束するとき、T_ng(\theta)の一致推定量であるという。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)
プライバシーポリシー お問い合わせ