「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(21/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

7. 統計的推測論

 データ、すなわち考えているもののごく一部から、全体の特徴を知りたいということはままある。より統計学的な言い方で表現すれば標本から母集団の特定値を推測したいことがある。科学的推論にあたっては誤差を考えなければならず、そうした誤差を加味した統計的推測論を構築することが必須である。
 他方で推計方法は一意的ではなく複数存在するのが通常である。さらに母集団の特性値が実際に取る値(これを真の値という)が未知であるからこそ推計をするのであって、“良い”推計方法を具体的な特性値に基づいて議論することは出来ない。こうした事情から確率論を活用して誤差を加味した推計方法を構築する必要があり、その中でも推計方法の“良さ”を表す概念を導入することで、データから可能な限り「真の値」を“上手に”推測したい。本節ではこうした動機をもったうえで統計的な推測を行うための方法に関する理論を議論する。

7.3 区間推定論

 未知母数の含まれる区間を与える、すなわち区間を用いて未知母数を推定する手法を区間推定という。具体的には、未知母数\theta\in\Thetaを含む確率分布P_{\theta}について標本をX=(X_1,\cdots,X_n)\sim P_{\theta},i.i.d.とする。このとき0\lt\alpha\lt1,Xについて集合S(X)\subset\Thetaを定めて、すべての\theta\in\Thetaに対して


\begin{aligned}
P_{\theta}\left\{\theta\in S(X)\right\}\geq1-\alpha
\end{aligned}
となるようにすることを区間推定(領域推定)という。S(X)を信頼係数1-\alphaの信頼域という。信頼係数は事後的な確率と解釈することができないため、確率とは呼べない(後述)。
 特に一次元の確率変数については、無作為標本であるX_1,\cdots,X_n\sim P_{\theta}を取る。0\lt\alpha\lt1に対して、2つの関数L(X_1,\cdots,X_n),U(X_1,\cdots,X_n)を選んで、すべての\theta\in\Thetaについて

\begin{aligned}
P_{\theta}\left\{L(X_1,\cdots,X_n)\leq\theta\leq U(X_1,\cdots,X_n)\right\}\geq1-\alpha
\end{aligned}

となるとき、区間\left[L(X_1,\cdots,X_n),U(X_1,\cdots,X_n)\right]を信頼係数1-\alphaの信頼区間といい、信頼区間を構成することを区間推定という。このときL(X_1,\cdots,X_n),U(X_1,\cdots,X_n)を信頼限界と呼ぶ。
 信頼区間の構築にあたっては一般的に以下のような手順を踏むこととなる:

    (1) X_1,\cdots,X_nと母数\thetaの関数\phi_{\theta}(X_1,\cdots,X_n)でその密度関数g\thetaに依存しないものが存在するとき、0\lt\alpha\lt1に対して
\begin{aligned}\displaystyle{\int_{t_1}^{t_2}g(t)}dt\geq1-\alpha\end{aligned}
となるような実数t_1\lt t_2が求められる。
    (2) X_1,\cdots,X_nが与えられたときに\phi_{\theta}(X_1,\cdots,X_n)\thetaの関数とみなし、その(擬)逆関数があるならば\thetaの下限L(X_1,\cdots,X_n)および上限U(X_1,\cdots,X_n)
\begin{aligned}L(X_1,\cdots,X_n)=\phi_{\theta}^{(-1)}(t_1),U(X_1,\cdots,X_n)=\phi_{\theta}^{(-1)}(t_2)\end{aligned}
で定める。
    (3) こうして得られた上下限から区間[L(X_1,\cdots,X_n),U(X_1,\cdots,X_n)]を構築する。

 信頼係数1-\alphaの信頼区間は複数存在し得るが、その中でもU(X_1,\cdots,X_n)-L(X_1,\cdots,X_n)が最も小さいものを選べばより精度の高い区間推定が可能である。多変量の場合は信頼域が分かりにくい点など難点がある。

7.3.1 区間推定における“良さ”の概念

 区間推定も信頼域S(X)の定め方が一意的でないため、その“良さ”を与える基準を考える必要がある。そのために改めて


\begin{aligned}
P_{\theta}\left\{\theta\in S(X)\right\}\geq1-\alpha
\end{aligned}

に注目する。各\thetaに対して\theta\in S(X)となるようなXの部分集合をA(\theta)とすると、その定義から


\begin{aligned}
{}^{\forall}\theta_0\in\Theta\left(P_{\theta_0}\left\{X\in A(\theta_0)\right\}\geq1-\alpha\right)
\end{aligned}

である*1
 逆にすべての\theta_0\in\Thetaに関して仮説H_0:\theta=\theta_0に対する有意水準\alphaの検定に対する採択域A(\theta_0)が与えられると、標本Xに対してS(X):=\{\theta|X\in A(\theta)\}とすれば信頼係数1-\alphaの信頼域が構築される。また信頼域は高い確率で真の母数を含むことが望ましい。その一方で真の母数以外の母数の値は含まない方が望ましい。そこで不偏の概念が導入される。


区間推定の不偏性 S(X)を標本Xにより構築した信頼水準1-\alphaの信頼域とする。このときS(X)

\begin{aligned}
{}^{\forall}\theta^{\prime},{}^{\forall}\theta\ s.t.\ \theta^{\prime}\neq \theta\left(P_{\theta}\left\{\theta^{\prime}\in S(X)\right\}\leq1-\alpha\right)
\end{aligned}

を満たすとき、S(X)は不偏信頼域である、または不偏であるという。

これは真の母数以外の母数の値を含む確率が1-\alpha以下になるならばS(X)は不偏だという意味で、点推定における不偏に相当する概念である。
 点推定における不偏性に類似する概念として、区間推定における不偏性を導入した。同様に一様最小分散不偏推定量(\mathrm{UMVUE})に相当する概念として一様最強力不偏信頼域を導入する。


区間推定における一様最強力不偏信頼域
S^{*}(X)が不偏でかつ任意の不偏信頼域S(X)に対して

\begin{aligned}
{}^{\forall}\theta,{}^{\forall}\theta^{\prime}\ s.t.\ \theta^{\prime}\neq \theta\left(P_{\theta}\left\{\theta^{\prime}\in S^{*}(X)\right\}\leq P_{\theta}\left\{\theta^{\prime}\in S(X)\right\}\right)
\end{aligned}

を満たすとき、S^{*}(X)を一様最強力不偏信頼域という。

7.3.2 最尤推定量に基づく信頼区間

 簡単のため1次元の母数\thetaを考える。I_X(\theta)を母数\thetaに関する\mathrm{Fisher}情報量とする。また\hat{\theta}_nをサイズnの標本に基づく\theta最尤推定量だとする。このとき前節において示したように漸近的に


\begin{aligned}
\theta\sim N\left(\theta,\displaystyle{\frac{1}{I_{X}(\theta)}}\right)
\end{aligned}

が成り立つから、近似的に


\begin{aligned}
P_{\theta}\left\{-z_{\frac{\alpha}{2}}\lt\displaystyle{\frac{\hat{\theta}-\theta}{\displaystyle{\frac{1}{I_{X}(\theta)}}}}\lt z_{\frac{\alpha}{2}}\right\}\approx1-\alpha
\end{aligned}

が成り立つ。したがって\thetaに関してこの不等式を解くことで、\thetaに関する信頼区間を構築することができる。ただしI_{X}(\theta)は一般に\thetaに関して複雑な関数になることが多い。そのため代わりにI_{X}(\hat{\theta}_n)で置き換えることが多い。そうすればI_{X}(\hat{\theta}_n)\thetaを含まないから、


\begin{aligned}
\hat{\theta}_n-\displaystyle{\frac{z_{\frac{\alpha}{2}}}{\sqrt{n I_{X}(\hat{\theta}_n)}}}\lt\theta\lt\hat{\theta}_n+\displaystyle{\frac{z_{\frac{\alpha}{2}}}{\sqrt{n I_{X}(\hat{\theta}_n)}}}
\end{aligned}

が成り立つ。これが最尤推定量に基づく母数\thetaの信頼係数1-\alphaの近似的な信頼区間である。
 この方法は汎用的かつ簡便的で便利であるものの、確率の評価を近似している上、\mathrm{Fisher}情報量も近似値に置き換えていることから、やや粗い点には注意が必要である。

7.3.3 具体的な区間推定の例

 標本をX_1,\cdots,X_n\sim N(\mu,\sigma^2),i.i.d.,|\mu|\lt\infty,\sigma\gt0とする。このとき未知母数\mu区間推定する、すなわち\muの信頼区間を求める。なお信頼係数を1-\alpha,0\lt\alpha\lt1とする。\sigma^2=\sigma_0^2を既知とするならば、統計量\bar{X}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}X_i}を考えると正規分布の再生性から\bar{X}\sim N\left(\mu,\displaystyle{\frac{\sigma_0^2}{n}}\right)である。それを規格化したものは標準正規分布に従う、すなわち


\begin{aligned}
\displaystyle{\frac{\bar{X}-\mu}{\displaystyle{\frac{\sigma_0}{\sqrt{n}}}}}\sim N(0,1)
\end{aligned}

であり、そのうえ未知母数\muには依存しなくなる。したがって


\begin{aligned}
P\left\{\displaystyle{\frac{|\bar{X}-\mu|}{\displaystyle{\frac{\sigma_0}{\sqrt{n}}}}}\leq u_{\alpha}\right\}=P\left\{\bar{X}-u_{\alpha}\displaystyle{\frac{\sigma_0}{\sqrt{n}}}\leq\mu\leq\bar{X}+u_{\alpha}\displaystyle{\frac{\sigma_0}{\sqrt{n}}}\right\}=1-\alpha
\end{aligned}

となるようなu_{\alpha}が存在し、区間


\begin{aligned}
\left[\bar{X}-u_{\alpha}\displaystyle{\frac{\sigma_0}{\sqrt{n}}},\bar{X}+u_{\alpha}\displaystyle{\frac{\sigma_0}{\sqrt{n}}}\right]
\end{aligned}

が求める信頼区間となる。
 もし\sigma^2が未知ならば、統計量


\begin{aligned}
S^2:=\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}
\end{aligned}

を考えると既に示したように


\begin{aligned}
\displaystyle{\frac{\bar{X}-\mu}{\sqrt{\displaystyle{\frac{S^2}{n}}}}}\sim t(n-1)
\end{aligned}

であり、これは\muに依存しない。したがって


\begin{aligned}
P\left\{\displaystyle{\frac{\left|\bar{X}-\mu\right|}{\sqrt{\displaystyle{\frac{S^2}{n}}}}}\leq t_{\alpha}\right\}=P\left\{\bar{X}-\displaystyle{\frac{t_{\alpha}}{\sqrt{\displaystyle{\frac{S^2}{n}}}}}\leq\mu\leq\bar{X}+\displaystyle{\frac{t_{\alpha}}{\sqrt{\displaystyle{\frac{S^2}{n}}}}}\right\}=1-\alpha
\end{aligned}

となるようなt_{\alpha}が存在し、区間\left[\bar{X}-t_{\alpha}\sqrt{\displaystyle{\frac{S^2}{n}}},\bar{X}+t_{\alpha}\sqrt{\displaystyle{\frac{S^2}{n}}}\right]が求める信頼区間である。

7.3.4 信頼区間の解釈

 信頼係数と呼ぶのは、P_{\theta}\{\theta\in S(X)\}を確率と解釈するのに問題があるためである。P_{\theta}\{\theta\in S(X)\}において確率的に変化するのは、S(X)であり、これは無作為な集合である。これが意味するのは無作為に発生する集合S(X)が未知母数\thetaを含む確率が1-\alphaになるということである。これは言ってみればXを観測する前の事前確率であり、特定のX=xが実現した後に母数\thetaS(X)に含まれる確率を議論することは出来ない。すなわち母数\thetaは未知であるものの固定された値であるから、特定のS(x)を固定した場合、\thetaS(X)に含まれるか含まれないかの2択でしかなく、確率も0,1のいずれかになってしまう。\thetaが未知であるから0,1のいずれなのかも未知である。そのため通常の意味での確率を考えることに意味が無いのである。
 ただし\mathrm{Bayes}統計学の立場に立てば母数が信頼域に含まれる事後的な確率を明示的に求めることは出来る。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)

*1:これは後述する仮説検定の議論に則るならば、A(\theta_0)が単純仮説H_0:\theta=\theta_0に対する有意水準\alphaの検定の採択域であることを意味する。このため、統計的決定理論に厳密に則るならば、本来は先に統計的仮説検定を扱う。しかし推定論を一括して扱い、その後に仮説検定を行った方が実用上は望ましいと考えた。そこで議論の先取りや重複を気にせずまずは区間推定論を扱う。

プライバシーポリシー お問い合わせ