「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

本気で学ぶ統計学(17/31)

 統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
 底本として

を用いる。

6. 統計的決定理論の枠組み

 統計的決定理論は、それまで別の問題として議論されてきた推定論や検定論を数学的に統一的な議論として扱えるように\mathrm{Wald}(1950)により導入されたものである。したがって今後の議論に必須ではないし、初学者の理解にとっては害があるかもしれない。そこで一旦これを省略してもよい。

6.1 理論的な枠組み

 標本\boldsymbol{X}=(X_1,\cdots,X_n)を考える。\boldsymbol{X}の実現値が属する集合を標本空間\mathcal{X}という。\boldsymbol{X}\in\mathcal{X}の従う分布をP_{\theta}とし、その分布族を\mathcal{P}=\{P_{\theta}|\theta\in\Theta\}とする。\thetaを母数(パラメータ)といい、\Thetaを母数空間という*1。一般に母数は未知であり、その意味で未知母数という。これに対し既知のものを既知母数という。母数は多次元の場合があるが、問題設定によってはそのすべてに興味があるとは限らない。その場合、興味の無い母数を局外母数(攪乱母数)という。

例:正規分布の母数
 確率変数Y正規分布N(\mu,\sigma^2)に従うとし、\muは既知で\sigma^2,\sigma\gt0が未知だとする。このときY\in\mathcal{Y}の従う分布は



\begin{aligned}
P_{\theta}\{X\leq x\}=\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}}dx
\end{aligned}


であり、その分布族は



\begin{aligned}
\mathcal{P}_{\theta}=\mathcal{P}_{(\mu,\sigma^2)}=\left\{\displaystyle{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}}|\mu\in\mathbb{R},0\lt\sigma\lt\infty\right\}
\end{aligned}


となる。また



\begin{aligned}
\boldsymbol{\theta}=\{(\mu,\sigma)|\mu\in\mathbb{R},0\lt\sigma\lt\infty\}
\end{aligned}


である。この問題で\sigma^2が争点であるならば、仮に既知であろうと未知であろうと\muは局外母数である。

 こうした中で(\mu,\sigma)\in\Theta(の内興味がある方)を合理的に推測することが統計的決定理論の目的とするところである。普通は標本\boldsymbol{X}=(X_1,\cdots,X_n)に基づいて決定する。とはいえ、推測方法は一意であるとは限らないため、その良し悪しを定められなければならない。その上、特定の標本に対して“良い”推測方法では無意味である。そこで標本の関数を考え、それに対して良さの基準を与えて判断することとなる。そのための前提となる枠組みを与える。
 まず既に導入した

  • (1)標本空間\mathcal{X}
  • (2)母数空間\Theta、分布族\mathcal{P}を想定しておく。これらに加え、
  • (3)決定空間(\mathcal{D},\mathcal{B})を与える。

この空間は問題として想定している統計量が取り得る値の空間を与えているのであり、それを具体的に決めることがこの問題における“決定”であったから決定空間という名前を与えている。そこでd\in\mathcal{D}決定と呼ぶ。

 そして

  • (4)各\theta\in\Thetaに対して\mathcal{B}-可測である関数
    \begin{aligned}W:\Theta\times\mathcal{D}\rightarrow\mathbb{R}_{+}=\mathbb{R}\cup\{\infty\},a\mapsto W(\theta,a)\end{aligned}
    を考え、これを損失関数という。これは興味のある推定量\thetaを決定dだと定めることによる「損失」を表現するための関数である。

 最後に、標本\boldsymbol{X}=(X_1,\cdots,X_n)から決定dを具体的に決めるべく、それらの間に関係を与える。すなわち

  • (5)写像または関数\delta:\mathcal{X}\rightarrow\mathcal{D},d=\delta(X),\delta\in\Deltaを決定関数という。このとき、可測写像\delta:\mathcal{X}\rightarrow\mathcal{D}を非確率的決定関数という。他方で各x\in\mathcal{X}に対して\delta(\cdot|x)(\mathcal{D},\mathcal{B})上の確率測度、各B\in\mathcal{B}に対して\delta(B|\cdot)\mathcal{A}-可測となるような関数\delta:\mathcal{B}\times\mathcal{X}\rightarrow[0,1]を考えることができ、これは非確率的決定関数を内包する。

 すなわち非確率的決定関数\delta:\mathcal{X}\rightarrow\mathcal{D}が与えられたとき

\begin{aligned}\tilde{\delta}(B|x)=\boldsymbol{1}_{\delta(x)\in B}(x)\end{aligned}
で確率的決定関数\tilde{\delta}が定まる。

 これらが与えられたとき、すなわち(1)-(4)、さらには(5)として確率的決定関数または非確率的決定関数の族\Deltaが与えられたとき、組(\mathcal{X},\mathcal{A},\mathcal{P},\Theta,\mathcal{D},\mathcal{B},W,\Delta)統計的決定問題と呼ぶ。

6.2 許容度

 では統計的決定問題が与えられたときに、複数の決定d=\delta(X)から良い\deltaを選ぶための基準を定義する。すなわち統計的決定問題における「良さ」を与える。
 標本が確率変数(ベクトル)であるため、損失関数も確率変数である。その評価を行うための手段としてまず期待値を取ることが考えられる。決定関数\delta(\cdot)に対して



\begin{aligned}
R(\theta,\delta)=\begin{cases}
\displaystyle{\int_{\mathcal{X}}\int_{\mathcal{D}}W(\theta,a)\delta(da|x) P_{\theta}(dx)},&\deltaが確率的決定関数,\\
\displaystyle{\int_{\mathcal{X}}W(\theta,\delta(x))P_{\theta}(dx)},&\deltaが非確率的決定関数
\end{cases}
\end{aligned}


をリスク関数という。そして2つの決定関数\delta_1,\delta_2\in\Deltaがあるとき、



\begin{aligned}
{}^{\forall}\theta\in\Theta(R(\theta,\delta_1)\leq R(\theta,\delta_2) )
\end{aligned}


が成り立つならば、\delta_1\delta_2と同程度に良い決定関数であるという。その上で



\begin{aligned}
{}^{\forall}\theta\in\Theta(R(\theta,\delta_1)\leq R(\theta,\delta_2) )\land{}^{\exists}\theta_0\in\Theta(R(\theta,\delta_1 )\lt R(\theta,\delta_2) )
\end{aligned}


であるならば、\delta_1\delta_2より一様に良い決定関数であるという。
 とはいえ、ある統計的決定問題において他のすべての決定関数よりも一様に良い決定問題が存在するとは限らない。そうした状況を加味した、ある問題における決定\deltaの定め方を定義しておく。ある決定関数\delta_{*}に対して、それよりも一様に良い決定関数が\deltaの中に存在しなければ、\delta_{*}\deltaの中で許容的であるという。
許容性はリスク関数による比較という意味で“良い”決定を選択することを可能にすることになるので、許容性があることは決定関数の望ましい性質の1つといえる。

6.3 ミニマックス基準とベイズ基準

 許容性の観点では互いに優劣の付かない決定関数が存在し得る。そこで決定関数を比較するための新たな基準を導入する。ここでは2つの基準を導入する。
 まずミニマックス基準(minimax criteria)はリスク関数の最大値を用いて決める。ある特定の決定関数\deltaについてそのリスクの最大値\bar{R}(\delta)=\displaystyle{\sup_{\theta\in\Theta}R(\theta,\delta)}を考え、それが小さい方をより望ましいと考えるものである。\delta^{*}ミニマックス決定関数であるとは、任意の決定関数\deltaに対して



\begin{aligned}
\bar{R}(\delta^{*})\leq \bar{R}(\delta)
\end{aligned}


が成り立つことをいう。ただし、与えられた統計的決定問題に対して具体的にミニマックス決定関数を求めるのは簡単ではない。
 もう1つの方法にベイズ基準(Bayes criteria)がある。これは平均的なリスクに注目する方法である。決定関数\deltaのリスク関数R(\theta,\delta)を母数空間\Theta上の確率分布\piを用いて平均した



\begin{aligned}
r(\pi,\delta)=\displaystyle{\int_{\Theta}R(\theta,\delta)\pi}(d\theta)
\end{aligned}


に注目する。これを事前分布\piのもとでのベイズリスクと呼ぶ。ベイズ基準はこのベイズリスクを比較しより小さい方を望ましいとする。r(\pi,\delta)を最小化するような\delta_{\pi}、すなわち任意の決定関数\deltaに対して



\begin{aligned}
r(\pi,\delta_{\pi})\leq r(\pi,\delta)
\end{aligned}


を満たすような\delta_{\pi}ベイズ決定関数という。

参考文献

  • Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
  • Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
  • Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
  • Wald,A.,(1950), "Statistical Decision Functions", John Wiley and Sons, New York; Chapman and Hall, London
  • 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
  • 大田春外(2000)「はじめよう位相空間」(日本評論社)
  • 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
  • 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
  • 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
  • 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
  • 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
  • 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
  • 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
  • 竹村彰通(1991)「現代数理統計学」(創文社)
  • 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
  • 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
  • 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
  • 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
  • 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
  • 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)

*1:\thetaが多次元ならば母数ベクトルという。

プライバシーポリシー お問い合わせ