統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
前回
5. 統計量・標本分布とサンプリング
以降の議論ではいよいよ推定統計学を扱っていく。その前段として、統計量の概念を導入する。
統計学の基本的な概念として母集団と標本の区別を行う必要がある。たいていの場合、母集団を構成する全個体の注目している値(特性値という)を調査するのは不可能であるため、統計学として興味があるのは母集団のごく一部から特性値を合理的に推計することである*1。こうした状況において実験や観察などで得られた母集団に所属する一部(から観測された特性値)を標本という。
標本の採取方法にはある一つの対象の観測地が得られたときにその対象を観察対象から外す場合と再び観測対象に含める場合がある。前者を復元抽出といい後者を非復元抽出という。
統計推測においては母集団分布としてある特定の分布(たとえば正規分布)を仮定する場合がある。特定の分布を仮定すれば、問題をその母数を推計することに置き換えることが可能になる。それも踏まえ、このようにある特定の分布を仮定するという状況は、分布の形状、すなわち分布関数(確率密度関数)の関数形を仮定しつつ、母数の全部または一部を未知とすることに等しい。これをより数学的に定義するために分布族という概念を与える。
その母数ベクトルがであるようなある確率分布(分布関数および確率密度関数をそれぞれとする。)に対し、母数ベクトルを動かして得られる任意の確率分布を集めた、すなわち母数ベクトルの取り得る範囲をあらわす集合を添字集合とするような集合
を分布族という。
このように特定の分布族を仮定することを(統計的)モデリング、その仮定した特定の分布族自体を統計的モデルという。
統計的モデルは3つの類型に分類することが出来る。分布族を添字づける集合を母数空間といい、問題設定において確率分布に明示的な形状を仮定し、併せて母数空間を有限次元の空間と見なし、興味のある母数の推定やそれにより確定させた分布を用いて検定や予測を行う場合、
をパラメトリック・モデルという。
これに対して、特定の関数形を一切仮定せずに統計的な解析を行う場合をノンパラメトリック・モデルという。この場合には、標本の値そのものよりもその順位(大小関係)を利用する。
また問題設定において興味のあるものとそれ以外のもの(これを攪乱母数という。)に母数ベクトルを分割し、は特定の母数空間に、攪乱母数は無限次元空間に属するとした場合に、
例1:パラメトリック・モデル
たとえばある確率変数に対して正規分布に従う、すなわち母数空間と取り、という分布族を取った場合、問題は(の両方またはいずれか)を推定することに帰着する。この場合はパラメトリック・モデルである。
例2:Coxハザード比例モデル
生存時間解析において頻用されるCoxハザード比例モデルは典型的なセミパラメトリックモデルである。適当に定めた起点から分析対象となっている事象が発生するまでの時間を表す確率変数をとする。その分布関数および確率密度関数をそれぞれとおく。またその事象に関係する(と想定する)共変量を表す確率ベクトルをとする。
このとき、生存関数を
とおく。これは起点からだけ経過したときに分析事象が発生していない確率を表す。
生存関数に対して
で定義されるをハザード関数という。これは時点までに事象が発生しなかったという条件の下で、時点の直後に事象が発生するしやすさを表す強度を意味する。
このハザード関数を以下のようにモデル化したものをCox比例ハザードモデルという。
Cox比例ハザードモデルは、確率ベクトルに対しては明示的な関係性(関数形)を仮定している、すなわち母数についてはパラメトリックな形態を仮定している。これに対して確率変数に対しては特定の関数形(すなわち母数)を仮定していない点でノンパラメトリックになっている。このためCox比例ハザードモデルはセミパラメトリック・モデルと言える。
パラメトリック・モデル、セミパラメトリック・モデルおよびノンパラメトリック・モデルのうち何れを用いるかは、どのような解析をすることが目的か、データに関してどのような制約があるかなどによって決めるべきことではあるが、各々の性質をまとめると以下のようになる:
メリット |
デメリット |
||
(1) | パラメトリック・モデル |
・解析対象を母数に限定化するために分析を簡約化できる。・分析手法が確立している手法が多い。 |
・仮定した分布族が誤っていれば、誤判断を招き得る。・本来は反映すべき変数を取りこぼす可能性がある。 |
(2) | ・盛り込みたい変数を柔軟に反映できる。< |
・推定などの解析手法が複雑である。・モデルが複雑化する。 |
|
(3) | ノンパラメトリック・モデル |
・特定の分布を仮定しないので、汎用的に利用できる。 |
・標本の順位情報を用いるので、パラメトリック・モデルに比べ推計誤差が大きくなりがちである。 |
5.1 統計量と標本分布の導入
母集団から得られた標本は普通それらを加工することで標本平均や標本誤差を得るなど、何らかの統計処理を施すことが多い。その処理を施して得た値を通じて意思決定を行うのである。標本*2の実数値関数を標本に基づく統計量という。
標本のいずれも確率変数であるから、統計量も確率変数である*3。
統計量の分布を標本分布という。が連続確率変数で互いに独立かつ同一分布から得られたとすればとなるようなの集合をとすればとなる確率は
で与えられる。
5.1.2 具体的な統計量(2) 標本分散
標本に対して標本分散を
で定義する。
標本分散は標本平均
を用いているため、あるに対して
が成り立ち自由度が1減ってしまう。そのため標本分散は不偏性を持たない。
そこで不偏性を持つような標本分散として「標本不偏分散」を以下で定義する:
を定義する。
これらについて不偏性を確認しよう。
ここで
であるから
を得る。ここに
を代入すれば
が成り立つ。なお
に注意すれば
である。
次に分散を考える。
もしならば
に注意すれば、
より、
である。
正規分布とは限らず、一般の分布(ただし4次モーメントが存在すると仮定する。)の場合を考える。
簡単のため、とおく。このときであり、
である。
また仮定からであることを踏まえれば、
である。
最右辺の内の各期待値を左からそれぞれ(1),(2),(3)とおくと、
である。これをについて展開すれば一次モーメントはであるから、(1)に帰着し、
である。
である。1次モーメントはであるから、の項およびの項のみが残り、前者は個、後者は個あるから、
が成り立つ。
以上から、
が成り立つ。
したがって、
である。
5.1.3 具体的な統計量(3) r次モーメント
平均周りの次モーメントに対して次標本モーメントを
で定義する。
標本に対して標本歪度および尖度を
で定義する。
標本歪度および標本尖度も大数の法則から類推されるように一致性を持つ*5。
まずこれらが位置及び尺度に関して不変であることを示す。これにより標準化をしても両指標がその性質を保つことが分かる。
確率変数に対して標本歪度および標本尖度が定義されているとする。このときに対してとおくとき、
が成り立つ。
( 定義よりであることに注意すれば、に対して
が成り立つから
である。 )
次に次モーメントが一致推定量であることを示す。
一般性を失うことなくとおく。このとき
と定義すると、
である。Chebyshevの定理より
が成立する、すなわちが成り立つ。
二項定理から
となるが、であるから、
が成り立つ、すなわちは一致推定量である。
参考文献
- Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926), "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)