統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
0. 統計学の枠組み
統計学をこれから学ぶのに先立ち、統計学が学問としてどのような考え方に基づき、どのような枠組みで学ぶものかを整理しよう。
0.1 実世界と統計学
ある企業においてあなたはA国またはB国のどちらかに海外進出すべきかを今後の事業戦略として考えることになったとしよう。普通に考えれば「より儲かりそうな国へ進出する」というルールに基づき進出国を決めることになろう。簡単のために、両国とも総合的な費用は同額だと仮定する。そうなれば「自社にとっての市場規模がより大きい」国に進出することが最終的な進出国を意思決定するための原理になる。
そうであれば争点は「どちらの国の市場規模が大きいか」であり「各国の市場規模がどの程度か」である。B2Bで顧客数が限られているのであればともかく、B2Cで不特定多数の潜在顧客が想定されれば、予算や時間といったコスト面で全想定顧客に関する調査をする訳にはいかない。となればある程度簡約化して
とモデル化すれば大体の規模感が分かり、知りたいことが「1顧客当たりの売上高」および「想定顧客数」に移る。想定顧客数は人口統計から直ちに検討が付くとして、前者をどうやって推測するか。そこで大半は一部の潜在顧客を適当に選び、その人らに対して調査を行う。すると1顧客当たりの自社製品への支出額が推測できる。
こうして得た情報を以て重役会議にA国への進出を提案したとしよう。こうすればこんな物わかりの悪いことを言う意地悪な重役がいるかもしれない。
重役「1顧客当たりの自社製品への支出額を調べるのに数十人にヒアリングしたそうだか、なぜこれが市場規模に等しいと言えるのか?」
あなた「おっしゃる通りではあります。ですが、ほぼ間違いはありません。」
重役「ほぼとはどの程度を言っているのか。絶対にそうなのか?」
あなた「99%間違いありません。」
重役「…」
こうしてあなたの努力が実り、A国へ進出することが決まった。
0.2 統計学の想定する枠組み
前節の寓話で統計学が想定していることに関する大まかな流れが分かる。
まず統計学は何らかの「意思決定」を前提とする。意思決定をするために統計学を活用して必要な情報を得るのである。前述した寓話であれば、「進出すべき国を決めること」である。
そのために知りたいことは各国の市場規模だった。しかし市場規模はある意味で概念的なものだから直接的に知り得ない。そこで市場規模を
とモデル化し、「1顧客当たりの売上高」を知りたい情報と見なしたのだった。
0.2.1 記述統計学とは
さて問題は「1顧客当たりの売上高」を知ることである。しかしこれ自体もあなたにとっては未知の情報である。とはいえこのモデル化では、潜在顧客数が分かっていると考えたのだから、個々の潜在顧客の1顧客当たりの売上高をすべて知る必要はなく、一人当たりの平均的な売上高が分かりさえすればよい。ここまでの考え方により、「個々の潜在顧客の1顧客当たりの売上高」を「一人当たりの平均的な売上高」へ、すなわち無数に必要な情報を1つの情報(要約量)に縮約したのだった。となれば、何人かの潜在顧客を捕まえて、彼らの売上高が分かれば、「一人当たりの平均的な売上高」の当てを付けることができる。このように、知りたいことを特定の値などに情報を縮約してその特徴を捉えることが統計学の意図することの1つである。これを「記述統計学」(descriptive statistics)という。
さて寓話においていやらしい重役の指摘を思い出そう。この重役の指摘を真に受けるとすれば、
1顧客当たりの平均的な売上高=推測した1顧客当たりの平均的な売上高
を示さなければならないということである。言うまでもなく、厳密に言えばこれは正しいとは言えない。しかしこの方法で得た「1顧客当たりの平均的な売上高」は当てずっぽうよりは正確だと言えそうなのは直観的にも明らかだろう。このように想定し得るすべての潜在顧客のことを知るのは無理だから、一部の顧客の情報を基に全体に関する情報を推測することが統計学の行いたいことの1つである。
0.2.2 推測統計学とは
ここまでの議論を統計学的なことばで言いかえてみよう。まず「1顧客当たりの平均的な売上高」が私たちの知りたいことだったが、これは1顧客当たりの売上高というものが顧客ごとに存在しているものの、その1つ1つを知ることができないというのが動機だった*1。この議論において当初知りたかった全顧客の「1顧客当たりの売上高」をすべて集めた集合を統計学の用語で母集団(population)という。この母集団に対する「1顧客当たりの平均的な売上高」を母平均(population mean)*2と呼ぶ。母集団のすべての値を知ることが出来ない以上、母平均を知ることは不可能ないし困難である。そこで一部の顧客を選んで1顧客当たりの売上高を調べたのだった。このように母集団から特定のルールに則り一部を抽出して得ることを標本調査(sampling)*3といい、これにより選ばれた母集団の一部を標本(sample)*4という。また標本に基づいて得た母集団に関する要約量を統計量(statistic)という。母平均の統計量は標本平均(sample mean)という。
ここで「標本に基づいて得た」といったが標本からどのように統計量を得ればよいのだろうか。その方法が唯一であるとは限らないし、複数あるならばどの方法がより良い方法なのかを決めるための基準が欲しくなる。このために数学から「確率論」を借用するのである。「1顧客当たりの売上高」がそれぞれどのような値を取るかは未知であった。しかしその出方に何らかの規則性があると仮定する。これにより、統計量の現れ方の蓋然性を定量的に評価することが出来るようになったのである。このように確率論に依拠しつつ母集団に関する統計量を標本から合理的に推測することに関する議論を「統計的推測論」(statistical inference)という。
評価するに当たり、確率論を導入したこともあり、観測するまでは個々の値は未知でどのような値が出やすいかという情報しか知らない。そこで母集団に所属する各値を確率変数という具体的な値は未知だがその出方に関する規則性は知っているような変数をベースに、確率を活用して議論する。その際、統計量もまた確率変数の関数、すなわちそれ自体も確率変数であり、また確率をもつと見なすのである。標本から統計量を推測することを(統計的)推測(estimation)といい、推測するために統計量を確率変数の関数としたものを推定量(estimator)という。そして具体的に各標本値を得て、推定量にその標本値を代入して得た1つの値を推定値(estimate)という。これに対して推定対象の、知りたい本当の値を真の値という。言うまでもなく真の値が不明だから推測を行うのだから、普通は真の値は未知である*5。
「確率論」を導入したことによって、さらにもう1つメリットを享受することが出来る。重役からの指摘のとおり、統計量が真の値に等しいことは確率的にまずあり得ない。しかし想定した確率に基づき推定値の蓋然性を定量的に評価できるのである。すなわち確定的なことを言うのは諦めて、ある程度の不確実性を許容すれば、推定量がある値を取る(もしくはある値の範囲内に収まる)確率を得ることができ、それを元に蓋然性を評価する。このような推定量の確からしさについて、前提とした確率を基にして統計的な定量評価を行う方法論を(統計的)仮説検定( (statistical) test)という。そして統計的推測論と統計的検定論をまとめて推測統計学という。
0.4 統計学で扱うトピック
さてここまでで記述統計学と推測統計学があることが分かった。(特に推測統計学において)一般的な統計学が扱うテーマを簡単に整理しておこう:
1. | 確率論 | 統計学に必要な確率論を整理する。 | |||
(1) | 確率の導入 | ・集合に対して確率を導入する。 | |||
(a) | 加法族の導入 | ・確率を導入し得る集合の概念として加法族、特に-加法族を導入する。 | |||
(b) | 確率の定義 | ・-加法族を前提として集合にの範囲の値を対応させる写像として確率を定義する。 | |||
(2) | 確率変数の導入 | ・集合を(特に1次元の実)数に対応させる写像として確率変数を導入する。 | |||
(a) | 分布の導入 | ・確率変数にも確率に相当する(確率と等価な)ものを導入でき、これを分布という。 | |||
(3) | 特性値の導入 | ・分布の特徴を測るための特性値を導入する。 | |||
(a) | 期待値・分散の導入 | ・期待値(平均)、分散(標準偏差)を導入する。 | |||
(b) | モーメントの導入 | ・期待値・分散の一般概念としてモーメントを導入する。 | |||
(c) | 特性関数の導入 | ・モーメント計算を簡略化できる、特性関数や積率母関数を導入する。 | |||
(d) | 特性関数の性質 | ・特性関数や積率母関数は分布関数と一意に対応することを学ぶ。 | |||
(4) | 確率における収束概念 | ・確率を扱う議論における各種収束概念を導入する。 | |||
(5) | 収束に関して確率に成り立つ議論 | ・確率一般に成立する収束に関わる不等式を扱う。 | |||
(a) | Markovの不等式 | ・Markovの不等式を導入する。 | |||
(b) | Chebyshevの不等式 | ・Markovの不等式の特殊例であるChebyshevの不等式を導入する。 | |||
(c) | 大数の法則 | ・標本平均の(確率・概)収束性に関する定理を扱う。 | |||
(d) | 中心極限定理 | ・標本平均と母平均との誤差がもとの分布にかかわらず正規分布に確率収束する定理を扱う。 | |||
(6) | 確率変数の変換 | ・確率変数に変換を施した場合の振る舞いを調べる。 | |||
(7) | 具体的な確率分布 | ・確率的議論に頻繁に表れ定型的に扱われる各種確率分布を扱う。 | |||
2. | 統計的決定理論 | 推測統計学を一貫して扱うための数学的な統一理論*6。 | |||
(1) | 標本の導入 | ・実際に観測した値と元の分布の性質値としての特性値との関係を整理すべく、標本を導入する。 | |||
(2) | 点推測論 | ・推定してある1つの値を得る方法論を扱う。 | |||
(a) | 不偏性 | ・推定量の良さとして不偏性を導入する。 | |||
(b) | 十分性 | ・推定量の良さとして十分性を導入する。 | |||
(c) | 一致性 | ・推定量の良さとして一致性を導入する。 | |||
(d) | 最尤法 | ・良い性質を持つ推定量を用いるのとは別の方法として最尤法を導入する。 | |||
(3) | 区間推定論 | ・ | |||
(a) | 不偏性 | ・良い区間推定として不偏性を導入する。 | |||
(b) | 一様最強力不偏性 | ・不偏性を導入する。 | |||
(4) | 仮説検定 | ・統計的な仮説検定論を導入する。 | |||
(a) | 一様最強力検定 | ・検出力が最も高い検定を表す概念を導入する。 | |||
(b) | 不偏検定 | ・良い検定の概念として不偏検定を導入する。 | |||
(c) | 尤度比検定 | ・推定における最尤法に相当する仮説検定における普遍的検定方法を導入する。 | |||
(d) | 適合度検定 | ・具体的な事例として適合度検定を導入する。 | |||
3. | 回帰分析 | ・相関関係をもとに変数間の関係を分析する枠組みを導入する。 | |||
(1) | 線形回帰 | ・目的変数と説明変数に線形の関係を仮定したモデルを扱う。 | |||
(a) | Gauss-Markovの定理 | ・モデルの推定に関する定理を導入する。 | |||
(b) | 多重共線性 | ・回帰において度々問題になる説明変数間の相関が高い場合に触れます。 | |||
(2) | 非線形回帰 | ・目的変数と説明変数に線形の関係を仮定しないモデルを扱う。 | |||
4. | 標本抽出 | 推定するのに標本を抽出するための方法論を扱う。 |
以上は大雑把なまとめで、ここではより応用的なテーマとして省略したものが基本的な書籍で扱われることもある点に留意されたい。
- 次回: