統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
底本として
を用いる。
前回
1. 統計学の基礎
統計学とは現象の法則性に関する関心から生まれた。当初の統計学は現象をすべて調べ上げてその法則性を見出す、現在で言えば「統計」に近い記述統計学と、確率論を用いて一部を観察してそこから論理性のある推測で全体の法則性を発見する統計的推測からなる。
いずれの場合でも何らかの目的に応じて獲得した観測値の集合体である「データ」を整理してそれらが示唆する有用な情報を取り出すための方法論である。いかなるものであっても、まずはデータとは何かを整理するところから始める。
1.1 統計データの類別と解析プロセス
データはその性質からさまざまな種類に類別が可能である。
まずそのデータが定量的な値で与えられるのか、そうではなくある特定の状態にあるかを表すものなのかで定量データと定性データとに分類できる。次に次元数に応じて分類することができる。すなわち各観測対象に対して1種類の観測値が与えられる場合と複数の観測地が得られる場合がある。それらをそれぞれ1次元データ、多次元データと呼ぶ。さらに観測時点・場所に応じてデータの種類が変わってくる。同一の対象の異なる時点での観測値からなるデータを時系列データと呼ぶ一方で異なる対象について観測値を得たデータの集まりをクロスセクション・データという。一定範囲の対象に対する時系列データの集まりをパネル・データという。
また同じデータでも尺度に応じて4つに分類できる:
尺度名 |
内容 |
例 |
|
---|---|---|---|
名目尺度 | ある対象が他とは異なるのか同一なのかを示す判断のみの基準。 | 性別、病因 | |
順序尺度 | ある対象が他よりも大きい(小さい)といった順序を与える判断の基準。 | 例:満足度(良い・普通・悪い) | |
間隔尺度 | ある対象が他よりもある単位によって隔たりを表現できそれだけが意味を持つ判断の基準。 | 例:気温、自国 | |
比率尺度 | ある対象が他よりもある単位で比率での大小を表現できる判断の基準。 | 例:身長・体重 |
1.2 リサーチ・デザイン
統計データを解析する際には、いきなりデータを取得することを考えてはならない。データは何らかの科学的仮説を裏付ける(ないし反証する)ために用いるものだからである。すなわちデータ解析のプロセスは以下のとおりになる:
(1) | 自分が答えようとしている(科学的な)問いを明確化する。 | ||
(2) | そうした問いに対して何を対象にいかなることを分析するのかを明確化する。 | ||
(3) | 問いに対する科学的仮説を立てる。 | ||
(4) | 仮説に則りデータの取得方法を考える: | ||
(a) | すでに公刊されたデータが存在するならばそれを採集する。 | ||
(b) | 分析に必要なデータが存在しないならば、実験(または調査)を計画しデータを採取する。 | ||
(5) | 得たデータを適切に解析することで自身が立てた仮説の真偽について結論を出す。 |
1.3 探索的データ解析:データの縮約と記述統計量
統計学的知見を用いて意思決定を行うにあたっては、データがもつ「情報」を読み取り、それを手掛かりにして判断を下す。まずは各データについて下手に加工する前にデータがあるがままに持つ特徴を抽出したい。
なぜならば、データを加工する際、特に後述する統計的モデルのような複雑な数学的操作を用いる際、より適当なモデルを選択するためにもデータのどのような特徴をモデル化するかを明確化する必要があるものの、そのためにはそもそもデータが有する特徴を理解していなければならないからである。またそうしたモデルは様々な仮定を置くことが少なくなく、安易にモデルを設定すると不適切なモデルを利用してしまった結果として誤った意思決定を行って損失を生じる(モデル・リスク)こともあるからだ。さらに意思決定の内容によってはモデル構築がオーバースペック、すなわちそこまでする必要のない場合もあり得るからでもある。
したがって下手に統計的モデルなどの仮定を置くことなく、まずはデータのもつ特徴を多面的に解析する。これを探索的データ解析という。この解析ではグラフ化による視覚化や記述統計量への要約など直観的かつ簡単な加工を通じてデータが持つ情報を抽出していく。
統計学がデータから何らかの知見を得るための方法論である以上、データ自体を如何に解釈すべきかに関する方法論を提供することが第一の要請となる。データを解釈するためには「正しく」「効率的」に行うことが肝要である。すなわちデータを得たならば、集団としての特徴を記述すべくデータを整理・要約しそこから有用な情報を読むこととなる。そのための方法である記述統計学を説明する。
データから情報を抽出するためのアプローチには、大別すると
(1) | 表・グラフにして視覚的に捉える方法 | |
(2) | 数量的に要約する方法 |
の2つがある。いずれかの方法が絶対的に良いというわけではない。いずれの手法もとある特徴を分かりやすくするためのものであって、そのために別の情報を削っている場合もあり得る。またそれらは各々特長や注意点があるため、通常、複数の方法を組み合わせて多面的にデータを解釈するのが当たり前であり、むしろそうすべきである。
また記述統計による分析を行う際には分析目的に応じて1次元のものを扱う場合と多次元のものを扱う場合がある。前者の場合であれば、1種類の観測値自体の特徴を捉えることが目的であるのに対して、後者の場合であれば複数の観測値の関係性を知ることが目的である。
1.4 データの可視化:1次元
人間はその他の五感よりも非常に大きく視覚に依存している。逆に言えば、データを視覚化する手法というのはその全体感を概観するには非常に有効であるといえる。データを解析する際にはその全容を掴むべく、いの一番にそうした手法を用いるのも普通である。どのような特徴に注目したいのかに応じて様々な手法を用いて可視化する。
この整理により期待したいのは、
(1) | どのような値が発生し得るのか。 | |
(2) | どのような値が発生しやすいのか。 |
について情報を得ることである。
1.4.1 1次元データの可視化:度数分布表
まずデータから全体の分布状況を掴むために、表や図に整理する。そのための最も基本的なものの一つが度数分布表である。観測値の取り得る値をいくつかの階級に分けてそれぞれの階級にいくつの観測値が所属するかの度数を数える。
各階級の代表値として階級値を定義する。階級値は通常、各階級の中で一様に分布しているとして上限値と下限値の中間値を用いる。また分布状況を調べるのに、観測値の総数をとしたときの各階級に属する観測値数の割合で相対度数を定義する。総数が異なるデータの比較に有用である。さらに累積度数、累積相対度数も用いる。それらは度数を下の階級から順に積み上げたときの度数、相対度数の累積和である。
図表1.1 標準正規乱数10,000個の度数分布表
1.3.2 1次元データの可視化:ヒストグラム
度数分布表を用いてもデータの傾向性を見ることができるものの、これをグラフ化した方がより一覧性が増しデータの特徴を捉えやすくなる。度数または相対度数をグラフ化したものをヒストグラムという。
度数分布表の作成に当たり課題なのは、階級数と階級幅である。これらを定める絶対的なルールは存在しない。参考としては、これは度数分布から平均などを計算するのに階級幅をどうすべきかを与えるための公式として、階級数に対するスタージェスの公式がある:
この公式では、データについてすべての数が2の冪で与えられており、階級の真の度数分布が二項係数により与えられているものと仮定している。具体的に階級数をとしたときにある階数の度数がであるとき、データ数の合計は二項定理より
が成り立つ。ここから上記の公式が導かれる。
このようにデータの分布として二項分布を前提としており、これはとなれば正規分布に近づくこともまた前提視していることになる。したがってヒストグラムをいくつか適当に作成してみて分布が偏っているようと判断できるようであれば、この公式が妥当だとは言えない点に注意が必要である。
1.3.3 1次元データの可視化:箱ひげ図
データのばらつき具合を示すために用いる方法の1つが箱ひげ図である。箱ひげ図は四分位を用いてデータの散らばりを表す。四分位とはデータを昇順に並べた際に1番目の値から数えて総数の25%数目に当たる値を第一四分位、全体の50%目に当たる値を第二四分位(中央値、メディアンともいう)、全体の75%目に当たる値を第三四分位という。
箱ひげ図を描くときの1つの考え方として、四分位から外れ値を考える。第一四分位および第二四分位、第三四分位をそれぞれとするとき、
を四分位範囲と定義し、それを2で割った値を四分位偏差(QD)という(後述)。箱ひげ図では、このを偏差の尺度として外れ値を導出する。すなわち区間を外れるものを外れ値と見なす。
1.5 1次元の代表値
データをグラフなどで可視化する手段は視覚に頼るため、一覧性や効率性に優れる一方で恣意性があり厳密性に欠けるという欠点がある。そこでデータの整理・要約の手段として得られた情報を数量表現として加工する方法も存在する。すなわち特定の考えに則りデータを計算・加工することで客観性をもたせつつデータを代表する値(代表値)に加工する。
ただし代表値にも欠点がある。それは計算・加工するためにデータが持つ情報の一部が欠損する恐れがある点である。極端な例ではあるが、たとえば2つの観測値の単純平均を考えるといずれもである。しかしこれらを同じものと見なすのは妥当とは言い難い。したがって可視化することや複数の代表値を組み合わせることで多面的にデータを見ることが重要である。
1.5.1 水準の代表値:平均
まずデータの水準感を知るための代表値を考える。これは分布の位置合いを意味する。もっとも代表的なものは平均である。観測値の水準感を要約するために用いる一つの方法である。平均はデータの種類や目的に応じて複数の計算方法がある。もっとも単純なのは算術平均によるものである。
以下、観測した各データをとする。
(1) | 算術平均 | 観測値の総和を観測値の総数で割る。 | ※データが離散的で同じ値の観測値が複数存在する場合にはその度数を加味する。すなわち |
(2) | 幾何平均 | 成長率のように積として扱うような正の値を取る観測値について用いる。 | |
(3) | 調和平均 | 除数として扱う観測値について用いる。 |
相加相乗平均の関係から、常に
が成り立つ。
1.5.2 水準の代表値:中央値
平均は算出が容易で分かりやすいという利点を有するものの、それ以外の値よりも著しく乖離する値(外れ値という。)が存在すると、外れ値にその値が影響を受けやすいという欠点を有する。そうしたときの代替となり得るのが中央値(メディアン)である。すなわちデータを昇順に並び替えたに対して
と定義する*1。また分布の峰に対応する値を最頻値という。
1.5.3 バラつきの代表値:偏差
次にデータのバラつきを知るための代表値を与える。これはデータの水準感を通じて分布の位置を把握した後に分布の形状を理解するための指標となる。これは中央値(メディアン)を用いて水準感を判断する場合、合わせてその他の四分位点を把握することでデータの散らばり具合を判断することも少なくない。
分布の存在範囲を示す尺度としてレンジがある。データを観測したとして
箱ひげ図(図表1.3)において用いられることがある。
観測値を昇順に並べ替えたときに小さい方から*2の所にある値を100pパーセンタイル、または%分位点、100%点という。この分位点を用いてバラつきを判断するものとして、既に箱ひげ図のところで述べたように四分位偏差がある。第一四分位点、第二四分位点(メディアン)、第三四分位点をそれぞれ25%(分位)点、50%(分位)点、75%(分位)点といい、これらを基に
と定義する。
これらよりも最もよく使われるものとして偏差がある。
1.6 データの可視化:2次元
組となったデータについてその関係性を分析することも必要となる。一方がもう一方を決定する様子や程度を調べるのに利用する。
1.6.1 2次元データの可視化:散布図
1組の量的データがあるときにこれらを平面上にプロットしたものを散布図という。この図において各点がばらばらに散らばっていれば両者に関係はなく、他方で何らかの傾向をもてば両者には関係があり得ると考えられる。
1.7 2次元の代表値
組となったデータについてその関係性を定量化する。そこでは一方の増減に対してもう一方がどのように動くかを調べる。
1.7.1 相関係数
両者の相互関係を要約するために扱う指標に相関係数がある。
その前段階として共分散を導入する。1組の量的データがあるときに
を共分散という。
そして共分散をそれぞれの標準偏差で除して規格化したものを相関係数という。
相関係数はを満たす。実際、変数の分散を、変数の分散をとすると任意の実数について
が成り立つ。以上からを2次式と見ればその判別式について以下が成り立つ:
になるときはとなる実数が存在するときであり、このときでない実数について
が成り立つ。すなわちと個の観測値が一直線上に乗ることを意味する。このことから相関係数は2変数に直線的な比例関係があるのかを判断する尺度であることが分かる。逆に言えば両者に非線形な関係がある場合、誤判断を下す恐れがある。
1.7.2 偏相関係数と順位相関係数
相関係数にはもう1つ、適用に当たり考慮すべきことがある。たとえばあるスーパーマーケットにおいて素麺とアイスクリームの売上が高いとする。そのとき、それらに関係があると考えるよりは気温や季節の影響が大きいと考えるだろう。このように高い相関があったとしてもその変数同士に直接的な関係があるとは限らず、別の双方に影響を与える要素があるかもしれない*5。そこで、3つ以上の種類の変数がある中でその中の1組の関係を考える際には、普通の相関係数から他の変数からの影響を除外した相関の概念もある。
3個の変数の組があるときに
を偏相関係数という。
質的変数に対しても同様の指標を考えたい。2つの順序の定義された質的基準または量的変数に対して順位を与える。すなわち1組の量的データがあるときにそれぞれを昇順に並び替えて
と対応付けることで写像
を定義する。このときにSpearmanの順位相関係数を
で定義する。またKendallの順位相関係数を
で定義する。ここで集合は集合の個の元から成るすべての部分集合を元に持つ集合とする。
順位相関は変数がもつ順位の関係に関する“情報”を抽出している。すなわち一方の変数が変化したときにもう一方の変数がどの程度変化するかの量(差分)は考慮しない代わりに、一方が増加したときにもう一方も増加するのか、それとも減少するのかという情報を抜き出している。そのため順位さえ定義されていれば計算できる点、また両者に非線形の相関があってもそれを検知し得る点が前述した(Pearsonの)相関係数と異なる点である。
参考文献
- Lehmann, E.L., Casella, George(1998), "Teory of Point Estimation, Second Edition", (Springer)
- Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
- Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
- 上田拓治(2009)「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
- 大田春外(2000)「はじめよう位相空間」(日本評論社)
- 小西貞則(2010)「多変量解析入門――線形から非線形へ――」(岩波書店)
- 小西貞則,北川源四郎(2004)「シリーズ予測と発見の科学2 情報量基準」(朝倉書店)
- 小西貞則,越智義道,大森裕浩(2008)「シリーズ予測と発見の科学5 計算統計学の方法」(朝倉書店)
- 佐和隆光(1979)「統計ライブラリー 回帰分析」(朝倉書店)
- 清水泰隆(2019)「統計学への確率論,その先へ ―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
- 鈴木 武, 山田 作太郎(1996)「数理統計学 基礎から学ぶデータ解析」(内田老鶴圃)
- 竹内啓・編代表(1989)「統計学辞典」(東洋経済新報社)
- 竹村彰通(1991)「現代数理統計学」(創文社)
- 竹村彰通(2020)「新装改訂版 現代数理統計学」(学術図書出版社)
- 東京大学教養学部統計学教室編(1991)「基礎統計学Ⅰ 基礎統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1994)「基礎統計学Ⅱ 人文・社会科学の統計学」(東京大学出版会)
- 東京大学教養学部統計学教室編(1992)「基礎統計学Ⅲ 自然科学の統計学」(東京大学出版会)
- 豊田秀樹(2020)「瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
- 永田靖(2003)「サンプルサイズの決め方」(朝倉書店)
- 柳川堯(2018)「P値 その正しい理解と適用」(近代科学社)