計量経済学を学んでいく。
まずは
を中心に参照して基礎を学んでいく。
今日のまとめ
- モデルの関数系や説明変数を指定することをモデルの定式化という。
- 定式化において採用すべき説明変数を加えない場合(過少定式化)、係数は不偏性を失う。また推定結果に基づいた統計的推論は誤りを持つ。過剰に説明変数を盛り込んだ場合、過剰定式化係数は不偏なものの、誤差は増大し推定値の精度は減少する。
- 変数回帰モデルで複数の説明変数が「似た動き」をする場合、個別の母数の推定が困難になる現象を多重共線性という。
- 多重共線性がある場合、推定量の標準誤差が大きくなり、推定値が理論から予想される値から大きく乖離する(場合によっては符号が反転する。更に値が小さくなり、データの僅かな変動や観測期間の変更で係数値が大きく変化し得る。
7. モデルの定式化、多重共線性
モデルの関数形や説明変数を指定することをモデルの定式化という。
以降、モデルの関数形は既知として説明変数の選択のみが論点であるとする。このときに起こり得るのは、含まれるべき変数を除外する場合と含まれるべきでない変数を入れてしまう場合の2通りで、前者を過少定式化、後者を過剰定式化という。
7.1 定式化の誤り
7.1.1 過少定式化
正しいモデルを
とする。これに対してを除外してしまう、すなわちとするような過少定式化を行ったとする。
この場合に回帰係数の推定量はを用いて計算できる。このときのの推定量をとすれば、
が成り立つ。このとき
であるから、はバイアスをもつことが分かる。
7.1.2 過剰定式化
逆に本来モデルに入らない余計な説明変数を加えたモデルを考える。具体的には真のモデルを
とし、誤ったモデルとして
を考えるとする。このとき真のモデルは誤ったモデルにおいての場合と解釈することができる。
誤ったモデルとしてをに回帰して推定した場合、その推定量は
と書ける。ここではをに回帰した残差からなる行列であるう。このとき
が成り立つから不偏性をもつ。
この分散は
で与えられる。これに対してモデルを正しく想定した場合の推定量は
で与えられる。こちらもと不偏性をもつ。またその分散は
で与えられる。
7.1.3 係数の精度
まずについて
が成り立つ。
以上から、
過少定式化 | ・係数は不偏でない。 |
・バイアスはおよびの相関に依存する。 | |
・係数の符号が相違することがある。 | |
・推定結果に基づいた統計的推論は誤りを持つ。 | |
過剰定式化 | ・係数は不偏である。 |
・係数の誤差は増大するため、推定値の精度は減少する。 | |
・推定結果に基づいた統計的推論は妥当である。 |
7.2 多重共線性
変数回帰モデルで複数の説明変数が「似た動き」をする場合、個別の母数の推定が困難になる。この現象を多重共線性という。この場合、係数の標準誤差が非常に大きくなったり、値が期待よりも非常に低くなったりする。
7.2.1 多重共線性の事例
3変数古典的回帰モデルにおいてとする。このとき
となり、をに回帰した結果と同じになる。したがっては一意に決定できるものの、それぞれは無数にあり一意に決定できない。このような場合は完全な多重共線性と呼ぶ。
7.2.2 多重共線性による問題
多重共線性がある場合には以下のような問題が発生する:
(1) | 係数の標準誤差が大きくなる。 | |
(2) | 係数が理論から予想される値から大きく乖離する(場合によっては符号が反転する。)。 | |
(3) | 個別の係数のゼロ仮説が棄却されにくくなる。 | |
(4) | 値が小さくなる。 | |
(5) | 個別の係数の値が小さいにもかかわらず決定係数が大きくなる。 | |
(6) | データの僅かな変動や観測期間の変更で係数値が大きく変化し得る。 |
これらは説明変数間の相関が高いことに起因する。相関の増加は以下をもたらす:
- 係数の分散を増加させる。
- 係数間の相関が増大する。
例として、においての相関係数がに近いものとする。このとき
である。したがって、相関の存在によりは倍だけ大きくなる。したがってとなれば分散が無限に大きくなっていく。
図表1 説明変数間の相関関係と回帰係数の同時分布イメージ(青:無相関,赤:順相関)
7.2.3 多重共線性への対処
- 悪手:
方策 |
その方策を取る理由 |
帰結 |
||
(1) | 説明変数を減らす | 相関の原因を除けばよいのではないか? | 特定化の誤りを犯し、モデル推定の目的自体を放棄する。 | |
(2) | 変数変換:をに回帰する。 | の相関は減少し得る? | 結果は変わらない。 | |
(3) | 階差を取る | 説明変数間の相関は減少する? | 最初のデータの情報を失う。また古典的回帰モデルではなくなる。 | |
(4) | データ数を減らす | 理論と整合的な結果が取り得る? | データを減らせば信頼区間が広がる=精度が悪くなる。 |
- 正しい方法:
(1) | データ数を増やす。 | |
(2) | モデルに関する追加情報を用いる。 |
7.2.4 多重共線性が利益をもたらす場合
研究目的が係数の和・差の推定である場合、順・逆相関に応じて和・差の誤差が小さくなる。