「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。今月(2022年10月)からは多忙につき、日々の投稿数を減らします。

MENU

計量経済学の基礎(11/22)

 計量経済学を学んでいく。
 まずは

を中心に参照して基礎を学んでいく。

今日のまとめ

  • モデルの関数系や説明変数を指定することをモデルの定式化という。
  • 定式化において採用すべき説明変数を加えない場合(過少定式化)、係数は不偏性を失う。また推定結果に基づいた統計的推論は誤りを持つ。過剰に説明変数を盛り込んだ場合、過剰定式化係数は不偏なものの、誤差は増大し推定値の精度は減少する。
  • K変数回帰モデルで複数の説明変数が「似た動き」をする場合、個別の母数の推定が困難になる現象を多重共線性という。
  • 多重共線性がある場合、推定量の標準誤差が大きくなり、推定値が理論から予想される値から大きく乖離する(場合によっては符号が反転する。更にt値が小さくなり、データの僅かな変動や観測期間の変更で係数値が大きく変化し得る。

7. モデルの定式化、多重共線性

 モデルの関数形や説明変数を指定することをモデルの定式化という。
 以降、モデルの関数形は既知として説明変数の選択のみが論点であるとする。このときに起こり得るのは、含まれるべき変数を除外する場合と含まれるべきでない変数を入れてしまう場合の2通りで、前者を過少定式化、後者を過剰定式化という。

7.1 定式化の誤り

7.1.1 過少定式化

 正しいモデルを


\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}_1\boldsymbol{\beta}_1+\boldsymbol{X}_2\boldsymbol{\beta}_2+\boldsymbol{\varepsilon}
\end{aligned}

とする。これに対して\boldsymbol{X}_2を除外してしまう、すなわち\boldsymbol{\beta}_2=\boldsymbol{0}とするような過少定式化を行ったとする。
 この場合に回帰係数の推定量A_1=({}^{t}\boldsymbol{X}_1\boldsymbol{X}_1)^{-1}{}^{t}\boldsymbol{X}_1を用いて計算できる。このときの\boldsymbol{\beta}_1の推定量\boldsymbol{\beta}_1^{*}とすれば、


\begin{aligned}
\boldsymbol{\beta}_1^{*}&=A_1\boldsymbol{Y}\\
&=A_1(\boldsymbol{X}_1\boldsymbol{\beta}_1+\boldsymbol{X}_2\boldsymbol{\beta}_2+\boldsymbol{\varepsilon})\\
&=A_1\boldsymbol{X}_1\boldsymbol{\beta}_1+A_1\boldsymbol{X}_2\boldsymbol{\beta}_2+A_1\boldsymbol{\varepsilon}\\
&=(({}^{t}\boldsymbol{X}_1\boldsymbol{X}_1)^{-1}{}^{t}\boldsymbol{X}_1)\boldsymbol{X}_1\boldsymbol{\beta}_1+(({}^{t}\boldsymbol{X}_1\boldsymbol{X}_1)^{-1}{}^{t}\boldsymbol{X}_1)\boldsymbol{X}_2\boldsymbol{\beta}_2+(({}^{t}\boldsymbol{X}_1\boldsymbol{X}_1)^{-1}{}^{t}\boldsymbol{X}_1)\boldsymbol{\varepsilon}\\
&=(({}^{t}\boldsymbol{X}_1\boldsymbol{X}_1)^{-1}{}^{t}\boldsymbol{X}_1)\boldsymbol{X}_1\boldsymbol{\beta}_1+A_1\boldsymbol{X}_2\boldsymbol{\beta}_2+A_1\boldsymbol{\varepsilon}\\
&=\boldsymbol{\beta}_1+A_1\boldsymbol{X}_2\boldsymbol{\beta}_2+A_1\boldsymbol{\varepsilon}
\end{aligned}

が成り立つ。このとき


\begin{aligned}
E[\boldsymbol{\beta}_1^{*}]=\boldsymbol{\beta}_1+A_1\boldsymbol{X}_2\boldsymbol{\beta}_2
\end{aligned}

であるから、\boldsymbol{\beta}_1^{*}はバイアスBias(\boldsymbol{\beta}_1^{*}):=\boldsymbol{\beta}_1-E[\boldsymbol{\beta}_1^{*}]=A_1\boldsymbol{X}_2\boldsymbol{\beta}_2をもつことが分かる。

7.1.2 過剰定式化

 逆に本来モデルに入らない余計な説明変数を加えたモデルを考える。具体的には真のモデルを


\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon}
\end{aligned}

とし、誤ったモデルとして


\begin{aligned}
\boldsymbol{Y}=\boldsymbol{X}_1\boldsymbol{\beta}_1+\boldsymbol{X}_2\boldsymbol{\beta}_2+\boldsymbol{\varepsilon},\boldsymbol{\beta}_2\neq\boldsymbol{0}
\end{aligned}

を考えるとする。このとき真のモデルは誤ったモデルにおいて\boldsymbol{\beta}_2=\boldsymbol{0}の場合と解釈することができる。
 誤ったモデルとして\boldsymbol{Y}\boldsymbol{X}_1,\boldsymbol{X}_2に回帰して推定した場合、その推定量\hat{\boldsymbol{\beta}}


\begin{aligned}
\hat{\boldsymbol{\beta}}&=\left({}^{t}\tilde{\boldsymbol{X}}_1 \tilde{\boldsymbol{X}}_1\right)^{-1}\tilde{\boldsymbol{X}}_1\boldsymbol{Y}\\
&=\left({}^{t}\tilde{\boldsymbol{X}}_1 \tilde{\boldsymbol{X}}_1\right)^{-1}\tilde{\boldsymbol{X}}_1(\boldsymbol{X}_1\boldsymbol{\beta}_1+\boldsymbol{\varepsilon})\\
&=\boldsymbol{\beta}_1+\left({}^{t}\tilde{\boldsymbol{X}}_1 \tilde{\boldsymbol{X}}_1\right)^{-1}\tilde{\boldsymbol{X}}_1\boldsymbol{\varepsilon}
\end{aligned}

と書ける。ここで\tilde{\boldsymbol{X}}_1X_1X_2に回帰した残差からなる行列であるう。このとき


\begin{aligned}
E[\hat{\boldsymbol{\beta}}_1]=\boldsymbol{\beta}_1
\end{aligned}

が成り立つから不偏性をもつ。
 この分散は


\begin{aligned}
V[\hat{\boldsymbol{\beta}}_1]=\sigma^2\left({}^{t}\tilde{\boldsymbol{X}}_1 \tilde{\boldsymbol{X}}_1\right)^{-1}
\end{aligned}

で与えられる。これに対してモデルを正しく想定した場合の推定量\boldsymbol{\beta}_1^{*}


\begin{aligned}
\boldsymbol{\beta}_1^{*}=\boldsymbol{\beta}_1+\left({}^{t}\tilde{\boldsymbol{X}}_1 \tilde{\boldsymbol{X}}_1\right)^{-1}\tilde{\boldsymbol{X}}_1\boldsymbol{\varepsilon}
\end{aligned}

で与えられる。こちらもE[\boldsymbol{\beta}_1^{*}]=\boldsymbol{\beta}_1と不偏性をもつ。またその分散は


\begin{aligned}
V[\boldsymbol{\beta}_1^{*}]=\sigma^2\left({}^{t}\boldsymbol{X}_1 \boldsymbol{X}_1\right)^{-1}
\end{aligned}

で与えられる。

7.1.3 係数の精度

 まず\boldsymbol{\beta}^{*},\hat{\boldsymbol{\beta}}について


\begin{aligned}
V[\boldsymbol{\beta}^{*}]\leq V[\hat{\boldsymbol{\beta}}]
\end{aligned}

が成り立つ。

以上から、

過少定式化 ・係数は不偏でない。
・バイアスは\boldsymbol{\beta}_2および\boldsymbol{X}_1,\boldsymbol{X}_2の相関に依存する。
・係数の符号が相違することがある。
・推定結果に基づいた統計的推論は誤りを持つ。
過剰定式化 ・係数は不偏である。
・係数の誤差は増大するため、推定値の精度は減少する。
・推定結果に基づいた統計的推論は妥当である。

7.2 多重共線性

 K変数回帰モデルで複数の説明変数が「似た動き」をする場合、個別の母数の推定が困難になる。この現象を多重共線性という。この場合、係数の標準誤差が非常に大きくなったり、t値が期待よりも非常に低くなったりする。

7.2.1 多重共線性の事例

 3変数古典的回帰モデルY=\beta_0+\beta_1X_1+\beta_2X_2+\varepsilonにおいてX_1=aX_2,\ a\in\mathbb{R}とする。このとき


\begin{aligned}
\hat{Y}=\hat{\beta}_0+\hat{\beta}_1X_1+\hat{\beta}_2X_2=\hat{Y}=\hat{\beta}_0+(a\hat{\beta}_1+\hat{\beta}_2)X_2=\hat{\beta}_0+\left(\hat{\beta}_1+\displaystyle{\frac{\hat{\beta}_2}{a}}\right)X_1
\end{aligned}

となり、YX_1に回帰した結果と同じになる。したがってa\hat{\beta}_1+\hat{\beta}_2は一意に決定できるものの、\hat{\beta}_1,\hat{\beta}_2それぞれは無数にあり一意に決定できない。このような場合は完全な多重共線性と呼ぶ。

7.2.2 多重共線性による問題

 多重共線性がある場合には以下のような問題が発生する:

  (1) 係数の標準誤差が大きくなる。
  (2) 係数が理論から予想される値から大きく乖離する(場合によっては符号が反転する。)。
  (3) 個別の係数のゼロ仮説が棄却されにくくなる。
  (4) t値が小さくなる。
  (5) 個別の係数のt値が小さいにもかかわらず決定係数が大きくなる。
  (6) データの僅かな変動や観測期間の変更で係数値が大きく変化し得る。

 これらは説明変数間の相関が高いことに起因する。相関の増加は以下をもたらす:

  • 係数の分散を増加させる。
  • 係数間の相関が増大する。

 例として、Y=\beta_0+\beta_1X_1+\beta_2X_2+\varepsilonにおいてX_1,X_2相関係数r_{12}1に近いものとする。このとき


\begin{aligned}
V[\hat{\beta}_1]&=\sigma^{2}\displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}(X_{2,i}-\bar{X}_2)^2}}{\displaystyle{\sum_{i=1}^{n}(X_{1,i}-\bar{X}_1)^2\sum_{i=1}^{n}(X_{2,i}-\bar{X}_2)^2}-\sum_{i=1}^{n}(X_{1,i}-\bar{X}_1)(X_{2,i}-\bar{X}_2)}}\\
&=\displaystyle{\frac{\displaystyle{\frac{\sigma^2}{\displaystyle{\sum_{i=1}^{n}(X_{1,i}-\bar{X}_1)^2}}}}{1-{r_{12}}^2}},\\
V[\hat{\beta}_2]&=\displaystyle{\frac{\displaystyle{\frac{\sigma^2}{\displaystyle{\sum_{i=1}^{n}(X_{2,i}-\bar{X}_2)^2}}}}{1-{r_{12}}^2}},\\
Cov[\hat{\beta}_2]&=-\displaystyle{\frac{\sigma^2}{\displaystyle{\sum_{i=1}^{n}(X_{1,i}-\bar{X}_1)(X_{2,i}-\bar{X}_2)}}}\displaystyle{\frac{{r_{12}}^2}{1-{r_{12}}^2}}
\end{aligned}

である。したがって、相関の存在によりV[\hat{\beta}_1]\displaystyle{\frac{1}{1-{r_{12}}^2}}倍だけ大きくなる。したがってr_12\approx1となれば分散が無限に大きくなっていく。


図表1 説明変数間の相関関係と回帰係数の同時分布イメージ

(青:無相関,赤:順相関)

7.2.3 多重共線性への対処
  • 悪手:
 
方策
その方策を取る理由
帰結
  (1) 説明変数を減らす 相関の原因を除けばよいのではないか? 特定化の誤りを犯し、モデル推定の目的自体を放棄する。
  (2) 変数変換:YX_1-X_2,X_2に回帰する。 X_1-X_2,X_2の相関は減少し得る? 結果は変わらない。
  (3) 階差を取る 説明変数間の相関は減少する? 最初のデータの情報を失う。また古典的回帰モデルではなくなる。
  (4) データ数を減らす 理論と整合的な結果が取り得る? データを減らせば信頼区間が広がる=精度が悪くなる。
  • 正しい方法:
  (1) データ数を増やす。
  (2) モデルに関する追加情報を用いる。
7.2.4 多重共線性が利益をもたらす場合

 研究目的が係数の和・差の推定である場合、順・逆相関に応じて和・差の誤差が小さくなる。

プライバシーポリシー お問い合わせ