「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。データ分析・語学に力点を置いています。 →現在、コンサルタントの雛になるべく、少しずつ勉強中です(※2024年1月21日改訂)。

MENU

計量経済学の基礎(19/22)

 計量経済学を学んでいく。
 まずは

を中心に参照して基礎を学んでいく。

今日のまとめ

  • 質的変数を2値を取るダミー変数と見なすことができる。
  • ダミー変数を取る確率をモデル化することで様々な分析が可能となる。
  • 代表的なのがロジット・モデル、プロビット・モデルである。

12. 質的従属変数

12.1 ダミー従属変数

 従属変数が質的違いを表す場合に選択の構造をどのように推定するかを扱う。二択の質的変数を


\begin{aligned}
Y=\begin{cases}1,&条件を満たす\\
0,&条件を満たさない\end{cases}
\end{aligned}

と定義すれば選択の結果はダミー変数で表すことが出来る。ロジットモデルやプロビットモデルを用いることができるようになる。

12.2 線型確率モデル

 ダミー変数で表されるYに線形回帰を適用したときの問題を検討する。説明変数の線形関数によって被説明変数の期待値が決まると仮定したモデルを線形確率モデルという。すなわち


\begin{aligned}
Y_i=\alpha_i+\beta X_i+\varepsilon_i,\ i=1,2,\cdots,n
\end{aligned}

である。このとき


\begin{aligned}
E[Y_i|X_i]=\alpha+\beta X_i
\end{aligned}

が成り立つ。P\{Y=1|X=X_i\}=P_i,0\lt P_i\lt1とすれば、P\{Y=0|X=X_i\}=1-P_iであり、


\begin{aligned}
E[Y_i|X_i]=P_i=\alpha+\beta X_i
\end{aligned}

である。\varepsilon_iY_i=11-P_i,\ Y_i=0ならば-P_iとなるため、正規分布には従わない。またその分散は


\begin{aligned}
V[\varepsilon_i|X_i]&=E[\varepsilon_i^2]-\{E[\varepsilon_i]\}^2\\
&=(-P_i)^2(1-P_i)+(1-P_i)^2P_i=P_i(1-P_i)
\end{aligned}

である。以上から

  (1) 条件を満たす確率が説明変数の線形関数で表される。
  (2) 攪乱項\varepsilon_i正規分布に従わない。
  (3) 攪乱項の分散はP_i(1-P_i)で不均一分散である。

12.3 非線形確率モデル

 線形確率モデルは0\leq P_i\leq1を満たさなくなるのが普通である。そこで潜在変数モデルを考慮し、条件を満たす確率を分布関数で表すことにする。潜在変数Y^{*}を考え、


\begin{aligned}
Y^{*}=\alpha+\beta X+\varepsilon
\end{aligned}

と仮定する。潜在変数が閾値(しきいち)を超えるとY=1となるとすれば、Y=1の条件は


\begin{aligned}
Y^{*}\gt0\Leftrightarrow&\alpha+\beta X+\varepsilon\gt0\\
\Leftrightarrow&\varepsilon\gt-\alpha-\beta X
\end{aligned}

と書け、条件を満たす確率は攪乱項\varepsilonの確率と書ける。条件Y^{*}\gt0は任意の実数cを掛けても条件式が変わらないことから、縮尺については不変である。そこでV[\varepsilon]=1と仮定しても一般性を失わない。
 \varepsilon\sim F(\cdot)とすれば、


\begin{aligned}
P(Y_i=1)&=P(Y_i^{*}\gt0)=P\{\varepsilon_i\gt-\alpha-\beta X_i\}\\
&=1-F(-\alpha-\beta X_i)
\end{aligned}

と書ける。Fとして標準正規分布を使えば本モデルはプロビット・モデル、ロジスティック分布を用いればロジット・モデルと呼ばれる。

12.3.1 ロジット・モデル

 ロジット・モデルはFとしてロジスティック分布を導入して


\begin{aligned}
P_i=E[Y_i=1|X_i]=\displaystyle{\frac{1}{\exp\{-\alpha-\beta X_i\}}}
\end{aligned}

とするものである。記号を簡略化すべく、-\infty\leq Z_i=\alpha+\beta X_i\leq\inftyとおく。
 Y_i=0の場合の確率は


\begin{aligned}
1-P_i=\displaystyle{\frac{\exp(-Z_i)}{1+\exp(-Z_i)}}
\end{aligned}

であり、これらの比(オッズという。)は


\begin{aligned}
\displaystyle{\frac{P_i}{1-P_i}}=\exp Z_i
\end{aligned}

である。対数を取ることで、


\begin{aligned}
Z_i=\displaystyle{\log\left(\displaystyle{\frac{P_i}{1-P_i}}\right)}=\alpha+\beta X_i
\end{aligned}

を得る。この左辺をロジットと呼ぶ。もしP_iが観測ならば、(\alpha,\beta)を推定することができる。

 個人データでは保有確率は観測できない。しかし多数の観測値があれば、標本の割合\hat{P}は確率の推定値として用いることが出来る。したがって


\begin{aligned}
\displaystyle{\log\left(\displaystyle{\frac{\hat{P}_i}{1-\hat{P}_i}}\right)}=Z_i=\alpha+\beta X_i+\varepsilon_i
\end{aligned}

と表せ、パラメータに関する線形モデルを得られる。ただし標本割合が0,1の場合は定義が出来ない点に留意せよ。
 集団からのデータである場合、標本数が大きければ、\varepsilon_iは近似的に正規分布N\left(0,\displaystyle{\frac{1}{N_i P_i(1-P_i)}}\right)(N_iは説明変数がi番目の値であるようなデータ総数。)に従う。したがって攪乱項の分散は不均一である。このとき分散\sigma_i^2は未知であるものの標本の割合\hat{P}から


\begin{aligned}
\hat{\sigma}_i^2=\displaystyle{\frac{1}{N_i\hat{P}_i(1-\hat{P}_i)}}
\end{aligned}

でその推定値が得られる。以上から、

  (1) 各説明変数の水準に応じて保有割合\hat{P}_iを求める。
  (2) ロジットL_i=\log\left(\displaystyle{\frac{\hat{P}_i}{1-\hat{P}_i}}\right)を計算する。
  (3) 変換
\begin{aligned}\omega_i^{\frac{1}{2}}L_i=\omega_i^{\frac{1}{2}}\alpha+\omega_i^{\frac{1}{2}} X_i\beta+\omega_i^{\frac{1}{2}}\varepsilon_i\end{aligned}
により不均一分散を除く。これによりL_i^{*}=\alpha\omega_i^{\frac{1}{2}}+\beta X_i^{*}+v_iとする*1
  (4) L^{*}\omega_i^{\frac{1}{2}},X^{*}に最小二乗法により回帰する。定数項は与えない。

で推定ができる。

12.3.2 プロビット・モデル

 保有・非保有および説明変数のデータが入手できた場合の推定法を考える。まず個別データに対応する尤度を求める。もし\varepsilon_iが互いに独立であるならば、尤度関数は各観測値の確率の積で書くことができる。すなわち


\begin{aligned}
L(\alpha,\boldsymbol{\beta})=\displaystyle{\prod_{Y_i=1}(1-F(\alpha-\boldsymbol{X}_i\boldsymbol{\beta}))}\displaystyle{\prod_{Y_j=0}F(\alpha-\boldsymbol{X}_j\boldsymbol{\beta})}
\end{aligned}

である。ここから対数尤度l(\alpha,\boldsymbol{\beta})=\log L(\alpha,\boldsymbol{\beta})


\begin{aligned}
l(\alpha,\boldsymbol{\beta})=\displaystyle{\sum_{i=1}^{n}Y_i\log\{1-F(-\alpha-\boldsymbol{X}_i\boldsymbol{\beta})\}+(1-Y_i)\log\{F(-\alpha-\boldsymbol{X}_i\boldsymbol{\beta})\}}
\end{aligned}

である。母数を推定する際、\varepsilon_iの分布関数Fを具体的に仮定することが少なくなく、たとえば標準正規分布を仮定する。このときプロビット・モデルという。

12.3.3 モデルの評価

 モデルを構築した後に興味があるのは、確率P\{Y_i=1\}であり、説明変数\boldsymbol{X}保有確率に対する限界効果の大きさである。限界効果は


\begin{aligned}
\displaystyle{\frac{d P\{Y_i=1\}}{d\boldsymbol{X}}}
\end{aligned}

で与えられる。
 \boldsymbol{\beta}最尤推定量は漸近的に正規分布に従う。その検定には尤度比検定


\begin{aligned}
2(\log L_U-\log L_R)\sim\chi^2(p)
\end{aligned}

を活用すればよい(L_Uは制約なしの尤度、L_Rは制約ありの尤度である。)。
 当てはまりの尺度としては、たとえば尤度比インデックス


\begin{aligned}
LRI&=1-\displaystyle{\frac{\log L_U}{\log L_0}},\\
\log L_0&=n\{P\log P+(1-P)\log(1-P)\}
\end{aligned}

がある。\log L_0は説明変数がまったく影響を与えない(\boldsymbol{\beta}=\boldsymbol{0})場合の対数尤度である。
 また確率の推定値から推計した保有・非保有の判断が実際の観測値と一致したかどうかで的中率を与えることでモデルの評価もできる。

*1:\omega_i=N_i\hat{P}_i(1-\hat{P}_i),L_i^{*}=\omega_i^{\frac{1}{2}}L_i,X_i^{*}=\omega_i^{\frac{1}{2}}X_i,v_i=\omega_i^{\frac{1}{2}}\varepsilon_iとおいた。

プライバシーポリシー お問い合わせ