計量経済学を学んでいく。
まずは
を中心に参照して基礎を学んでいく。
今日のまとめ
- 質的変数を2値を取るダミー変数と見なすことができる。
- ダミー変数を取る確率をモデル化することで様々な分析が可能となる。
- 代表的なのがロジット・モデル、プロビット・モデルである。
12. 質的従属変数
12.1 ダミー従属変数
従属変数が質的違いを表す場合に選択の構造をどのように推定するかを扱う。二択の質的変数を
と定義すれば選択の結果はダミー変数で表すことが出来る。ロジットモデルやプロビットモデルを用いることができるようになる。
12.2 線型確率モデル
ダミー変数で表されるに線形回帰を適用したときの問題を検討する。説明変数の線形関数によって被説明変数の期待値が決まると仮定したモデルを線形確率モデルという。すなわち
である。このとき
が成り立つ。とすれば、であり、
である。はでならばとなるため、正規分布には従わない。またその分散は
である。以上から
(1) | 条件を満たす確率が説明変数の線形関数で表される。 | |
(2) | 攪乱項は正規分布に従わない。 | |
(3) | 攪乱項の分散はで不均一分散である。 |
12.3 非線形確率モデル
線形確率モデルはを満たさなくなるのが普通である。そこで潜在変数モデルを考慮し、条件を満たす確率を分布関数で表すことにする。潜在変数を考え、
と仮定する。潜在変数が閾値(しきいち)を超えるととなるとすれば、の条件は
と書け、条件を満たす確率は攪乱項の確率と書ける。条件は任意の実数を掛けても条件式が変わらないことから、縮尺については不変である。そこでと仮定しても一般性を失わない。
とすれば、
と書ける。として標準正規分布を使えば本モデルはプロビット・モデル、ロジスティック分布を用いればロジット・モデルと呼ばれる。
12.3.1 ロジット・モデル
ロジット・モデルはとしてロジスティック分布を導入して
とするものである。記号を簡略化すべく、とおく。
の場合の確率は
であり、これらの比(オッズという。)は
である。対数を取ることで、
を得る。この左辺をロジットと呼ぶ。もしが観測ならば、を推定することができる。
個人データでは保有確率は観測できない。しかし多数の観測値があれば、標本の割合は確率の推定値として用いることが出来る。したがって
と表せ、パラメータに関する線形モデルを得られる。ただし標本割合がの場合は定義が出来ない点に留意せよ。
集団からのデータである場合、標本数が大きければ、は近似的に正規分布(は説明変数が番目の値であるようなデータ総数。)に従う。したがって攪乱項の分散は不均一である。このとき分散は未知であるものの標本の割合から
でその推定値が得られる。以上から、
(1) | 各説明変数の水準に応じて保有割合を求める。 | |
(2) | ロジットを計算する。 | |
(3) | 変換により不均一分散を除く。これによりとする*1。 | |
(4) | をに最小二乗法により回帰する。定数項は与えない。 |
で推定ができる。
*1:とおいた。