「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。

MENU

【数理統計】時系列解析Vol.01:時系列解析の基礎

 最近勉強していることの1つとして時系列解析がある。具体的な解析を行いたいのが目的。目標は基礎を学んだ後、多変量時系列解析と長期記憶過程を学んでいく。

順次、学んだことを整理していく。

1. 時系列解析の基礎

 時系列解析とは関心のある事象における過去・現在・未来の値を適切に把握・推計し、関連してその結果をもとに事象の仕組みや影響に関する知見を得たり対策を考えたりする営みである。過去の時点に対する推計を平滑化(スムージング)、現在の時点に対する推計をフィルタリング(濾波)、未来の時点に対する推計を予測と呼ぶ。
 平滑化はさらに3つのものに分類できる:
(1)固定区間平滑化:推計時点に対して現在までの全データを考慮する
(2)固定ラグ平滑化:推計時点に対して少し先までの観測データのみを考慮する
(3)固定点平滑化:特定の時点のみに着目する
 時系列解析のアプローチには、(1)確定的な方法、(2)確率的な方法の2つがある。

 時系列解析を行うにあたっての問題が1つある。それは各時点における実現値を1つしか観測できないということである。特に期待値などの統計量を計算する際にはそれらが時点に依存し得るために各時点の観測数問題は大きな問題となる。そこでそうした観測値を確率変数列\{y_t\}_{t=-\infty} ^\inftyから得られた1つの実現値と見なしその確率変数列の生成構造について何らかの性質や構造を仮定する。確率変数の時間による系列を確率過程(stochastic process)といいy_tと書く。この確率過程は時点によって順序付けられていることで通常の確率とは相違する。

2. 時系列解析の目的

 確率過程(時系列解析)の解析とそれとの対比の意味での統計学との差異はデータ間の独立性を考えるのか否かにある。前者はデータ間に従属性があることを前提にして解析するものである一方で後者は最尤推定を典型例としてデータを独立したものと考えるのが自然である。したがって解析するときに各データ間に如何なる関係を考えるのかに応じて解析することとなる。

3. 時系列データの種類

 時系列データはその性質を抽出しやすくすることなどの様々な理由から観測したそのままを使うこともあれば、それを加工したものを元のデータと見なして扱うこともある。
 時系列データそのものを原系列と呼ぶ。また頻用される加工手法によってはその加工を行ったデータにそれぞれ名前がついている。たとえば後述する定常性を確保するために対数変換を行うことがあり、対数変換を行った原系列を対数系列と呼び\log⁡{y_t}と書く。また前時点との差分を取った\Delta y_t=y_t-y_{t-1}を差分系列(階差系列)と呼ぶ。また成長率(増減率)を議論するために対数差分列\Delta \log⁡{y_t}を用いることも多い *1
 それ以外に特に経済データの場合、季節変動を削除したデータを季節調整済系列と呼ぶ。

4. 基本統計量と時系列モデル

 時系列解析でも一般の統計解析と同様に最初は基本統計量の計算を通じたデータの要約を行う。それを通じてデータの背後にある構造の特徴を抽出するのである。まず最も基本的な統計量は期待値(平均)である。また分散を用いてある一時点におけるバラつきの尺度として用いる。
 他方で時点の相違とデータのバラつきを考えるための基本統計量が時系列解析に特有の統計量として存在する。確率過程X_tの自己共分散は時点をズラした自分自身との共分散であり、時点tとラグkの関数


Cov [ X_t,X_{t-k} ]=E [(X_t-E[ X_t ])(X_{t-k}-E[X_{t-k} ])]

と定義される。またこれを規格化したものを自己相関係数という:

\rho_{t,k}=\frac{Cov[X_t,X_{t-k}]}{\sqrt{V[X_{t}]}\sqrt{V[X_{t-k}]}}

 分布関数をf(x)とすればCauchy-Schwartzの不等式を用いることで

\begin{align}
V[X_t]V[X_{t-k}]&=(\int_{-\infty}^{\infty} (x-E[X_t])^{2}f(x) dx) \cdot (\int_{-\infty}^{\infty} (x-E[X_{t-k}])^{2}f(x) dx) \\
&\geq (\int_{-\infty}^{\infty}(x-E[X_t])(x-E[X_{t-k}])f(x)dx])^{2}
\end{align}

(右辺)=(Cov[X_t,X_{t-k}])^2に注意すればCov[X_t,X_{t-k}]=Cとして

\begin{align}
\\|C| \leq \sqrt{V[X_t]} \cdot \sqrt{V[X_{t-k}]} \\
\end{align}


\therefore -1 \leq \frac{Cov[X_t,X_{t-k}]}{\sqrt{V[X_t]}\sqrt{V[X_{t-k}]}} \leq  1

またk=0ならば明らかに自己相関係数1である。
 さて以上は理論的な概念であるが、実際の解析では観測値からそれらを推定することが必要となってくる。平均、自己共分散、自己相関係数の自然な推定量として


\begin{align}
\bar{y}&=\frac{1}{T}\sum_{t=1}^{T}y_{t}, \\
\hat{\gamma}_{k}&=\frac{1}{T}\sum_{t=1}^{T}(y_t-\bar{y})(y_{t-k}-\bar{y}), \\
\hat{\rho}_k&=\frac{\hat{\gamma}_{k}}{\hat{\gamma}_{0}}
\end{align}

を用い、それぞれ標本平均、標本自己共分散、標本自己相関係数という。

*1:対数差分を用いるのは、変化分があまり大きくなければTaylor展開より通常の変化率と近似的に一致するうえ、連続時間であれば正確に瞬時的な変化率に一致するからである。また対数変換を行ったうえで差分を取れば対数差分は計算できるが、一般にコンピュータでの計算では乗算や除算の方が加算・減算よりも時間がかかることも理由の一つである。さらに対数系列でのメリットである定常性の確保が可能になることもある

プライバシーポリシー お問い合わせ