統計的機械学習の数理100問（12/20） - 「大人の教養・知識・気付き」を伸ばすブログ

　いい加減時代の潮流に乗ろうということで機械学習を学びたいと思う。またRはともかくとしてPythonは未経験であるため、丁度良い書籍として

統計的機械学習の数理100問 with R (with R) (機械学習の数理100問シリーズ)

作者:讓, 鈴木
共立出版

Amazon

統計的機械学習の数理100問 with Python (機械学習の数理100問シリーズ)

作者:讓, 鈴木
共立出版

Amazon

を用いることにする。

前回
3.　リサンプリング
- 3.3　線形回帰におけるCV
  - 3.3.1　Pythonでの実行例
- 3.3　ブートストラッピング
  - 3.3.1　より詳細な理論
  - 3.3.2　Pythonによる実装例
次回

前回

power-of-awareness.com

3.　リサンプリング

真の統計モデルよりも複雑なモデルを選択してしまう過学習による影響を受けずに学習の性能を評価する方法であるクロスバリデーションを学ぶ。

学習結果のバラつきを評価する汎用的な方法であるブートストラップを学ぶ。

3.3　線形回帰におけるCV

　 $k$ - $\mathrm{fold}$ クロスバリデーションで特に分割数 $k=n$ と標本数と一致させると処理に時間が掛かる。以下、線形回帰の場合に高速なクロスバリデーションの実現方法を議論する。
　相互に重ならない $\{1,\cdots,n\}$ の $k$ の部分集合を考える。そのうちの1つをテストデータとし、それ以外を訓練データとするのがクロスバリデーションである。テストデータとなる部分集合を変えて $k$ 回行って得られる評価値の総和は以下で計算できることが知られている：

線形回帰のクロスバリデーション評価値
　 $\{1,\cdots,n\}$ の分割 $S_1,\cdots,S_k,S_i\cap S_j=\emptyset,i\neq j,\displaystyle{\bigcup_i S_i}=S$ に対して、そのクロスバリデーションの評価値の和は

$\begin{aligned} \displaystyle{\sum_{S_k}\left\|(I-H_{S_k})^{-1}e_{S_k}\right\|^2} \end{aligned}$

で与えられる。ここで $H_{S_k}=X_{S_k}({}^{t}XX)^{-1}{}^{t}X_{S_k}$ は $H=X({}^{t}XX)^{-1}{}^{t}X$ の $S_k$ に所属する行と列からなる部分行列、 $e_{S_k}$ は残差 $\boldsymbol{e}=Y-\boldsymbol{X}\hat{\boldsymbol{\beta}}$ の $S_k$ に含まれている行からなるベクトルである。また $\|\cdot\|^2$ は各成分の二乗和を表すものとする。

　この命題の成否について検討する。まず $X\in\mathbb{R}^{n\times(p+1)}$ の $S$ に含まれる行から成る行列を $X_S\in\mathbb{R}^{r\times p}$ 、それ以外の $X$ の行から成る行列を $X_{-S}\in\mathbb{R}^{(n-r)\times p}$ とする。ここで $r$ は集合 $S$ の要素数とする。同様に $\boldsymbol{Y}\in\mathbb{R}^n$ についても $\boldsymbol{Y}_S,\boldsymbol{Y}_{-S}$ を定義する。このとき

$\begin{aligned} {}^{t}XX&=\displaystyle{\sum_{j=1}^{n}\boldsymbol{X}_j{}^{t}\boldsymbol{X}_j}\\ &=\displaystyle{\sum_{j\in S}\boldsymbol{X}_j{}^{t}\boldsymbol{X}_j}+\displaystyle{\sum_{j\notin S}\boldsymbol{X}_j{}^{t}\boldsymbol{X}_j}\\ &={}^{t}X_SX_S+{}^{t}X_{-S}X_{-S} \end{aligned}$

および

$\begin{aligned} {}^{t}X\boldsymbol{Y}&=\displaystyle{\sum_{j=1}^{n}{}^{t}x_j y_j}=\displaystyle{\sum_{j\in S}{}^{t}x_j y_j}+\displaystyle{\sum_{j\notin S}{}^{t}x_j y_j}\\ &={}^{t}X_S\boldsymbol{Y}_S+{}^{t}X_{-S}\boldsymbol{Y}_{-S} \end{aligned}$

が成立する。
　次に以下が成り立つ：

$\mathrm{Sherman}$ - $\mathrm{Morroson}$ - $\mathrm{Woodbury}$ 　 $m,n\geq1$ 、行列 $A\in\mathbb{R}^{n\times n},U\in\mathbb{R}^{n\times m},C\in\mathbb{R}^{m\times m},V\in\mathbb{R}^{m\times n}$ について

$\begin{aligned} (A+UCV)^{-1}=A^{-1}-A^{-1}U\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1} \end{aligned}$

が成り立つ。

( $\because$ 　

$\begin{aligned} &(A+UCV)\left(A^{-1}-A^{-1}U\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}\right)\\ =&I+UCVA^{-1}-U\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}+\\ &UCVA^{-1}U\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}\\ =&I+UCVA^{-1}-UC(C^{-1})\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}+\\ &UC(VA^{-1}U)\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}\\ =&I+UCVA^{-1}-UC\left(C^{-1}-VA^{-1}U\right)\left(C^{-1}+VA^{-1}U\right)^{-1}VA^{-1}\\ =&I+UCVA^{-1}-UCVA^{-1}\\ =&I \end{aligned}$

が成り立つ。　 $\blacksquare$ )

　そして $n=p+1,m=r,A={}^{t}XX,C=I,U={}^{t}X_S,V=-X_S$ を適用すれば、

$\begin{aligned} \left({}^{t}X_{-S}X_{-S}\right)^{-1}=({}^{t}XX)^{-1}+({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}X_S({}^{t}XX)^{-1} \end{aligned}$

が成立する。ここで以下の定理を用いた。

部分行列の正則性　 ${}^{t}XX$ が正則であるとき、各 $S\subset\{1,\cdots,n\}に対して[tex:{}^{t}X_{-S}X_{-S}$ が正則であれば、 $I-H_S$ も正則である。

( $\because$ 　 $m,n\geq1,U\in\mathbb{R}^{m\times n},V\in\mathbb{R}^{n\times m}$ について

$\begin{aligned} \begin{bmatrix} I&O\\ V&I \end{bmatrix} \begin{bmatrix} I+UV&U\\ O&I \end{bmatrix} \begin{bmatrix} I&O\\ \left.-V\right.&I \end{bmatrix}&=\begin{bmatrix} I+UV&U\\ V+VUV&VU+I \end{bmatrix} \begin{bmatrix} I&O\\ \left.-V\right.&I \end{bmatrix}\\&= \begin{bmatrix} I&U\\ O&I+VU \end{bmatrix} \end{aligned}$

である。このとき

$\begin{aligned} \mathrm{det}(I+UV)=\mathrm{det}(I+VU) \end{aligned}$

であることを踏まえれば、

$\begin{aligned} \mathrm{det}\left({}^{t}X_{-S}X_{-S}\right)&=\mathrm{det}\left({}^{t}XX-{}^{t}X_{-S}X_{-S}\right)\\ &=\mathrm{det}({}^{t}XX)\mathrm{det}(I-({}^{t}XX)^{-1}{}^{t}X_S X_S)\\ &=\mathrm{det}({}^{t}XX)\mathrm{det}(I-X_S({}^{t}XX)^{-1}{}^{t}X_S) \end{aligned}$

を得る。なお最後の変形では $U=({}^{t}XX)^{-1}{}^{t}X_S,V=-X_S$ を用いた。以上から、 ${}^{t}X_{-S}X_{-S}$ および ${}^{t}XX$ が正則ならば、 $I-H_S$ もまた正則である。　 $\blacksquare$ )

　したがって以上から $S$ に属するデータを用いずに推定した回帰係数の推定値 $\hat{\boldsymbol{\beta}}_{-S}=\left({}^{t}X_{-S}X_{-S}\right)^{-1}{}^{t}X_{-S}\boldsymbol{Y}_{-S}$ は

$\begin{aligned} \hat{\boldsymbol{\beta}}_{-S}&=\left({}^{t}X_{-S}X_{-S}\right)^{-1}\left({}^{t}X\boldsymbol{Y}-{}^{t}X_S\boldsymbol{Y}_S\right)\\ &=\left\{({}^{t}XX)^{-1}+({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}X_S({}^{t}XX)^{-1}\right\} \left({}^{t}X\boldsymbol{Y}-{}^{t}X_S\boldsymbol{Y}_S\right)\\ &=\hat{\boldsymbol{\beta}}-({}^{t}XX)^{-1}{}^{t}X_S\boldsymbol{Y}_S-({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}(X_S\hat{\boldsymbol{\beta}}-H_S\boldsymbol{Y}_S)\\ &=\hat{\boldsymbol{\beta}}-({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}\{(I-H_S)\boldsymbol{Y}_S-X_S\hat{\boldsymbol{\beta}}+H_S\boldsymbol{Y}_S\}\\ &=\hat{\boldsymbol{\beta}}-({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}\boldsymbol{e}_S \end{aligned}$

を満たす。ここで $\hat{\boldsymbol{\beta}}=({}^{t}XX)^{-1}{}^{t}X\boldsymbol{Y}$ は全データを用いた $\boldsymbol{\beta}$ の推定値であり、 $\boldsymbol{e}_S=\boldsymbol{Y}_S-X_S\hat{\boldsymbol{\beta}}$ は、その $\hat{\boldsymbol{\beta}}$ を用いて $S$ に属するデータで評価した場合の誤差に相当する。
　 $S$ に属さないデータで推定した回帰係数 $\hat{\boldsymbol{\beta}}_{-S}$ に $S$ に属するデータを適用して残差および残差平方和を評価すると

$\begin{aligned} \boldsymbol{Y}_S-X_S\hat{\boldsymbol{\beta}}_{-S}&=\boldsymbol{Y}_S-X_S\{\hat{\boldsymbol{\beta}}-({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}\boldsymbol{e}_S\}\\ &=\boldsymbol{Y}_S-X_S\hat{\boldsymbol{\beta}}+X_S({}^{t}XX)^{-1}{}^{t}X_S(I-H_S)^{-1}\boldsymbol{e}_S\\ &=\boldsymbol{e}_S+H_S(I-H_S)^{-1}\boldsymbol{e}_S\\ &=(I-H_S)^{-1}\boldsymbol{e}_S \end{aligned}$

と計算できる。
　 $n$ 個の標本すべてを用いた推定値 $\hat{\boldsymbol{\beta}}$ の残差がそれぞれ $\boldsymbol{e}_S$ であるのに対して $S$ に属さない標本を用いて推定された $\hat{\boldsymbol{\beta}}_{-S}$ の残差はそれぞれ $(I-H_S)^{-1}\boldsymbol{e}_S$ と $(I-H_S)^{-1}$ 倍されることになる。
　予測誤差を求めるには、事前に $H=X{}^{t}XX)^{-1}{}^{t}X$ および $\boldsymbol{e}=(I-H)\boldsymbol{Y}$ を求めておく。そして各 $S$ に対して対応する行および列を選んで $H_S,\boldsymbol{e}_S$ が計算できる。そして $\|(I-H_S)^{-1}\boldsymbol{e}_S\|^2$ の $S$ について和を取ればよい。

3.3.1　Pythonでの実行例

import numpy as np
import time
import matplotlib.pyplot as plt
%matplotlib inline
import japanize_matplotlib

def cv_fast(X,y,k):
    n = len(y)
    m = int(n/k)
    H = X@np.linalg.inv(X.T@X)@X.T
    I = np.diag(np.repeat(1,n))
    e = (I - H)@y
    I = np.diag(np.repeat(1,m))
    S = 0
    for j in range(k):
        test = np.arange(j * m, (j + 1) * m, 1, dtype = int)
        S = S + (np.linalg.inv(I-H[test,test])@e[test]).T@np.linalg.inv(I-H[test,test])@e[test]
    return S/n
cv_fast(X,y,10)


# テストデータの生成
n = 1000
p = 5
beta = randn(p + 1)
x= randn(n,p)
X = np.insert(x,0,1,axis = 1)
y = X@beta + randn(n)

# 
U_1 = []
V_1 = []
U_f = []
V_f = []

for k in range(2, n+1, 1):
    if n%k ==0:
        # 普通のもの
        t1 = time.time() # 処理前の時点
        cv_linear(X,y,k)
        t2 = time.time() # 処理後の時点
        U_1.append(k); V_1.append(t2-t1)
        # 高速のもの
        t1 = time.time() # 処理前の時点
        cv_fast(X,y,k)
        t2 = time.time() # 処理後の時点
        U_f.append(k); V_f.append(t2-t1)
plt.plot(U_1, V_1, c = "red", label = "cv_linear")
plt.plot(U_f, V_f, c = "blue", label = "cv_fast")
plt.legend()
plt.xlabel("k")
plt.ylabel("実行時間(秒)")
plt.title("cv_linearとcv_fastの比較")

cv_linearとcv_fastの比較

3.3　ブートストラッピング

　 $p$ 変量の標本 $i=1,2,\cdots,n$ を格納したデータセット $\boldsymbol{df}={}^{t}(df_{1},\cdots,df_{n})\in\mathbb{R}^{n\times p}$ があるときにその各行 $df_{1},\cdots,df_{n}$ から統計量 $\alpha$ の推定量 $f$ を用いて

$\begin{aligned} \hat{\alpha}=f(df_{1},\cdots,df_{n}) \end{aligned}$

が得られるものとする。このとき、標本 $df_{1},\cdots,df_{n}$ から重複を許して無作為に選んだ $n$ 個からなる新しいデータセット $df_{i_1},\cdots,df_{i_n},i_n\in\{1,2,\cdots,n\}$ から

$\begin{aligned} \hat{\alpha}_1=f(df_{i_1},\cdots,df_{i_n}) \end{aligned}$

が得られる。これを $r$ 回繰り返すことで $\hat{\alpha}_h,h=1,2,\cdots,r$ の不偏分散として

$\begin{aligned} \displaystyle{\frac{1}{r-1}\sum_{h=1}^{r}(\hat{\alpha}_h-\hat{\alpha})^2} \end{aligned}$

が得られる。

3.3.1　より詳細な理論

　ブートストラップ法の実行プロセスを、推定量のバイアス、分散および推定量の確率分布とパーセント点の推定を通じて述べる。
　未知の確率分布 $F$ にしたがって生成された $n$ 個のデータを $\boldsymbol{x}=\{x_1,\cdots,x_n\}$ とする。これらは互いに独立に分布 $F$ に従う確率変数 $\boldsymbol{X}=\{X_1,\cdots,X_n\}$ の実現値とする。いま確率分布 $F$ に従う確率変数 $F$ に関する母数 $\theta$ をとある推定量 $\hat{\theta}=\hat{\theta}(\boldsymbol{X})$ を用いて推定する。推定の誤差を捉える評価尺度として以下のバイアスおよび分散

$\begin{aligned} b(F)&=E_{F}\left[\hat{\theta}\right]-\theta,\\ \sigma^2(F)&=E_{F}\left[\left\{\hat{\theta}-E_F\left[\hat{\theta}\right]\right\}^2\right] \end{aligned}$

とが用いられる。
　また $\hat{\theta}-\theta$ の分布およびパーセント点

$\begin{aligned} G(x)&=P_{F}\{\hat{\theta}-\theta\leq x\},\\ c_{\alpha}&\in\mathbb{R}\ s.t.\ P_{F}\{\hat{\theta}-\theta\leq c_{\alpha}\}=\alpha \end{aligned}$

も評価に用いることができる。

	(1)	ブートストラップ標本の反復抽出
		観測データ $\boldsymbol{x}=\{x_1,\cdots,x_n\}$ から $n$ 個のデータを復元抽出によって取り出したブートストラップ標本を $\boldsymbol{x}^{}=\{x_1^{},\cdots,x_n^{}\}$ とする。このようなブートストラップ標本を $B$ 組 $\{\boldsymbol{x}_i^{};i=1,2,\cdots,B\}$ 生成する。これらを用いて $B$ 個の推定値を計算し、 $\{\hat{\theta}^{*}(i);i=1,2,\cdots,B\}$ とする。
	(2)	ブートストラップ誤差推定
		観測データに基づく推定値 $\hat{\theta}$ と $B$ 個のブートストラップ推定値 $\{\hat{\theta}^{};i=1,2,\cdots,B\}$ を用いて $\begin{aligned}b(\hat{F})&\approx\displaystyle{\frac{1}{B}\sum_{i=1}^{B}\hat{\theta}^{}(i)-\hat{\theta}},\\\sigma^2(\hat{F})&\approx \displaystyle{\frac{1}{B-1}\sum_{i=1}^{B}\left\{\hat{\theta}^{}(i)-\hat{\theta}^{}(\cdot) \right\}^2}\end{aligned}$ ここで $\hat{\theta}^{}(\cdot)=\displaystyle{\frac{1}{B}\sum_{i=1}^{B}\hat{\theta}^{}(i)}$ とする。
	(3)	ブートストラップ確率分布推定
		推定量の分布と $100\alpha$ %点を以下で数値的に近似計算する： $\begin{aligned}\hat{G}(x)\approx&\displaystyle{\frac{1}{B}\left\{B個の\hat{\theta}^{}(i)-\hat{\theta}のうちx以下の値の数\right\}},\\\hat{G}^{-1}(\alpha)\approx&\left\{昇順で並べたB個の\hat{\theta}^{}(i)-\hat{\theta}のうち\right.\\&\left.B\alpha番目の値\right\}\end{aligned}$

3.3.2　Pythonによる実装例

import numpy as np

def bootstrap(df, f, r):
    m = df.shape[0]
    org = f(df,np.arange(0,m,1))
    u = []
    
    for j in range(r):
        idx = np.random.choice(m, m, replace = True) # 復元抽出
        u.append(f(df,idx))
    return {'original':org,'bias':np.mean(u) - org, 'stderr':np.std(u)}

# alpha =(V[Y]-V[X])/(V[X]+V[Y]-2Cov[X,Y]) をbootstrapを用いて推定
portfolio = np.loadtxt("C:/Users/Julie/Downloads/TOPIXdiv_SP500.csv", delimiter = ",")

def calc_alpha(data, idx):
    x = data[idx,0]
    y = data[idx,1]
    
    return (np.var(y) - np.var(x))/(np.var(x) + np.var(y)-2 *np.cov(x,y)[0,1])

bootstrap(portfolio, calc_alpha, 10000)

次回

power-of-awareness.com

前回

3. リサンプリング

3.3 線形回帰におけるCV

3.3.1 Pythonでの実行例

3.3 ブートストラッピング

3.3.1 より詳細な理論

3.3.2 Pythonによる実装例

次回