「大人の教養・知識・気付き」を伸ばすブログ

一流の大人(ビジネスマン、政治家、リーダー…)として知っておきたい、教養・社会動向を意外なところから取り上げ学ぶことで“気付く力”を伸ばすブログです。目下、データ分析・語学に力点を置いています。

MENU

Rによるデータサイエンス(19/21)

 Rについて

をベースに学んでいく。
 今回はアソシエーション分析(PP.253-268)を扱う。

20. アソシエーション分析

 \mathrm{POS}データが獲得しやすくなった現代では、重要な課題の1つは蓄積されたデータの中から有益な情報を見つけ出すことにある。\mathrm{POS}データの集合体をバスケット・トランザクションと呼ぶ。その1つ1つのデータ(買い物履歴)をトランザクションという。アソシエーション分析はトランザクションデータを活用すべく、バスケットの中の商品間の関係について分析を行う手法を指す。
 1990年代はじめに\mathrm{IBM}研究所で開発された\mathrm{Apriori}アルゴリズムがその端緒である。

20.1 相関ルール

 買い物では商品の組み合わせに関連性と規則性が生じるルールが少なくない。トランザクションデータベースに頻出するアイテム間の組み合わせの規則を相関ルールという。例えば商品Aを買うとBも買うというルールを「A\Rightarrow B」と表すものとする。

20.1.1. 相関ルールの評価指標

 データベースの中から相関ルールを抽出する際、何らかの評価指標が必要である。多く用いられるのは、支持度、確信度、リストである。データベースはトランザクションの集合D=\{t_1,\cdots,t_M\}であり、各々のトランザクションはアイテム集合I_{\mathrm{all}}=\{i_1,i_2,\cdots,i_k\}の部分集合により構成されている。すなわち任意のトランザクションt_jはアイテムの集合Iを持ち(I\subset I_{\mathrm{all}})、かつその部分集合は空集合ではない。データベースから抽出されるアイテムの相関ルールX\Rightarrow YX,Y\subset IかつX\cap Y=\emptysetである。

  支持率 トランザクション数に占めるアイテム集合X,Yを含むトランザクションの数
  確信度 アイテム集合Xを含むトランザクションの数に占めるアイテム集合X,Yを含むトランザクションの数
  リフト 確信度を支持率で割った値で、\displaystyle{\frac{P(X\cup Y)}{P(X)P(Y)}}の近似値


 アイテム集合Xを含むトランザクションの数を\sigma(X)で表すこととする。ルールX\Rightarrow Yの支持率(\mathrm{supp})はアイテム集合X,Yを含むトランザクション\sigma\left(X\cup Y\right)が全体の中に占める比率



\begin{aligned}
\mathrm{supp}(X\Rightarrow Y)=\displaystyle{\frac{\sigma(X\cup Y)}{M}}
\end{aligned}


である。
 確信度とはアイテム集合X,Yを含むトランザクションの数\sigma(X\cup Y)を、条件Xを含むトランザクションの数\sigma(X)で割った値



\begin{aligned}
\mathrm{conf}(X\Rightarrow Y)=\displaystyle{\frac{\sigma(X\cup Y)}{\sigma(X)}}=\displaystyle{\frac{\mathrm{supp}(X\Rightarrow Y)}{\mathrm{supp}(X)}}
\end{aligned}


である。
 リフトは確信度を支持率\mathrm{supp}(Y)で割った値



\begin{aligned}
\mathrm{lift}(X\Rightarrow Y)=\displaystyle{\frac{\mathrm{conf}(X\Rightarrow Y)}{\mathrm{supp}(Y)}}
\end{aligned}


である。

20.1.2 Aprioriアルゴリズム

 高速に相関ルールを算出するアルゴリズム\mathrm{Apriori}アルゴリズムがある。

20.2 頻出アイテムの抽出

 アソシエーション分析には他にもいくつかのアルゴリズムが提案されている。その基本は木構造からのデータ検索である。木構造探索アルゴリズムは幅優先検索と深さ優先検索に分けることができる。\mathrm{Eclat}アルゴリズムは深さ優先検索でアイテムを探索する。\mathrm{Eclat}アルゴリズムは最小支持度の減少による性能の悪化が\mathrm{Apriori}アルゴリズムよりも少ない一方で、頻出アイテムが多い時には性能が悪くなる可能性がある。

20.3 抽出結果の補助分析

 場合によっては抽出したルールないし頻出アイテムについてクラスター分析を行い、クラスの特徴を考察することも有用である。

プライバシーポリシー お問い合わせ