Rによるデータサイエンス（19/21） - 「大人の教養・知識・気付き」を伸ばすブログ

　Rについて

Rによるデータサイエンス(第2版):データ解析の基礎から最新手法まで

作者:金明哲
森北出版

Amazon

をベースに学んでいく。
　今回はアソシエーション分析（PP.253-268）を扱う。

前回

https://power-of-awareness.com/entry/2022/08/03/120000power-of-awareness.com

前回
20.　アソシエーション分析
次回

20.　アソシエーション分析

　 $\mathrm{POS}$ データが獲得しやすくなった現代では、重要な課題の1つは蓄積されたデータの中から有益な情報を見つけ出すことにある。 $\mathrm{POS}$ データの集合体をバスケット・トランザクションと呼ぶ。その1つ1つのデータ(買い物履歴)をトランザクションという。アソシエーション分析はトランザクションデータを活用すべく、バスケットの中の商品間の関係について分析を行う手法を指す。
　1990年代はじめに $\mathrm{IBM}$ 研究所で開発された $\mathrm{Apriori}$ アルゴリズムがその端緒である。

20.1　相関ルール

　買い物では商品の組み合わせに関連性と規則性が生じるルールが少なくない。トランザクションデータベースに頻出するアイテム間の組み合わせの規則を相関ルールという。例えば商品 $A$ を買うと $B$ も買うというルールを「 $A\Rightarrow B$ 」と表すものとする。

20.1.1.　相関ルールの評価指標

　データベースの中から相関ルールを抽出する際、何らかの評価指標が必要である。多く用いられるのは、支持度、確信度、リストである。データベースはトランザクションの集合 $D=\{t_1,\cdots,t_M\}$ であり、各々のトランザクションはアイテム集合 $I_{\mathrm{all}}=\{i_1,i_2,\cdots,i_k\}$ の部分集合により構成されている。すなわち任意のトランザクションは $t_j$ はアイテムの集合 $I$ を持ち( $I\subset I_{\mathrm{all}}$ )、かつその部分集合は空集合ではない。データベースから抽出されるアイテムの相関ルール $X\Rightarrow Y$ は $X,Y\subset I$ かつ $X\cap Y=\emptyset$ である。

	支持率	全トランザクション数に占めるアイテム集合 $X,Y$ を含むトランザクションの数
	確信度	アイテム集合 $X$ を含むトランザクションの数に占めるアイテム集合 $X,Y$ を含むトランザクションの数
	リフト	確信度を支持率で割った値で、 $\displaystyle{\frac{P(X\cup Y)}{P(X)P(Y)}}$ の近似値

　アイテム集合 $X$ を含むトランザクションの数を $\sigma(X)$ で表すこととする。ルール $X\Rightarrow Y$ の支持率( $\mathrm{supp}$ )はアイテム集合 $X,Y$ を含むトランザクション $\sigma\left(X\cup Y\right)$ が全体の中に占める比率

$\begin{aligned} \mathrm{supp}(X\Rightarrow Y)=\displaystyle{\frac{\sigma(X\cup Y)}{M}} \end{aligned}$

である。
　確信度とはアイテム集合 $X,Y$ を含むトランザクションの数 $\sigma(X\cup Y)$ を、条件 $X$ を含むトランザクションの数 $\sigma(X)$ で割った値

$\begin{aligned} \mathrm{conf}(X\Rightarrow Y)=\displaystyle{\frac{\sigma(X\cup Y)}{\sigma(X)}}=\displaystyle{\frac{\mathrm{supp}(X\Rightarrow Y)}{\mathrm{supp}(X)}} \end{aligned}$

である。
　リフトは確信度を支持率 $\mathrm{supp}(Y)$ で割った値

$\begin{aligned} \mathrm{lift}(X\Rightarrow Y)=\displaystyle{\frac{\mathrm{conf}(X\Rightarrow Y)}{\mathrm{supp}(Y)}} \end{aligned}$

である。

20.1.2　Aprioriアルゴリズム

　高速に相関ルールを算出するアルゴリズムに $\mathrm{Apriori}$ アルゴリズムがある。

20.2　頻出アイテムの抽出

　アソシエーション分析には他にもいくつかのアルゴリズムが提案されている。その基本は木構造からのデータ検索である。木構造探索アルゴリズムは幅優先検索と深さ優先検索に分けることができる。 $\mathrm{Eclat}$ アルゴリズムは深さ優先検索でアイテムを探索する。 $\mathrm{Eclat}$ アルゴリズムは最小支持度の減少による性能の悪化が $\mathrm{Apriori}$ アルゴリズムよりも少ない一方で、頻出アイテムが多い時には性能が悪くなる可能性がある。

20.3　抽出結果の補助分析

　場合によっては抽出したルールないし頻出アイテムについてクラスター分析を行い、クラスの特徴を考察することも有用である。

次回

power-of-awareness.com

前回

20. アソシエーション分析

20.1 相関ルール

20.1.1. 相関ルールの評価指標

20.1.2 Aprioriアルゴリズム

20.2 頻出アイテムの抽出

20.3 抽出結果の補助分析

次回