Rについて
をベースに学んでいく。
今回はアソシエーション分析(PP.253-268)を扱う。
20. アソシエーション分析
データが獲得しやすくなった現代では、重要な課題の1つは蓄積されたデータの中から有益な情報を見つけ出すことにある。データの集合体をバスケット・トランザクションと呼ぶ。その1つ1つのデータ(買い物履歴)をトランザクションという。アソシエーション分析はトランザクションデータを活用すべく、バスケットの中の商品間の関係について分析を行う手法を指す。
1990年代はじめに研究所で開発されたアルゴリズムがその端緒である。
20.1 相関ルール
買い物では商品の組み合わせに関連性と規則性が生じるルールが少なくない。トランザクションデータベースに頻出するアイテム間の組み合わせの規則を相関ルールという。例えば商品を買うとも買うというルールを「」と表すものとする。
20.1.1. 相関ルールの評価指標
データベースの中から相関ルールを抽出する際、何らかの評価指標が必要である。多く用いられるのは、支持度、確信度、リストである。データベースはトランザクションの集合であり、各々のトランザクションはアイテム集合の部分集合により構成されている。すなわち任意のトランザクションははアイテムの集合を持ち()、かつその部分集合は空集合ではない。データベースから抽出されるアイテムの相関ルールはかつである。
支持率 | 全トランザクション数に占めるアイテム集合を含むトランザクションの数 | |
---|---|---|
確信度 | アイテム集合を含むトランザクションの数に占めるアイテム集合を含むトランザクションの数 | |
リフト | 確信度を支持率で割った値で、の近似値 |
アイテム集合を含むトランザクションの数をで表すこととする。ルールの支持率()はアイテム集合を含むトランザクションが全体の中に占める比率
である。
確信度とはアイテム集合を含むトランザクションの数を、条件を含むトランザクションの数で割った値
である。
リフトは確信度を支持率で割った値
である。
20.2 頻出アイテムの抽出
アソシエーション分析には他にもいくつかのアルゴリズムが提案されている。その基本は木構造からのデータ検索である。木構造探索アルゴリズムは幅優先検索と深さ優先検索に分けることができる。アルゴリズムは深さ優先検索でアイテムを探索する。アルゴリズムは最小支持度の減少による性能の悪化がアルゴリズムよりも少ない一方で、頻出アイテムが多い時には性能が悪くなる可能性がある。
20.3 抽出結果の補助分析
場合によっては抽出したルールないし頻出アイテムについてクラスター分析を行い、クラスの特徴を考察することも有用である。