目次
1. データマイニングを始める前に
「データマイニング」は何を指す用語なのか
- 仮説なしで集められたデータからパターンを見いそうとする行為をデータマイニングという。
- 「データマイニング」という用語は非常に曖昧。時代背景や技術的背景、使用者の立場によって定義が異なる。
- 1980年代の論文ではチェリーピッキング(データを徹底的に攫い、自分にとって都合のいい現象を見いだす行為)を指す否定的な用語で会った。
- 1990年代になると肯定的な意味で用いられるようになった:①理解可能なパターンを見極めること、②知られていない知識を発見すること、③意思決定を支援すること。
- データベースを起点としてデータから知識を見いだすという「データベースからの知識発見(KDD: Knowledge-discovery in databases)」という研究分野がある。1996年のある文献([Fayyd(1996)])では、データマイニングはKDDの一要素と位置付けられている。
- [Friedman(1997)]はデータマイニングの源流が[Tukey(1962])にまで遡れるとしている。
- 当時、データマイニングは統計学の知見が不要になり、記述統計全盛期に戻るとの見方があった。しかし、現在はむしろ数理統計の知識が必須になった。
データ
- データという言葉にはさまざまな解釈がある。統計科学の分野では、考察の対象から観測できる情報を指す。
- 1つの対象から複数の情報が観測できるとき、観測された除法の組合せを多変量データという。
- 多変量データは表形式で表されることが多い。表において1つの対称に関する多変量データを行、ある観測情報の集まりを列という。
- データは量的データと質的データに大別できる。また複数列から計算された副次的な変数を派生変数という。その中でもよくつかわれるのは「ビン」である。ビンを作成することを「ビニニング」という。ビニングは観測値を適当な教会で区切ることで、量的データを質的データに変換することを指す。
2. 統計学の基礎
(略)
3, 計算機上のデータ
データの種類とデータ型
- 計算機システム上で値がどのように表現されるかは、データ型で決まる。値の表現法は、①固定長か可変長か、②単一的か複合的か、③精度とダイナミックレンジで定まると整理できる。
- 1つの値を表すための桁数が一定の場合を固定長、動的に変更できる場合を可変長という。コンピューターでは2進数の桁数(単位はビット)で長さを表す。
- 1つの値を表すための構成要素数について、単数であるときを単一的、複数であるときを複合的と呼ぶことにする。たとえば、小数は単一的、分数は分母と分子の2つの数で現れることから複合的である。
- 精度は値をどれだけきめ細かく表現できるかを表し、相対的な精度を表すのにダイナミックレンジ(一番強い信号と一番弱い信号の強度の比率)をオーディオ業界から援用すると良い。
- データ型は言語処理系に依存する。多くのもので採用される代表的なものを例示すると、まず整数型がある。多くの場合、固定長かつ単一的である。桁数は8,16,32,64bitが多い。整数型の絶対精度は必ず±0.5で、ダイナミックレンジは桁数に依存する。浮動小数点型は、符号部、仮数部、指数部の3つで表される複合的で固定長の型である。精度とダイナミックレンジは、情報落ちがあるため、整数型ほどは簡単に表せない。浮動小数点型の相対的な精度はマシンイプシロンと呼ぶ。
- アナログ値を表すんは浮動小数点型がよさそうだが、画像データが8bit整数型で表されるなど、そうでないものも多い。また、可変長が圧倒的に便利だが、実装や演算の容易さにより、多くのデータ型は固定長である。
識別子とコード
- 個人や物などの各々を対象の集合の中で必ず一意になるように付与した値や文字列を識別子という。ある限られた(部分)集合で識別子になるものを準識別子という(たとえば、限られた集まりでの氏名が該当する。)。
- 識別子と同様の役割を与えられ、対照の構造と表現とが対応している値や文字列を特にコードという。郵便番号が典型例である。対象の構造と表現とが対応するように設計された規定をコード体系と呼ぶ。たとえばISBN、UTF-8などが該当する。特定組織内のみで使用され、外部で通用するとは限らないコードをインハウスコードという。
- 実体をコードに置き換えることをエンコーディング、逆の操作をデコーディングという。テキストファイルは文字がエンコードされた値の羅列である。計算機科学の用語としては、文字集合に施したものや暗号化やデータ圧縮などをエンコーディングと呼ぶ。
データのメタ情報
- メタ情報とは、データの解釈の仕方に関する情報を指す。メタデータは、データの性質を定義するために予め書かれ、その書かれたメタデータを説明するためのメタデータが必要で、といった形で再帰的な性質を持つ。一般にメタ情報とメタデータは厳密に使い分けられることは多くないが、前者の方が広義的なことが多い。
- メタデータが無いことも一つのメタ情報になり得る。また、メタデータが誤っている場合がある(たとえば、異なる文字コードをコピー&ペーストした場合が該当する。)。メタ情報が無いと、解釈やトラブルシューティングが難しくなる。
- メタ情報は、①ファイルシステム、②パス、③ファイル名、④ヘッダー、⑤メタファイルで保持される。明示的でないメタデータを推論で得ることも多い。
データと知識とメタ情報
- データが計算機上で表現されている場合、形式(=データに関する知識)を知らなければ解釈ができない。
- データに関する知識はメタデータで補完し得る。また、推論を働かせることでメタ情報を得ることもでき得る。
4. 構造を持つデータ
データ構造
配列とリスト
データマイニングでよく使われる構造
- 連想リストは、任意の値をインデックスに用いることができるデータ構造である。連想リストのインデックスを特にキー(key)という。また連想リストをハッシュと呼ぶこともある。
- テーブルもデータ構造の一つと見ることができる。同じ方法で観測したデータを各列に並べて行ごとにひとまとまりとして扱うものである。テーブルの行をrow, 列をcolumn、要素をセル(cell)という。
- テーブルは列ごとにデータ型が相違するのが一般的で、1行をひとまとまりとしてリストにしその「リストの配列」で表現する行指向と、1列をひとまとまりとしてその「配列のリスト」で表現する列指向がある。
- 行指向のテーブルは、C言語由来で構造体と呼ぶことがある。またこのようなデータ構造の要素をメンバーという。
- 列指向の場合、列単位の操作は容易である一方で、行捜査では各列日撃て要素の操作をする必要がある。
5. テーブル
テーブルに関する考察
- テーブルとは、「データを各列に並べて行ごとにひとまとまりとして扱うデータ構造」を指す。
- 行指向のテーブルと、それと対応する構造体や連想リストなどのように、フィールドを横に並べた方を横持ちのテーブル、縦に並べた方を縦持ちのテーブルという。また、縦持ちのテーブルを横持ちにすることをピボット、逆をアンピボットという。
テーブルと行列
- 多変量データを横持ちのテーブルで表し、定式化や計算のために行列で表現することはよくある。
- テーブルは、複数の列ベクトルからなる行列として表現でき、行列とベクトルの計算でできる。
6. 可視化
可視化の目的
- 自己の理解や人への伝達のためには、データを要約して過しかすることを考える必要がある。そのための代表的な考え方が統計学である。
四分位数と箱ひげ図
- 最もシンプルな方法は、四分位数と箱ひげ図である。
- データを昇順に並び替えて順位を横軸にしたグラフを描くことで順位統計量を表すことができる。さらに横軸のスケールを変えて、最小値が0、最大値が1になるようにすることで、パーセンタイルを表す図が得られる。
- 四分位数は、全体4等分するような区切り(25%点、50%点、75%点)を指す。順序統計量はロバストであるから、第1四分位数、第3四分位数の差(
を用いて、
より小さい値および
より大きい値を外れ値とする。
- 箱ひげ図は四分位数を基に分布を可視化する:①四分位数を求める、②第1四分位数と第3四分位数の長さを1とする、③1.5倍して上下を見て超えているものを外れ値とする、④外れ値を除いた群の中で最大値と最小値を決める。
ヒストグラムと確率密度関数
- ヒストグラムは箱ひげ図よりも分布を表せる。他方、ヒストグラムには適切な区間幅を設定するのが難しいという問題がある。
- 階級数
を決める目安として、スタージェスの公式が良く知られている:
- ヒストグラムに確率密度関数を重ね書きすることは多い。確率密度関数の推定方法には大きく分けて、①パラメトリック、②ノンパラメトリック、③セミパラメトリックがある。
- パラメトリックな方法は、モデルを当てはめることに他ならない。何らかのモデルを仮定し、その母数を推定する。
- ノンパラメトリックな方法は、母数を持つ確率分布を特に仮定しない方法である。たとえばヒストグラムに基づく方法である。確率変数の定義息を一定の階級幅
で区切って、各階級についてその範囲に含まれる標本の数に応じて
を当てる。他にもカーネル関数がある。
- セミパラメトリックな方法は、パラメトリックな方法とノンパラメトリック手法との中間的な方法である。混合分布推定が典型的な例である。
理論分布との差を見る
- ヒストグラムによらないで理論分布との差を可視化する方法にP-PプロットとQ-Qプロットがある。
- 確率変数の値を媒介変数として累積分布関数をプロットしたものをP-Pプロットという。横軸は理論分布について計算した累積確率を、縦軸は実際の累積度数を総和が1になるように正規化した値にする。もし実測値の分布が理論分布の通りだとすると、傾き1の直線に載る。傾きが急な部分は理論分布よりも密で、緩やかな部分は理論分布より疎である。
- Q-Qプロットは、順位を媒介変数としてパーセント点をプロットしたものである。横軸を理論分布について計算したパーセント点とし、縦軸を実際のパーセント点とする。Q-Qプロットでも傾き1の直線を引いて補助とする。
- すべてが等しい(=分散が0である)場合との差異を見たい場合、ローレンツ曲線やジニ係数、ハーフィンダール・ハーシュマン指数を用いる。ローレンツ曲線は、順位を正規化した値を横軸、累積割合を縦軸としたものである。傾き1の直線とローレンツ曲線とで囲まれた部分の面積を2倍にしたものがジニ係数である。
- ハーフィンダール・ハーシュマン指数は、市場における企業のシェアの片寄り具合(独占の度合い)を表す指標で、各企業のシェアの二乗和で定義する。
7. パターンと距離
さまざまな「距離」
- 距離にはさまざまな測り方がある。たとえば、ユークリッド距離、マンハッタン距離、最長距離、マハラノビス距離がある。
- また、道のりによらず、角度に基づくコサイン類似度がある。コサイン類似度は、単語の出現頻度から特徴ベクトルを作った際によく用いられる。
クラスタリング
- クラスタリングは、ある集合について要素および部分集合の間の距離が定義されているときに、内的結合と外的分離の性質を持つ部分集合を得る操作をいう。
- クラスタの距離は、①集合の代表点とパターンとの距離とする、②集合の各要素とパターンとの距離とするという2つが考えられる。クラスタ同士の距離は、各集合の代表点間の距離とするもの、核集合の各要素間の距離の代表値とする方法が考えられる。
- 階層的クラスタリングは、クラスタ間の距離に基づいてボトムアップにパターンをまとめ上げる方法である。クラスタ間の距離の決め方に応じて手法に名前がある。非階層的クラスタリングは、各パターンが属するクラスタを予め仮決めしてそれぞれのクラスタの代表点からの距離からの距離を基にして改めて各パターンが属するクラスタを決め直す手法である。
みにくいアヒルの子の定理
- 「みにくいアヒルの子の定理」とは、すべての区別がつくもの同士の距離は等距離であること、すなわち同じ度合いの類似度を持つことを主張する。
- 「みにくいアヒルの子の定理」に基づけば、すべての2つのものの度合いは同程度なのだから、何らかの価値観に基づいて人間にとって意味のある重みを付けてはじめてパターン認識ができることになる。
8. 多変量解析
多変量データの課題
- 変数の数が多くなり、データの数が増えると人間の処理能力を超えて傾向を導き出すのが難しくなる。そのため、多変量解析を活用する。
相関分析
- 相関があるとは、2つの変数の変化がたがいに連動していることを意味する。因果関係は必ずしも前提としない。
- 2つの変数間の関係を観察するには散布図が便利である。
- データの関連を示す指標の1つに相関係数がある。
主成分分析
- 変数の数が多いと可視化が困難である。可視化できるよう、なるべく情報を損なわずに低次元に情報を縮約することを考える。そのための代表的手法が主成分分析である。
一般化線形モデル
- ある変数と他の変数の関連や影響を分析するのに回帰分析が用いられる。代表的なのが一般化線形モデルである。
- たとえば線形回帰モデルを構築し回帰係数の推定値を基に検定することで、その説明変数が本当に効くのかの検討ができる。
モデル選択
- 説明変数の数を増やしていくと、一般にモデルの当てはまりは良くなる。しかし、学習に用いたデータへの当てはまりだけが良くなり、予測性が大きく下がる。このような現象を過学習といい、過学習から来るモデルの不安定さをバリアンスという。
- モデルの性質によってデータが説明できないことをバイアスという。モデルを構築するには、意味の無い説明変数はなるべく減らし(=バリアンスを下げ)、本質的な説明変数はなるべく残す(=バイアスを減らす)ことが重要である。しかし、両者はトレードオフであるため、バランスの良いモデル選択が重要になる。そのための方法として情報量基準の比較によるモデル選択がよく用いられる。
- 最も基礎的な情報量基準がAICである。AICは平均対数尤度の推定値から過学習によるバイアスを補正したものである。
- また、意味の薄い説明変数の回帰係数を小さくするように回帰係数の大きさに罰則を付ける正則化という方法もある。
9. 時系列解析
時系列データについて
- 時系列データとは、「ある現象について辞典ごとに観測して得られる系列」を指す。
- 時系列データが与えられると、①図示、②標本統計量、③周期性、④単位根過程、⑤予測に興味が寄せられる。
図示
- 時系列データを図示することで、特徴を把握できるのみならず、次の分析の方針を立て得る。
標本統計量
- 時系列データの標本統計量として、期待値、分散、自己共分散、自己相関係数などがある。
周期性
- 時系列データの周期性は一般に興味の強い分析目的の一つである。
- 古典的な分解モデルでは、トレンド成分、季節成分、確率的成分の3つに時系列データを分解する。
単位根過程
- 定常性の無い確率過程を非定常過程という。単位根過程は、原系列は非定常過程だがその差分系列が定常であるような確率過程をいう。
- 単位根過程は、みせかけの相関が生じる恐れがある。そのため、扱うデータが単位根過程であるかをチェックするのは有用である。
予測
- 過去データから将来データを予測することが時系列データを解析する目的の1つである。
- よくある手法は、何らかの時系列モデルを構築することである。構築に当たりどの期間まで過去データを用いるのかや予測性能の評価が論点になる。
10. 計算量の見積もり
記憶装置と計算の効率
- データマイニングにおいては大量のデータを扱う必要が在り、メモリ量が大きいほど、ストレージ容量が多いほどたくさんのデータが扱われる。
- メモリとストレージ以外にもさまざまな記憶媒体が階層構造として存在してメモリヒエラルキーを構成している。具体的には、CPUに近い方から、L1キャッシュ>L2キャッシュ>L3キャッシュ>主記憶>外部記憶であり、高速→低速、小容量→大容量という関係にある。
- データマイニングエンジニアが直接意識すべきレイヤーは、主記憶と外部記憶の箇所である。なぜならば、分析データが主記憶に載り切るかで計算速度が数倍以上に変わるためである。そのため、主記憶にデータが載り切るようにデータ量を調整したり、主記憶量を増設したりすべきである。
並列コンピューティング
- Intel社のDPUクロック周波数が4GHzに近づいた2004年から、発熱量の問題もあり、CPUクロック周波数を増加させて計算速度を速くすることが時代遅れとなった。その代わりにCPUの数を増加させることでトータルで計算速度を速くする流れに変わった。これにより、演算処理ユニット(コア)の数(コア数)が重要になった。
- 世の中には分散処理フレームワークが複数あるが、データマイニングエンジニアにはそれら各々の得意不得意を理解し、問題に応じて適切な選択ができることが重要である。
- CPUコア数が複数になるということは、並列コンピューティングを利用しない限り計算速度が速くならないことを意味する。そこで並列処理技術に脚光が浴びた。
- 共有メモリ型は分散メモリ型に比べ手軽な反面、大きな分散処理システムにはしにくい。一方、分散メモリ型はメモリを備えた多数の計算ノードそれぞれが並列に動作するため、共有メモリ型よりも巨大なシステムにすることができる反面、ノード間の通信も考慮する必要が在り複雑性が増している。
- 処理の高速化を目的に、複数の計算機を並列につなぎクラスタ化した計算機クラスタを利用することも一般的になっている。これにより処理時間が短縮できたり、データ分割により単一端末ではメモリに載り切らないデータも計算機クラスタで扱えたりするようになる。しかし、プロセス間の通信などの処理が必要になり、MPIやMapReduceといったプログラミングモデルを活用することになる。
- 並列処理の目的は、プログラムの実行時間Tをp台の計算機を使って処理した場合に全体的な処理時間をT/pに近づけることである。しかし、実際にはアルゴリズム上並列化できない部分があったり、通信のためのオーバーヘッドの存在があったりすることで難しい。
- MPI(Message Passing Interface)は、共有メモリを使わずに独立したプロセス間でメッセージを送受信しながら処理を行う方法・プロトコルを指す。熟練者であれば通信の立ち上がり時間のオーバーヘッドを減らせる可能性がある。
- MapReduceは巨大なデータセットを持つ高度に並列可能な問題に対して、多数のクラスタを用いて並列処理させるアルゴリズムである。2004年にGoogleから論文が発表されたのが契機になり、Yahoo!のDoug CuttingによるオープンソースHadoopが公開され、Web系企業を中心に一気に広まった。少なくともデータ処理の前段においてデータ通信時間のオーバーヘッドに強い仕組みといえる。
- MapReduceは、Map処理とReduce処理を組み合わせた処理になっている。Map処理では入力データの各行からKeyとValueの組合せを作る。その後、KeyでソートされるSuffle処理を経てReduce処理でKeyごとにまとめられたValue集合体に所定の演算が実行される。
- MapReduceの実装にはApache MapReduceがある。巨大データを分散保持するHDFS上で動作するため、演算部分よりもデータ量がボトルネックになるタスクとの相性が良い。
- 他方、MapReduceは処理の反復間で中間結果をストレージに書き出す必要が在るため、反復アルゴリズムには適していない。そのため、反復処理間で効率よくインメモリデータをキャッシュできるApache SparkやApache Stromなどが2019年現在では主流となってきている。
実行時間の見積もり
バッチ学習とオンライン学習
- 機械学習により日々生じるデータを処理する場合、適切なタイミングでモデルを再学習する必要がある。
- 機械学習において教師あり学習をおこなうフェーズではバッチ学習とオンライン学習がある。
- バッチ学習は学習対象となるデータ全てを一括で処理してモデルを学習する方法である。モデル変更には必要な全データを処理するための時間とメモリが必要になる。
- オンライン学習とは学習データが入ってくるたびに新しいデータのみを用いて学習を行う方法である。オンライン学習には、①1回当たりの学習コストが低く、もともと大量のデータであっても処理可能、②ユーザーの行動変化に容易に対応できる一方で最新データや外れ値の影響を受けやすい。
- バッチ学習とオンライン学習との中間がミニバッチ学習である。
11. エンジニア的財務会計
(略)
12. 指標を考える
指標の重要性
環境分析から施策実施
会計指標
- ビジネスではKGI等に会計指標が用いられることも多い。
- 会計指標は指標がブレークダウンできることで分析やKGI, KPIの設定がしやすい。
アドテクにおける指標
- 指標がブレークダウンできKGI, KPIの設定がしやすいのがアドテクである。インターネット広告の配信や最適化に関する技術的な要素をアドテクノロジーという。
- コンテンツサーバーと広告配信サーバーとが分離され、記事内容やアクセスユーザーに応じて広告内容を変える仕組みが確立されたことで、自動的な広告の最適化が実現した。
- 広告の露出をインプレッションという。インプレッションの総数に対するクリック数をクリック率(CTR)といい、広告の良さを測る基本的な指標である。
- 広告主が期待する行動を顧客が取ることをコンバージョンという。コンバージン率(CVR)はクリック総数に対するコンバージョン数である。CVRは商品事態の魅力にも左右されるため、必ずにも広告の良し悪しで決まるとは限らない。
- インプレッション1,000回に対する費用をCPMという。広告へのクリック1回当たりの料金をCPCという。コンバージョン1回当たりの料金をCPAという。
- これらを用いると、CPMは、1,000×CPC×CTRと分解でき、CPCは、CPA×CVRと分解できる。
- 広告主が課金されるパターンは、3つに大別できる:①インプレッション課金型、②クリック保証型、③成果報酬型である。メディアはCPMが高ければよい。また、CPMが高いうえでインプレッション課金できるのが望ましい。他方、広告主にとっては、CPAが低いほどよく、成果報酬型が望ましい。
- クリック保証型はCPCが固定されるもので、インプレッション課金型とクリック保証型の折衷である。CPMを上げるには、CPCが固定なため、CTRを上げるのが有効な施策である。またCPA=CPC÷CVRだから、広告主がCPAを下げるにはCVRを上げるのが有効な施策になる。メディアはクリック率を上げるべく努力し、広告主はコンバージョン率を上げるべく努力するのが望ましい。
13. 技術者倫理
データマイニングエンジニアの倫理
- 大雑把に言えば、データマイニングエンジニアに求められる「計算機科学の素養」には「ITエンジニア」、「数理統計学の素養」には「データマイニングエンジニア」が対応する。それらにはそれぞれのレベルでプロフェッショナルとしての技術者倫理が求められる。
- データ分析の責任範囲の考え方の1つに、調査結果を誠実に報告しさえすれば、重文に義務を果たしたことになるという考え方がある。
- 責任と義務は同義語のように扱われることがあるものの、責任は状態について、義務は行為についてのものという差異がある。義務と権利の関係でいえば、誰かの権利はそれ以外の誰かが責任を持って義務を果たさなければ保証されない。情報システムでは、ITエンジニアが責任を持って義務を果たさなければ利用者の権利は保証されません。
- エンジニアが負う責任は「職務上の責任」と「道徳的責任」に大別できる。技術者倫理の大問題は職務上の責任と道徳的責任が両立しない場合に、どのような振る舞いを取るかである。
- エンジニアとしては非専門家である経営者と経営には非専門的なエンジニアが、各々の相手の専門分野に対してどのような態度を取るべきか。それを考えるには相互信頼が必要で、その信頼の基礎に専門家の倫理の遵守とそれを支える制度を構築することが前提となる。
- 一般にプロフェッショナルには、非専門家に比して、①結果の重大性、②結果の予見可能性に基づき、厳しめに責任が求められる。
システムの自動化に伴う責任
- ITエンジニアが社会から責任を問われがちな状況の一例としてLibrahack事件がある。
- Librahack事件は岡崎市立中央図書館のWeb蔵書検索システムの利用者であった技術者が偽計業務妨害容疑で逮捕された事件である。
- 技術者はスクレイピングで同システムから新着図書情報を取得していた。これが原因で図書館のWebサーバーがダウンしたと見なされて逮捕された。しかし、ダウンの真因はシステム内部のバグであったことが判明し、技術者には瑕疵が無かった旨、技術者と図書館とで合意に至った。
- 当事件では結果の重大性で責任が問われた。しかし、結果の予見可能性が必ずしもなかった。
- この事件で権利を侵害されたのは図書館と技術者だった。では、今回各々の主体に責任を持って義務を果たすべき主体は誰だったのかを考えるのが技術者倫理を考える良い例となる。
個人情報とプライバシーの保護
- データマイニングエンジニアに倫理が問われる大きなものの一つが個人情報の保護である。
- アキネイター(Akinator)という2008年頃に開設されたWebサービスを考える。ユーザーが想像したある人物に関し、アキネイターが出す20問程度の質問にはい、いいえで答えるとその想像した人物が誰かをアキネイターが返答するというもので、精度が高いことで話題になった。
- 日本では2003年に成立した個人情報保護法では、法令上で定義された5,001件以上の個人情報を個人情報データベース等として事業者にその保護義務が課される。特定分野では分野ごとに個人情報保護のガイドラインが設けられている。また域外規定や外国からの域外規定もある。
- 個人情報保護法では概ね、生存する個人に関する情報で、氏名、生年月日その他個人を識別できる情報や、個人識別符号が含まれるものとされている。
- 情報は普通、ある1時点のスナップショットであり、情報同士の連関や個人との陽なつながりは、その情報が個人に関する情報であることの要件ではない。
- 「特定の個人を識別することができる」がどのようなことを考える。個人識別符号とは、実在個人と結びつけることができる識別子を指す。
- 実名の対義語として匿名がある。その連関として匿名化があるが、これは氏名を仮名に置き換えることや、使命を削除することとは異なる。
- 特定の個人を識別することはできないが、個人を識別することができる処理は仮名化と呼ばれ、匿名化とは扱われないことになっている。
- 対象データベースにおいて、ある個人について一意になる情報で識別子でないものを準識別子という。たとえば、同姓同名が含まれていない場合の氏名が該当する。
- 改正個人情報保護法では、匿名加工された個人データは第三者提供が可能になるなると明記された。匿名加工の方法は、個人情報保護委員会規則で定める基準に従う必要がある。しかし、ガイドラインでは具体的な手法が確立されていない。
- 改正法第36条第1項では、講ずるべき措置を5つ挙げている:①特定の個人を識別することができる記述等の全部または一部を置換もしくは削除、②個人識別符号の全部を置換もしくは削除、③個人情報と連結可能になる符号を置換もしくは削除、④特異な記述等を置換もしくは削除、⑤当該個人情報データベース等の性質を勘案したその他の適切な措置。
- この匿名化に求められる措置を純に踏まえると、アキネイターは、特定個人を識別できる情報は一見含まれていないにもかかわらず個人を特定できており、個人情報を取り扱っているように見える。アキネイターがそうなった本質的な理由は、特定に至った情報が、アキネイターのデータベースにおいて特異であったからである。
- それにもかかわらず、アキネイターが社会的な問題にならないのは、アキネイターがプライバシーにかかわる情報を表示したり暗示したりすることがないためである。
- プライバシーは一般に、①身体のプライバシー、②情報のプライバシー、③意思決定のプライバシーに分類される。身体のプライバシーとはみだりに他人に触れられないことを指す。情報のプライバシーは自らについての知られていない事実を他社に知られないことを指す。意思決定のプライバシーは自分の意思決定が他者に介入されないことを指す。
- 他には、性格のプライバシー(正当な手段によっても自分の心の状態が他者によって知られないこと)が挙げられることもある。
- JISの個人情報保護マネジメントシステム-要求事項(JIS Q 15001)では、プライバシーを侵害し得る情報を機微情報(センシティブ情報)として以下を列挙している:①思想・信条・宗教に関する情報、②人種・民族・出生地・本籍地。身体障碍・精神障害・犯罪歴・社会的差別の原因となる情報、③労働運動への参加状況、④政治活動への参加状況、⑤保健医療や性生活。
- また、個人情報保護法第2条第3項では、要配慮個人情報として、以下の情報を法令に基づく場合などを除き、あらかじめ個人の同意を得ることなしに取得してはならないとされている:①人種、②信条、③社会的身分、④病歴、⑤犯罪の経歴、⑥犯罪により害を被った事実、⑦その他本人に対する不当な差別、偏見その他の不利益が生じないようにその取扱いに特に配慮を要するものとして政令で定める記述等が含まれる個人情報。
- 日本ネットワークセキュリティ協会が毎年公表している「情報セキュリティインシデントに関する調査報告書」では、情報の価値基準を定めるためのEP図が提案されている。本図では、個人に関する情報を「基本情報」「経済的情報」「プライバシー情報」の3つでラベル付けし、漏洩したときのリスクを経済的損失と精神的苦痛の2軸で整理したものである。これを元に情報の具体的な項目が分類されており、一読に値する。
