クラスタリングを勉強してみる(2) partitioning clustering(k-means)
1. 概要
明確なクラスター構造を持たない集合(a flat set of clusters without any explicit structure)を作成する手法を partitioning clustering あるいは flat clustering と言います。
2. k-means
k-meansとは、partitioning clustering の代表的アルゴリズムです。
クラスターを代表するオブジェクト(represented object)としてクラスターの中心(mean or centroid)を使用します。
クラスターの中心を評価する指標として、クラスター内の点とクラスターの中心との残差平方和を算出します。
k-meansの目的は、すべてのクラスターの残差平方和を算出し、その合計を最小にすることです。
2-1. アルゴリズム
- k個のクラスターの中心の初期値(seed)をランダムに選択する
- すべてのオブジェクトに対して、平方ユークリッド距離が最も小さい中心を持つクラスターに割り当てる
- すべてのクラスターの中心を再計算する
- すべてのオブジェクトに対して、平方ユークリッド距離が最も小さい中心を持つクラスターに再割当てする
- 3 ~ 4 を繰り返し、どのオブジェクトも再割当てが発生しなければ終了とする
2-2. Pros.
- 比較的効率的である
- クラスタが小さくまとまっていて、互いに離れたところにあれば、うまく機能する
3. その他の主な partitioning clustering
- k-modes
- k-medoids
- PAM
- CLARA
- CLARANS
- prototype-based
4. 参考文献
Introduction to Information Retrieval
- 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze
- 出版社/メーカー: Cambridge University Press
- 発売日: 2008/07/07
- メディア: ハードカバー
- 購入: 7人 クリック: 115回
- この商品を含むブログ (36件) を見る