クラスタリングを勉強してみる(4) hierarchical clustering
2. HAC(hierarchical agglomerative clustering)
凝集型階層的クラスタリングを HACと言います。超距離(ultrametric)の階層的なクラスター構造であるため、デンドログラム(dendrogram)と呼ばれる樹形図によって表現されます。
クラスターを結合する操作過程は、単調(monotonicity)であり、逆転(inversion)は発生しません。
2-1. アルゴリズム
2-2. クラスター間の非類似度の算出方法
2-2-2. 最長距離法(complete-link)
異なるクラスターに属するオブジェクト間の非類似性の中で、最も遠いオブジェクト間の非類似性を、クラスター間の距離として選択する手法です。
- Cons.
- 外れ値の影響を受けやすい。
2-2-3. 群平均法(group-average agglomerative clustering)
2-3. Pros.
- 多くの研究者は、hierarchical algorithms の方が partitioning algorithms よりも良い分類結果が期待できると考えている
2-4. Cons.
- スケールしない
- 事前の操作をアン・ドゥできない(can never undo what was done previously)
3. 参考文献
Introduction to Information Retrieval
- 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze
- 出版社/メーカー: Cambridge University Press
- 発売日: 2008/07/07
- メディア: ハードカバー
- 購入: 7人 クリック: 115回
- この商品を含むブログ (36件) を見る