分層聚類算法,為何如此關(guān)鍵?
分層聚類法就是對給定數(shù)據(jù)對象的集合進(jìn)行層次分解,根據(jù)分層分解采用的分解策略,分層聚類法又可以分為凝聚的(agglomerative)和分裂的(divisive)分層聚類。
凝聚的分層聚類
它采用自底向上的策略,首先將每一個對象作為一個類,然后根據(jù)某種度量(如2個當(dāng)前類中心點(diǎn)的距離)將這些類合并為較大的類,直到所有的對象都在一個類中,或者是滿足某個終止條件時為止,絕大多數(shù)分層聚類算法屬于這一類,它們只是在類間相似度的定義上有所不同。
分裂的分層聚類
它采用與凝聚的分層聚類相反的策略——自頂向下,它首先將所有的對象置于一個類中,然后根據(jù)某種度量逐漸細(xì)分為較小的類,直到每一個對象自成一個類,或者達(dá)到某個終止條件(如達(dá)到希望的類個數(shù),或者2個最近的類之間的距離超過了某個閾值)。
分層聚類雖然比較簡單,但經(jīng)常會遇到選擇合并點(diǎn)或者分裂點(diǎn)的問題。這種選擇非常關(guān)鍵,因?yàn)橐坏┮唤M對象被合并或者分裂,下一步的工作就是在新形成的類上進(jìn)行,已做的處理不能撤銷,類之間也不能交換對象。如果合并或者分裂的決定不合適,就可能得出低質(zhì)量的聚類結(jié)果。而且,分層聚類算法沒有很好的可伸縮性,在決定合并或者分裂之前需要檢查和估算大量的對象和類。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字