將一群物理對(duì)象或者抽象對(duì)象的劃分成相似的對(duì)象類的過程。其中類簇是數(shù)據(jù)對(duì)象的集合,,在類簇中所有的對(duì)象都彼此相似,,而類簇與類簇之間的對(duì)象是彼此相異。
聚類除了可以用于數(shù)據(jù)分割(data segmentation),也可以用于離群點(diǎn)檢測(cè)(outlier detection),所謂的離群點(diǎn)指的是與“普通”點(diǎn)相對(duì)應(yīng)的“異常”點(diǎn),而這些“異常”點(diǎn)往往值的注意,。
很多人在學(xué)習(xí)聚類之初,,容易將聚類和分類搞混淆。其實(shí)聚類屬于無監(jiān)督學(xué)習(xí)范疇(unsupervised learning),,也可稱作觀察式學(xué)習(xí)過程,,與分類不同,聚類并不依賴已有既定的先驗(yàn)知識(shí),。舉個(gè)例子,,我們成年后,,很清楚世界是由男人和女人組成的,,所以我們?cè)诮◣臅r(shí)候,,會(huì)把廁所分為男廁所和女廁所,,這就是“分類”;而當(dāng)我們剛生下來,,我們并不知道什么是男人,,什么是女人,通過后天對(duì)生活的觀察,,我們發(fā)現(xiàn)有一類人他們有胡子,,而有一類人她們頭發(fā)比較長(zhǎng)(當(dāng)然,我的這個(gè)舉例已經(jīng)顯然不符合當(dāng)今世界的發(fā)展了,,你們明白就行),,于是我們就把有胡子的人分為一類人,,把長(zhǎng)頭發(fā)的分為另一類人,,然后“研究”發(fā)現(xiàn),原來有胡子的叫男人,,有長(zhǎng)頭發(fā)的叫女人,,這個(gè)過程就是“聚類”,。
數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笕缦拢?br> 1) 可伸縮性:當(dāng)聚類對(duì)象由幾百上升到幾百萬,我們希望最后的聚類結(jié)果的準(zhǔn)確度能一致,。
2) 處理不同類型屬性的能力:有些聚類算法,,其處理對(duì)象的屬性的數(shù)據(jù)類型只能為數(shù)值類型,但是實(shí)際應(yīng)用場(chǎng)景中,,我們往往會(huì)遇到其他類型的數(shù)據(jù),,比如二元數(shù)據(jù),分類數(shù)據(jù)等等,。當(dāng)然,,在處理過程我們是可以將這些其他類型的數(shù)據(jù)預(yù)處理成數(shù)值型數(shù)據(jù)的,但是在聚類效率上或者聚類準(zhǔn)確度上往往會(huì)有折損
3) 發(fā)現(xiàn)任意形狀的類簇:因?yàn)樵S多聚類算法是用距離(eg:歐幾里得距離或者曼哈頓距離)來量化對(duì)象之間的相似度的,,基于這種方式,,我們往往只能發(fā)現(xiàn)相似尺寸和密度的球狀類簇或者成為凸形類簇。但是,,類簇的形狀可能是任意的,。
4) 對(duì)聚類算法初始化參數(shù)的知識(shí)需求的最小化:很多算法在分析過程中需要用戶提供一定的初始參數(shù),,比如期望的類簇個(gè)數(shù),類簇初始質(zhì)點(diǎn)的設(shè)定,。聚類結(jié)果對(duì)這些參數(shù)是十分敏感的,。這不僅加重了用戶的負(fù)擔(dān),也非常影響聚類結(jié)果的準(zhǔn)確性
5) 處理噪聲數(shù)據(jù)的能力:所謂的噪聲數(shù)據(jù),,可以理解為影響聚類結(jié)果的干擾數(shù)據(jù),,這些噪聲數(shù)據(jù)的存在會(huì)造成聚類結(jié)果的畸變,最終導(dǎo)致低質(zhì)量的聚類,。
6) 增量聚類和對(duì)輸入次序的不敏感:一些聚類算法不能將新加入的數(shù)據(jù)插入到已有的聚類結(jié)果,;輸入次序的敏感是指,對(duì)于給定的數(shù)據(jù)對(duì)象集合,,以不同的次序提供輸入對(duì)象時(shí),,最終產(chǎn)生的聚類結(jié)果的差異會(huì)比較大。
7) 高維性:有些算法只適合處理2維或者3維的數(shù)據(jù),,而對(duì)高維數(shù)據(jù)的處理能力很弱,,因?yàn)樵诟呔S空間中數(shù)據(jù)分布可能十分稀疏,而且高度傾斜,。
8) 基于約束的聚類:現(xiàn)實(shí)應(yīng)用中可能需要在各種條件下進(jìn)行聚類,。因?yàn)橥粋€(gè)聚類算法,在不同的應(yīng)用場(chǎng)景中所帶來的聚類結(jié)果也是各異的,,因此找到滿足特定約束的具有良好聚類特性的數(shù)據(jù)分組是十分有挑戰(zhàn)性的,。
9) 可解釋性和可用性:我們希望得到的聚類結(jié)果都能用特定的語義、知識(shí)進(jìn)行解釋,,和實(shí)際的應(yīng)用場(chǎng)景相聯(lián)系,。
|