1. 選擇菜單項Analyze→Classify→Hierachical Cluster,,打開Hierachical Cluster Analysis對話框,,如圖 5-5。將原始變量Price in thousands到Fuel efficiency移入Variables列表框框中,,將標志變量Model移入Label Case by列表框框中,。
在Cluster欄中選擇Cases單選按鈕,對樣品進行聚類(若選擇Variables,,則對變量進行聚類),。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖,。
2. 點擊Plots按鈕,,打開Plots子對話框,如圖,。設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖,。Dendrogram為聚類樹形圖,Icicle為冰柱圖,。
這里我們選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,,只輸出比較常用的聚類樹形圖,而不給出冰柱圖,。
3. 點擊Method按鈕,,打開Method子對話框,設(shè)置系統(tǒng)聚類的方法選項,。
Cluster Method下拉列表用于指定類與類之間距離的測度方法,,具體選項的含義參見教材。
Measure欄用于設(shè)置不同數(shù)據(jù)類型下的個體與個體之間距離的測度方法,,其中,,Interval中的方法適用于連續(xù)型變量,Counts中的方法適用于計數(shù)變量,,Binary中的方法適用于二值變量,。
Transform Values選項欄用于當原始數(shù)據(jù)不是同一數(shù)量級別的時候選擇對原始數(shù)據(jù)進行標準化的方法。單選按鈕By variable表示針對變量進行標準化,,適用于Q型聚類,;By case表示針對觀測進行標準化,適用于R型聚類,。
這里我們選擇最為常用的Z分數(shù)標準化法對原始數(shù)據(jù)進行標準化,,其余選項均保持默認。
4. 點擊Save按鈕,,打開 Save New Variables子對話框,,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量,。
None表示不保存任何新變量;Single solution表示生成一個分類變量,,在其后的矩形框中輸入要分成的類數(shù),;Range of solutions表示生成多個分類變量。這里我們選擇Range of solutions,,并在后面的兩個矩形框中分別輸入2和4,,即生成三個新的分類變量,分別表明將樣品分為2類,、3類和4類時的聚類結(jié)果,。
5. 在主對話框中點擊OK按鈕,運行系統(tǒng)聚類過程,,結(jié)果如下表所示,。
B.K-means操作步驟及結(jié)果分析
電信營銷商對客戶分類分析。telco_extra.sav
1. 選擇菜單項Analyze→Classify→K-Means Cluster,,打開K-Means Cluster Analysis對話框,,將原始變量移入Variables列表框框中,將標志變量Region移入Label Case by列表框框中,。
在Method選項欄中選擇Iterate classify單選項,,使用K-means算法不斷計算新的類中心,并替換舊的類中心,;若選擇Classify only,則根據(jù)初始類中心進行聚類,,在聚類過程中不改變類中心,。
在Number of Cluster后面的輸入框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,,即將分為3類,。
至于Centers按鈕,則用于設(shè)置迭代的初始類中心,。如果不用手工設(shè)置,,則系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置,。
2. 點擊Iterate按鈕,,打開Iterate子對話框,如圖 5-9,,對迭代參數(shù)進行設(shè)置,。
Maximum Iterations輸入框用于設(shè)定K-means算法迭代的最大次數(shù);Convergence Criterion輸入框用于設(shè)定算法的收斂判據(jù),,其值應(yīng)該介于0和1之間,。另外,,如果選擇了Use running means復(fù)選框,則每當一個樣品被分配到一類時便要立即重新計算新的類中心,;如果不選該選項,,則完成了所有樣品的重新分配之后才要計算新的類中心,不選該選項會比較節(jié)省事件,。這里我們保持該對話框的系統(tǒng)默認選項,。
3. 點擊Options按鈕,打開Options子對話框,,如圖 10?4,。對話框中Statistics選項欄中各選項的含義如下:
Initial cluster centers:在結(jié)果輸出窗口中給出聚類的初始類中心;
ANOVA table:給出以聚類結(jié)果為控制變量的針對每個原始變量的單因素方差分析表,;
Cluster information for each case:在結(jié)果輸出窗口中給出每個樣品的分類信息,,包括分配到哪一類以及該觀測量距所屬類中心的距離。
單擊Continue返回主對話框,。
4. 在主對話框中點擊OK按鈕,,運行K均值聚類分析程序。
給出了K-均值迭代的初始類中心坐標,,由SPSS自動給定,。
從表的結(jié)果來看,針對分析變量的方差分析的 值均小于0.05,,需要拒絕原假設(shè),,說明所選的聚類變量對于分類具有顯著作用。
|