案例數(shù)據(jù)源: 有20種12盎司啤酒成分和價(jià)格的數(shù)據(jù) 變量包括啤酒名稱、熱量,、鈉含量,、酒精含量、價(jià)格 數(shù)據(jù)來(lái)自《SPSS for Windows 統(tǒng)計(jì)分析》data11-03,。 問(wèn)題一:選擇那些變量進(jìn)行聚類,?——采用“R型聚類” 1、現(xiàn)在我們有4個(gè)變量用來(lái)對(duì)啤酒分類,,是否有必要將4個(gè)變量都納入作為分類變量呢,?熱量、鈉含量,、酒精含量這3個(gè)指標(biāo)是要通過(guò)化驗(yàn)員的辛苦努力來(lái)測(cè)定,,而且還有花費(fèi)不少成本,如果都納入分析的話,,豈不太麻煩太浪費(fèi),?所以,有必要對(duì)4個(gè)變量進(jìn)行降維處理,,這里采用spss R型聚類(變量聚類),,對(duì)4個(gè)變量進(jìn)行降維處理。輸出“相似性矩陣”有助于我們理解降維的過(guò)程,。 2,、4個(gè)分類變量量綱各自不同,這一次我們先確定用相似性來(lái)測(cè)度,,度量標(biāo)準(zhǔn)選用pearson系數(shù),,聚類方法選最遠(yuǎn)元素,此時(shí),,涉及到相關(guān),,4個(gè)變量可不用標(biāo)準(zhǔn)化處理,將來(lái)的相似性矩陣?yán)锏臄?shù)字為相關(guān)系數(shù),。若果有某兩個(gè)變量的相關(guān)系數(shù)接近1或-1,,說(shuō)明兩個(gè)變量可互相替代。 3,、只輸出“樹(shù)狀圖”就可以了,,個(gè)人覺(jué)得冰柱圖很復(fù)雜,看起來(lái)沒(méi)有樹(shù)狀圖清晰明了,。從proximity matrix表中可以看出熱量和酒精含量?jī)蓚€(gè)變量相關(guān)系數(shù)0.903,,最大,,二者選其一即可,沒(méi)有必要都作為聚類變量,,導(dǎo)致成本增加,。至于熱量和酒精含量選擇哪一個(gè)作為典型指標(biāo)來(lái)代替原來(lái)的兩個(gè)變量,可以根據(jù)專業(yè)知識(shí)或測(cè)定的難易程度決定,。(與因子分析不同,,是完全踢掉其中一個(gè)變量以達(dá)到降維的目的。)這里選用酒精含量,,至此,,確定出用于聚類的變量為:酒精含量,鈉含量,,價(jià)格,。 1,、現(xiàn)在開(kāi)始對(duì)20中啤酒進(jìn)行聚類,。開(kāi)始不確定應(yīng)該分為幾類,暫時(shí)用一個(gè)3-5類范圍來(lái)試探,。Q型聚類要求量綱相同,,所以我們需要對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,這一回用歐式距離平方進(jìn)行測(cè)度,。 2,、主要通過(guò)樹(shù)狀圖和冰柱圖來(lái)理解類別。最終是分為4類還是3類,,這是個(gè)復(fù)雜的過(guò)程,,需要專業(yè)知識(shí)和最初的目的來(lái)識(shí)別。我這里試著確定分為4類,。選擇“保存”,,則在數(shù)據(jù)區(qū)域內(nèi)會(huì)自動(dòng)生成聚類結(jié)果。 問(wèn)題三:用于聚類的變量對(duì)聚類過(guò)程,、結(jié)果又貢獻(xiàn)么,,有用么?——采用“單因素方差分析” |
|