分類是將一個未知樣本分到幾個預(yù)先已知類的過程。數(shù)據(jù)分類問題的解決是一個兩步過程:第一步,,建立一個模型,,描述預(yù)先的數(shù)據(jù)集或概念集,。通過分析由屬性描述的樣本(或?qū)嵗瑢ο蟮龋﹣順?gòu)造模型,。假定每一個樣本都有一個預(yù)先定義的類,,由一個被稱為類標(biāo)簽的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集,,這一步也稱作有指導(dǎo)的學(xué)習(xí),。 在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,,NBC) 決策樹模型通過構(gòu)造樹來解決分類問題,。首先利用訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹,一旦樹建立起來,,它就可為未知樣本產(chǎn)生一個分類,。優(yōu)點:決策樹便于使用,而且高效,;根據(jù)決策樹可以很容易地構(gòu)造出規(guī)則,,而規(guī)則通常易于解釋和理解;決策樹可很好滴擴(kuò)展到大型數(shù)據(jù)庫中,,同時它的大小獨立于數(shù)據(jù)庫的大?。豢梢詫τ性S多屬性的數(shù)據(jù)集構(gòu)造決策樹,。缺點:處理缺失數(shù)據(jù)時的困難,,過度擬合問題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等,。 NBC發(fā)源于古典數(shù)學(xué)理論,,有著堅實的數(shù)學(xué)技術(shù),以及穩(wěn)定的分類效率,。同時,,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,,算法也比較簡單,。理論上,NBC模型與其他分類方法相比具有最小的誤差率,。但是實際上并非總是如此,,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,,這給NBC模型的正確分類帶來了一定影響,。 解決這個問題的方法一般是建立一個屬性模型,對于不相互獨立的屬性,,把他們單獨處理,。例如中文文本分類識別的時候,,我們可以建立一個字典來處理一些詞組。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性,,那么就單獨處理,。 這樣做也符合貝葉斯概率原理,因為我們把一個詞組看作一個單獨的模式,,例如英文文本處理一些長度不等的單詞,,也都作為單獨獨立的模式進(jìn)行處理,這事自然語言與其他分類識別問題的不同點,。 在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,,NBC模型的分類效率比不上決策樹模型。但這點有待驗證,,因為具體的問題不同,,算法得出的結(jié)果不同,同一個算法對于同一個問題,,只要模式發(fā)生變化,,也存在不同的識別性能。 決策樹對于文本分類識別,,要看具體情況,。在屬性相關(guān)性較小時,NBC模型的性能稍微為良好,。屬性相關(guān)性較小時候,,其他的算法性能也很好,這是由于信息熵理論決定的,。 |
|