中文文本分類
概況介紹中文文本自動分類是自然語言處理的經(jīng)典研究方向,,有著極其重要的應(yīng)用價值。文本分類的核心技術(shù)為構(gòu)建一個具有高準(zhǔn)確度和較高速度的分類器,,高效率的分類器才能具有實用性,。目前構(gòu)建分類器的方法有貝葉斯分類算法、K緊鄰(K-NN),、決策樹,、線性最小二乘法估計(LLSF)、支持向量機(jī)(SVM)等,,其中K-NN和SVM是基于向量空間模型(VSM)的最好的分類器,,我們采用的SVM更是具有其他算法所不具備的優(yōu)點,通過實驗也證明了SVM能獲得更好的分類性能,。分類問題是自然語言處理的一個基本問題,,很多相關(guān)的研究都可以歸結(jié)為分類問題。自動分類在信息檢索,、圖書館管理和網(wǎng)頁新聞體系劃分都有重要應(yīng)用,。體系結(jié)構(gòu)文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動地確定文本關(guān)聯(lián)的類別,。從數(shù)學(xué)角度來看,,文本分類是一個映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,,該映射可以是一一映射,,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關(guān)聯(lián),。 我們可以把分類過程分成2個部分:訓(xùn)練過程和分類過程: 在2004年舉行的863分類評測中,,我們系統(tǒng)在最短時間內(nèi)最快完成測試,表現(xiàn)出極高的效率和穩(wěn)定性,,在10多家參加單位中處于中游水平,。歷經(jīng)2年不斷改進(jìn),在14類新聞分類體系中準(zhǔn)確率達(dá)到80%,,基本達(dá)到實用水平。 系統(tǒng)功能1)較快的訓(xùn)練和測試過程,。2)根據(jù)不同用戶需求,,可以便捷地更改分類體系,。 3)在Windows和Linux下都可以運(yùn)行。 4)支持單一文本即時分類和成批量文本同時分類,。 技術(shù)特點我們使用的方法基于類別特征域的文本分類特征選擇方法,。該方法首先利用“組合特征抽取”的方法去除原始特征空間中的噪音,從中抽取出候選特征,。這里,,“組合特征抽取”是指先利用文檔頻率(DF)的方法去掉一部分低頻詞,再用互信息的方法選擇出候選特征,。接下來,,本方法為分類體系中的每個類別構(gòu)建一個類別特征域,對出現(xiàn)在類別特征域中的候選特征進(jìn)行特征的合并和強(qiáng)化,,從而解決數(shù)據(jù)稀疏的問題,。實驗表明,這種新的方法較之各種傳統(tǒng)方法在特征選擇的效果上有著明顯改善,,并能顯著提高文本分類系統(tǒng)的性能,。性能指標(biāo)在2004年舉行的863分類評測中,我們系統(tǒng)在最短時間內(nèi)最快完成測試,,表現(xiàn)出很高的效率和穩(wěn)定性,,準(zhǔn)確率和招回率在10多家參加評測單位中名次位于中游。歷經(jīng)2年不斷改進(jìn),,在11個類別的新聞分類體系中準(zhǔn)確率達(dá)到80%以上,,基本達(dá)到實用水平。目前我們的系統(tǒng)對常用的11個類別進(jìn)行測試的具體指標(biāo):
應(yīng)用領(lǐng)域1,、信息檢索2,、新聞即時分類 3、詞義消歧 4,、圖書館管理系統(tǒng) |
|