中文文本分類 - 哈爾濱工業(yè)大學(xué)信息檢索研究室

素行 2007-06-26

展開全文

中文文本分類

概況介紹

中文文本自動分類是自然語言處理的經(jīng)典研究方向,，有著極其重要的應(yīng)用價值。文本分類的核心技術(shù)為構(gòu)建一個具有高準(zhǔn)確度和較高速度的分類器,，高效率的分類器才能具有實用性,。目前構(gòu)建分類器的方法有貝葉斯分類算法、K緊鄰（K-NN）,、決策樹,、線性最小二乘法估計(LLSF)、支持向量機(jī)（SVM）等,，其中K-NN和SVM是基于向量空間模型（VSM）的最好的分類器,，我們采用的SVM更是具有其他算法所不具備的優(yōu)點，通過實驗也證明了SVM能獲得更好的分類性能,。分類問題是自然語言處理的一個基本問題,，很多相關(guān)的研究都可以歸結(jié)為分類問題。自動分類在信息檢索,、圖書館管理和網(wǎng)頁新聞體系劃分都有重要應(yīng)用,。

體系結(jié)構(gòu)

文本分類系統(tǒng)的任務(wù)是：在給定的分類體系下，根據(jù)文本的內(nèi)容自動地確定文本關(guān)聯(lián)的類別,。從數(shù)學(xué)角度來看,，文本分類是一個映射的過程，它將未標(biāo)明類別的文本映射到已有的類別中,，該映射可以是一一映射,，也可以是一對多的映射，因為通常一篇文本可以同多個類別相關(guān)聯(lián),。

我們可以把分類過程分成2個部分：訓(xùn)練過程和分類過程：

中文文本分類_體系結(jié)構(gòu)

在2004年舉行的863分類評測中,，我們系統(tǒng)在最短時間內(nèi)最快完成測試，表現(xiàn)出極高的效率和穩(wěn)定性,，在10多家參加單位中處于中游水平,。歷經(jīng)2年不斷改進(jìn)，在14類新聞分類體系中準(zhǔn)確率達(dá)到80%,，基本達(dá)到實用水平。

系統(tǒng)功能

1）較快的訓(xùn)練和測試過程,。

2）根據(jù)不同用戶需求,，可以便捷地更改分類體系,。

3）在Windows和Linux下都可以運(yùn)行。

4）支持單一文本即時分類和成批量文本同時分類,。

技術(shù)特點

我們使用的方法基于類別特征域的文本分類特征選擇方法,。該方法首先利用“組合特征抽取”的方法去除原始特征空間中的噪音，從中抽取出候選特征,。這里,，“組合特征抽取”是指先利用文檔頻率(DF)的方法去掉一部分低頻詞，再用互信息的方法選擇出候選特征,。接下來,，本方法為分類體系中的每個類別構(gòu)建一個類別特征域，對出現(xiàn)在類別特征域中的候選特征進(jìn)行特征的合并和強(qiáng)化,，從而解決數(shù)據(jù)稀疏的問題,。實驗表明，這種新的方法較之各種傳統(tǒng)方法在特征選擇的效果上有著明顯改善,，并能顯著提高文本分類系統(tǒng)的性能,。

性能指標(biāo)

在2004年舉行的863分類評測中，我們系統(tǒng)在最短時間內(nèi)最快完成測試,，表現(xiàn)出很高的效率和穩(wěn)定性,，準(zhǔn)確率和招回率在10多家參加評測單位中名次位于中游。歷經(jīng)2年不斷改進(jìn),，在11個類別的新聞分類體系中準(zhǔn)確率達(dá)到80%以上,，基本達(dá)到實用水平。

目前我們的系統(tǒng)對常用的11個類別進(jìn)行測試的具體指標(biāo)：

類別	準(zhǔn)確率	招回率	F值
財經(jīng)	0.725526	0.792208	0.757402
房產(chǎn)	0.911090	0.871912	0.891071
汽車	0.900372	0.925359	0.912695
旅游	0.677174	0.692222	0.684615
體育	0.960980	0.955776	0.958371
教育	0.858624	0.844300	0.851402
生活	0.670659	0.640000	0.654971
科技	0.821463	0.823026	0.822243
游戲	0.930732	0.936212	0.933464
娛樂	0.913690	0.921922	0.917788
軍事	0.927310	0.891218	0.908906
微平均值	0.845238	0.844923	0.844811

應(yīng)用領(lǐng)域

1,、信息檢索

2,、新聞即時分類

3、詞義消歧

4,、圖書館管理系統(tǒng)

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：素行 > 《信息處理》

舉報/認(rèn)領(lǐng)