基于向量空間模型的文本聚類算法

pengx 2013-02-26

展開全文

1 文本聚類研究現(xiàn)狀

Internet 已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫和全球范圍內(nèi)傳播信息最主要的渠道。隨著 Internet 的大規(guī)模普及和企業(yè)信息化程度的提高，各種資源呈爆炸式增長,。在中國互聯(lián)網(wǎng)絡(luò)信息中心 (CNNIC)2007 年 1 月最新公布的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告中顯示,， 70.2% 的網(wǎng)絡(luò)信息均以文本形式體現(xiàn)。對于這種半結(jié)構(gòu)或無結(jié)構(gòu)化數(shù)據(jù),，如何從中獲取特定內(nèi)容的信息和知識成為擺在人們面前的一道難題。近年來,，文本挖掘,、信息過濾和信息檢索等方面的研究出現(xiàn)了前所未有的高潮。

作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,，聚類技術(shù)可以將大量文本信息組成少數(shù)有意義的簇,，并提供導(dǎo)航或瀏覽機(jī)制。

文本聚類的主要應(yīng)用點包括：

(1) 文本聚類可以作為多文檔自動文摘等自然語言處理應(yīng)用的預(yù)處理步驟,。其中比較典型的例子是哥倫比亞大學(xué)開發(fā)的多文檔自動文摘系統(tǒng) Newsblaster[1] ,。該系統(tǒng)將新聞進(jìn)行

聚類處理，并對同主題文檔進(jìn)行冗余消除,、信息融合,、文本生成等處理，從而生成一篇簡明扼要的摘要文檔,。

(2) 對搜索引擎返回的結(jié)果進(jìn)行聚類,，使用戶迅速定位到所需要的信息。比較典型的系統(tǒng)有 Infonetware Real Term Search ,。 Infonetware 具有強(qiáng)大的對搜索結(jié)果進(jìn)行主題分類的功能,。另外，由 Carrot Search 開發(fā)的基于 Java 的開源 Carrot2 搜索結(jié)果聚合聚類引擎 2.0 版也是這方面的利用,， Carrot2 可以自動把自然的搜索結(jié)果歸類 ( 聚合聚類 ) 到相應(yīng)的語義類別中,，提供基于層級的、同義的以及標(biāo)簽過濾的功能,。

(3) 改善文本分類的結(jié)果,，如俄亥俄州立大學(xué)的 Y.C.Fang 等人的工作 [2] 。

(4) 文檔集合的自動整理,。如 Scatter/Gather[3] ,，它是一個基于聚類的文檔瀏覽系統(tǒng)。

2 文本聚類過程

文本聚類主要依據(jù)聚類假設(shè)：同類的文檔相似度較大,，非同類的文檔相似度較小,。作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法，聚類由于不需要訓(xùn)練過程,、以及不需要預(yù)先對文檔手工標(biāo)注類別,，因此具有較高的靈活性和自動化處理能力，成為對文本信息進(jìn)行有效組織、摘要和導(dǎo)航的重要手段,。文本聚類的具體過程如圖 1 所示,。

圖 1 文本聚類過程

2.1 文本信息的預(yù)處理

文本聚類的首要問題是如何將文本內(nèi)容表示成為數(shù)學(xué)上可分析處理的形式，即建立文本特征,，以一定的特征項 ( 如詞條或描述 ) 來代表目標(biāo)文本信息,。要建立文本信息的文本特征，常用的方法是：對文本信息進(jìn)行預(yù)處理 ( 詞性標(biāo)注,、語義標(biāo)注 ) ,，構(gòu)建統(tǒng)計詞典，對文本進(jìn)行詞條切分,，完成文本信息的分詞過程,。

2.2 文本信息特征的建立

文本信息的特征表示模型有多種，常用的有布爾邏輯型,、向量空間型,、概率型以及混合型等。其中,，向量空間模型 (Vector Space Model,VSM) 是近幾年來應(yīng)用較多且效果較好的方法之一 [4] ,。 1969 年， Gerard Salton 提出了向量空間模型 VSM ,，它是文檔表示的一個統(tǒng)計模型,。該模型的主要思想是：將每一文檔都映射為由一組規(guī)范化正交詞條矢量張成的向量空間中的一個點,。對于所有的文檔類和未知文檔,，都可以用此空間中的詞條向量（ T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）來表示 ( 其中,， Ti 為特征向量詞條,； Wi 為 Ti 的權(quán)重 )[5] ,。一般需要構(gòu)造一個評價函數(shù)來表示詞條權(quán)重,，其計算的唯一準(zhǔn)則就是要最大限度地區(qū)別不同文檔,。這種向量空間模型的表示方法最大的優(yōu)點在于將非結(jié)構(gòu)化和半結(jié)構(gòu)化的文本表示為向量形式，使得各種數(shù)學(xué)處理成為可能,。

2.3 文本信息特征集的縮減

VSM 將文本內(nèi)容表示成數(shù)學(xué)上可分析處理的形式,，但是存在的一個問題是文檔特征向量具有驚人的維數(shù)。因此,，在對文本進(jìn)行聚類處理之前,，應(yīng)對文本信息特征集進(jìn)行縮減。通常的方法是針對每個特征詞條的權(quán)重排序,，選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集,。選取的數(shù)目以及采用的評價函數(shù)都要針對具體問題來分析決定,。

降低文本特征向量維數(shù)的另一個方法是采用向量的稀疏表示方法。雖然文本信息特征集的向量維數(shù)非常大,，但是對于單個文檔,，絕大多數(shù)向量元素都為零，這一特征也決定了單個文檔的向量表示將是一個稀疏向量,。為了節(jié)省內(nèi)存占用空間,，同時加快聚類處理速度，可以采用向量的稀疏表示方法,。假設(shè)確定的特征向量詞條的個數(shù)為 n ，傳統(tǒng)的表示方法為而（ T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）稀疏表示方法為 (D 1 ,W1 ,D2 ,W2 ,Dp ,…,Wp , n)(Wi ≠ 0) ,。其中， Di 為權(quán)重不為零的特征向量詞條,； Wi 為其相應(yīng)權(quán)重,； n 為向量維度。這種表示方式大大減小了內(nèi)存占用,，提升了聚類效率,，但是由于每個文本特征向量維數(shù)不一致，一定程度上增加了數(shù)學(xué)處理的難度,。

2.4 文本聚類

在將文本內(nèi)容表示成數(shù)學(xué)上可分析處理的形式后,，接下來的工作就是在此數(shù)學(xué)形式的基礎(chǔ)上，對文本進(jìn)行聚類處理,。文本聚類主要有 2 種方法：基于概率 [6] 和基于距離 [7] ,。基于概率的方法以貝葉斯概率理論為基礎(chǔ),，用概率的分布方式描述聚類結(jié)果,。基于距離的方法,，就是以特征向量表示文檔,，將文檔看成向量空間中的一個點，通過計算點之間的距離進(jìn)行聚類,。

目前,，基于距離的文本聚類比較成熟的方法大致可以分為 2 種類型：層次凝聚法和平面劃分法。

對于給定的文件集合 D ={d1 , d 2 ,…,di ,…, dn } ,，層次凝聚法的具體過程如下：

(1) 將 D 中的每個文件 di 看成一個具有單個成員的簇 ci ={di } ,，這些簇構(gòu)成了 D 的一個聚類 C={c1 ,c2 ,…,ci ,…,cn };

(2) 計算 C 中每對簇 (ci ,cj ) 之間的相似度 sim{ ci ,cj } ；

(3) 選取具有最大相似度的簇對 (ci ,cj ) 將 ci 和 cj 合并為一個新的簇 ck =sim ci ∪ cj ,，從而構(gòu)成了 D 的一個新的聚類 C =(c1 , c 2 ,…,cn-1 );

(4) 重復(fù)上述步驟,，直至 C 中剩下一個簇為止。該過程構(gòu)造出一棵生成樹,，其中包含了簇的層次信息以及所有簇內(nèi)和簇間的相似度,。對于給定的文件集合 {}

D ={d1 , d2 ,…,di ,…, dn } ,，平面劃分法的具體過程如下：

(1) 確定要生成簇的數(shù)目 k ；

(2) 按照某種原則生成 k 個聚類中心作為聚類的種子 S=(s1 ,s2 ,…,si ,…,sk );

(3) 對 D 中的每個文件 di ,，依次計算它與各個種子 sj 的相似度 sim (di ,sj );

(4) 選取具有最大相似度的種子，將 di 歸入以 sj 為聚類中心的簇 cj ,，從而得到 D 的一個聚類 C ={ci ,cj }

(5) 重復(fù)此步驟若干次,，以得到較為穩(wěn)定的聚類結(jié)果,。這 2 種類型各有優(yōu)缺點。層次凝聚法能夠生成層次化的嵌套簇,，準(zhǔn)確度較高,。但在每次合并時,，需要全局地比較所有簇之間的相似度，并選出最佳的 2 個簇,，因此執(zhí)行速度較慢，不適合大量文件的集合,。而平面劃分法相對來說速度較快,，但是必須事先確定 k 的取值，且種子選取的好壞對群集結(jié)果有較大影響,。

綜合考慮這 2 種聚類類型的優(yōu)缺點,，本文提出了一種基于向量空間模型的文本聚類的改進(jìn)方法—— LP 算法,。具體過程如下：

對于給定的文件集合 D ={d1 , d 2 ,…,di ,…, dn }:

(1) 將 D 中的每個文件 di 看作是一個具有單個成員的簇 ci ={di } ；

(2) 任選其中一單個成員簇 ci 作為聚類的起點,；

(3) 在其余未聚類的樣本中,，找到與 ci 距離滿足條件的 dj ( 可以是與 ci 距離最近的點,，即相似度 sim (c i ,dj ) 最大的 dj ，也可以是與 ci 距離不超過閾值 d 的點,，即相似度 sim (ci ,dj ) ≥ d 的任意 dj ) ,。將 dj 歸入 ci 形成一個新的簇 ck =sim ci ∪ dj ;

(4) 重復(fù)步驟 (3) ，直至與 ci 距離最近的 dk 與 ci 之間的距離超過閾值 d ,，此時認(rèn)為已經(jīng)聚完了一類,；

(5) 選擇一個未聚類的單個成員簇，重復(fù)步驟 (3) 和步驟 (4) ,，開始新的一輪聚類,，直至所有的單個成員簇 ci 都參與了聚類。

LP 算法不需要比較所有簇之間的相似度,，執(zhí)行速度較快,，適合大量文件的集合，實用性更高,。同時，在聚類過程中不需要事先確定 k 的取值,，降低了與領(lǐng)域知識的依賴性,，提高了靈活性,。

3 實驗設(shè)計

本文采用搜狐研發(fā)中心搜狗實驗室的互聯(lián)網(wǎng)語料鏈接關(guān)系庫 SOGOU-T 。該關(guān)系庫提供了一個大規(guī)?；ヂ?lián)網(wǎng)鏈接關(guān)系對應(yīng)表，用于驗證各種鏈接關(guān)系分析算法的有效性與可行性,。語料關(guān)系庫中的數(shù)據(jù)分為 10 大類 (C000007 汽車,， C000008 財經(jīng)， C000010 IT ,， C000013 健康,， C000014 體育， C000016 旅游,， C000020 教育,， C000022 招聘， C000023 文化,， C000024 軍事 ) ,。語料關(guān)系庫可供下載的共有 3 個版本： Mini 版，精簡版,，完整版。本文使用前 2 個版本進(jìn)行實驗,。語料庫的組織方式如下：為 10 個大類各建立 1 個文件夾,，在每個文件夾中，每 1 份語料自成 1 個 .txt 文件,。

實驗過程如下：

(1) 將所有文件夾下的 .txt 文件隨機(jī)連結(jié)成一個大的完整文件，同時保留 .txt 文件的所屬類別 ( 本實驗保留了類別的最后 2 位： 07,08, … ) ,。

(2) 采用中國科學(xué)院計算技術(shù)研究所數(shù)字化室 & 軟件室發(fā)布的中文自然語言處理開放平臺漢語詞法分析系統(tǒng) ICTCLAS ,。利用 ICTCLAS_Win ，將 (1) 中的文件進(jìn)行一級標(biāo)注的詞語切分,。

(3) 統(tǒng)計標(biāo)注好的切分詞語的詞頻,。

(4) 按照權(quán)重 ( 詞頻 ) 的大小整理切分詞語，并保留權(quán)重超過一定限定值 ( 閾值 ) 的特征項,。 ( 本實驗保留了詞頻大于 100 的詞語作為特征項 ) 同時,，根據(jù)漢語的特點，在實驗中設(shè)計了 2 種情況,，以分析比較詞性對于聚類效果的影響：

1) 所有類型的詞語都參與聚類,；

2) 只保留被標(biāo)注為名詞的詞語。

(5) 根據(jù) (4) 中確定的切分詞語構(gòu)造空間向量的基向量,，同時確定空間向量的維數(shù)等參數(shù),。

(6) 將語料庫中的每一份語料文件 (.txt 文件 ) 都表示為一個空間向量。在實驗過程中,，采用了如下 2 種表示方法：

1) 傳統(tǒng)的空間向量表示方法： (T 1 ,W 1 ,T2 , W2 ,…, T n ,Wn ) ,；

2) 稀疏的空間向量表示方法： (D 1 ,W 1 ,D2 , W2 ,…,D p ,Wp ,n) 。

(7) 聚類：聚類過程是實驗的重點,，也是目標(biāo)所在,。

1) 在開始聚類前，首先對 (6) 中已經(jīng)表示好的文本空間向量做歸一化處理,。向量歸一化在模式識別中是很重要的一環(huán),，其目的是把事件的統(tǒng)計分布概率統(tǒng)一歸納在 0-1 灰色聚類的隸屬性上,，這樣，聚類過程對于每一個空間向量的敏感度都是一樣的,。

傳統(tǒng)空間向量：
,

其中 :
;

稀疏空間向量：

其中
http://edu./uploadfile/2009/0910/20090910100906272.jpg

2) 在實驗中,，采用歐幾里德距離來表示任意 2 個文本向量之間的距離。

稀疏空間向量：計算方法與傳統(tǒng)空間向量類似,，計算相同詞條之間距離平方和的算術(shù)平方根,。

3)LP 算法要求預(yù)先確定閾值。實驗中,，采取的閾值策略是：制定初始閾值 ( 即針對單個成員簇的閾值,，此閾值根據(jù)實驗效果多次調(diào)整 ) ，當(dāng) 2 個簇合并為 1 個簇時,，新簇的閾值由合并算法根據(jù)被合并簇的聚類特征求出,。

2 個簇進(jìn)行合并，其特征向量分別為 X=(T1 ,x1 ,T 2 ,x2 ,…,Tn ,Xn ),Y=(T1 ,y1 , T2 , y 2 ,…,Tn , yn ) ,，則組成的新簇的特征向量為

合并定理：假定對 2 個簇進(jìn)行合并,，合并后的簇的閾值表示為

其中， dist 指 2 個特征向量之間的距離,。

4 數(shù)據(jù)分析

實驗中對于本文提到的 3 種聚類方式都有涉及,，對于它們的優(yōu)劣在實驗層面上做了研究比對。

A ：所有類型的詞語都用于構(gòu)建空間向量,；

B ：只采用名詞構(gòu)建空間向量,；

C ：采用傳統(tǒng)的空間向量表示方法；

D ：采用稀疏的空間向量表示方法,。

Mini 版 (SogouC.mini.20061102) ：共 100 篇文檔,，每個類別 10 篇,。

精簡版 (SogouC.reduced.20061102) ：共 10 020 篇文檔,，每個類別 1 002 篇。

表 1 是實驗結(jié)果,。其中,， t(time) 表示聚類消耗時間，單位為 ms ,； a(accuracy) 表示聚類準(zhǔn)確度,。聚類消耗的時間依賴于執(zhí)行的具體狀況，因而有一定的差異,。表中所取的數(shù)據(jù)是排除突變數(shù)據(jù) ( 即壞數(shù)據(jù) ) 之后,，多次實驗結(jié)果的平均值。

表 1 聚類實驗效果

對實驗結(jié)果進(jìn)行分析,，可以總結(jié)出以下 5 點：

(1) 對于精簡版的聚類,， 3 種方法的效果都優(yōu)于 Mini 版,。這是因為，精簡版的基礎(chǔ)數(shù)據(jù)量較大,，個別的突變數(shù)據(jù)對于聚類效果的影響就相對較小,。

(2) 采用稀疏向量表示法之后，聚類的時間消耗減少了約 4/5 ,，表明對于高維向量采用其稀疏表示可以有效地節(jié)省內(nèi)存占用空間,，加快聚類處理速度。

(3) 相較于層次聚類,， LP 算法在時間消耗上下降了約 30% ,，因此，對于數(shù)據(jù)量較大,，實時性要求較高的場合,，由于有效地減少了消耗時間， LP 算法還是顯示出了它的優(yōu)勢,。

(4) 相較于平面劃分法,， LP 算法在聚類的準(zhǔn)確性上提高了 11%~13% ，達(dá)到了 77%~83% ,，從而保證了聚類的準(zhǔn)確度在可接受的范圍之內(nèi),。

(5) 本次實驗中， LP 算法在聚類準(zhǔn)確性上略遜于層次法,，筆者認(rèn)為這主要是因為：層次法的主要思想是全局最優(yōu),，每次聚為一個簇的 2 個成員之間的相似度都是最大的，而在 LP 算法中,，決定將 2 個成員歸為一類的唯一衡量就是閾值 d ,。閾值選取的好壞對于實驗效果的影響非常大。因此,，如何選取閾值的初始值以及在聚類過程中如何動態(tài)地調(diào)整閾值是下一步的主要工作,。

5 結(jié)束語

文本聚類在文本模式識別中占有重要的地位，這也是本文研究的價值所在,。本文分析了基于距離的文本聚類中比較成熟的 2 種方法：層次凝聚法和平面劃分法,，并提出了一種改進(jìn)方法 LP 。從實驗效果上看,， LP 算法速度更快,，靈活性也更高。在后續(xù)的工作中,，還將進(jìn)一步在實驗的基礎(chǔ)上對算法進(jìn)行反復(fù)修正和拓展,，以達(dá)到更好的聚類和實用效果。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： pengx > 《IT相關(guān)》

舉報/認(rèn)領(lǐng)