本文節(jié)選自黃昌寧老師和趙海博士在07年第3期《中文信息學(xué)報(bào)》上發(fā)表的《中文分詞十年回顧》,,旨在介紹目前比較流行的基于字標(biāo)注的中文分詞方法。
在2002年之前,,自動(dòng)分詞方法基本上是基于詞(或詞典)的,,在此基礎(chǔ)上可進(jìn)一步分成基于規(guī)則和基于統(tǒng)計(jì)的兩大類。第一篇基于字標(biāo)注(Character-based Tagging)的分詞論文發(fā)表在2002年第一屆SIGHAN研討會(huì)上,,當(dāng)時(shí)并未引起學(xué)界的重視,。一年后,,Xue在最大熵(Maximum Entropy,ME)模型上實(shí)現(xiàn)的基于字的分詞系統(tǒng)參加了Bakeoff-2003的評(píng)測(cè),,在As語(yǔ)料庫(kù)的封閉測(cè)試項(xiàng)目上獲得第二名),,然而其OOV 召回率Roov(0.729)卻位居榜首。Xue還在CityU語(yǔ)料庫(kù)的封閉測(cè)試中獲得第三名,,其Roov(0.670)仍然是該項(xiàng)比賽中最高的,。盡管在Bakeoff2003中各種分詞技術(shù)的優(yōu)劣尚難分仲伯,但既然未登錄詞對(duì)分詞精度的影響比分詞歧義至少大5倍以上,,我們自然看好這種能獲致最高OOV召回的分詞方法,。這一預(yù)測(cè)果然在Bakeoff2005上得到了證實(shí)。
基于字標(biāo)注的分詞系統(tǒng)在Bakeoff-2005上嶄露頭角,。其中Low的系統(tǒng)采用最大熵模型,,在四項(xiàng)開(kāi)放測(cè)試中奪得三項(xiàng)冠軍(AS,CityU,,PKU)和一項(xiàng)亞軍(MSRA),。Tseng的系統(tǒng)采用條件隨機(jī)場(chǎng)模型,在四項(xiàng)封閉測(cè)試中取得兩項(xiàng)冠軍(CityU,, MSRA),、一項(xiàng)亞軍(PKU)和一項(xiàng)季軍(AS)。到了Bakeoff-2006,,基于字的分詞系統(tǒng)已遍地開(kāi)花,。其中,筆者用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)的基于字標(biāo)注的分詞系統(tǒng),,在參加的六項(xiàng)分詞評(píng)測(cè)中,,奪得四個(gè)第一(CityU開(kāi)放,As開(kāi)放,,As封閉,,CTB封閉)和兩個(gè)第三(CTB開(kāi)放,CityU封閉),。
以往的分詞方法,,無(wú)論是基于規(guī)則的還是基于統(tǒng)計(jì)的,一般都依賴于一個(gè)事先編制的詞表(詞典),。自動(dòng)分詞過(guò)程就是通過(guò)詞表和相關(guān)信息來(lái)做出詞語(yǔ)切分的決策,。與此相反,基于字標(biāo)注的分詞方法實(shí)際上是構(gòu)詞方法,。即把分詞過(guò)程視為字在字串中的標(biāo)注問(wèn)題,。由于每個(gè)字在構(gòu)造一個(gè)特定的詞語(yǔ)時(shí)都占據(jù)著一個(gè)確定的構(gòu)詞位置(即詞位),假如規(guī)定每個(gè)字最多只有四個(gè)構(gòu)詞位置:即B(詞首),,M (詞中),,E(詞尾)和S(單獨(dú)成詞),,那么下面句子(甲)的分詞結(jié)果就可以直接表示成如(乙)所示的逐字標(biāo)注形式:
(甲)分詞結(jié)果:/上海/計(jì)劃/N/本/世紀(jì)/末/實(shí)現(xiàn)/人均/國(guó)內(nèi)/生產(chǎn)/總值/五千美元/。
(乙)字標(biāo)注形式:上/B海/E計(jì)/B劃/E N/S 本/s世/B 紀(jì)/E 末/S 實(shí)/B 現(xiàn)/E 人/B 均/E 國(guó)/B 內(nèi)/E生/B產(chǎn)/E總/B值/E 五/B千/M 美/M 元/E ,。/S
首先需要說(shuō)明,,這里說(shuō)到的“字”不只限于漢字??紤]到中文真實(shí)文本中不可避免地會(huì)包含一定數(shù)量的非漢字字符,,本文所說(shuō)的“字”,也包括外文字母,、阿拉伯?dāng)?shù)字和標(biāo)點(diǎn)符號(hào)等字符,。所有這些字符都是構(gòu)詞的基本單元。當(dāng)然,,漢字依然是這個(gè)單元集合中數(shù)量最多的一類字符。
把分詞過(guò)程視為字的標(biāo)注問(wèn)題的一個(gè)重要優(yōu)勢(shì)在于,,它能夠平衡地看待詞表詞和未登錄詞的識(shí)別問(wèn)題,。在這種分詞技術(shù)中,文本中的詞表詞和未登錄詞都是用統(tǒng)一的字標(biāo)注過(guò)程來(lái)實(shí)現(xiàn)的,。在學(xué)習(xí)架構(gòu)上,,既可以不必專門(mén)強(qiáng)調(diào)詞表詞信息,也不用專門(mén)設(shè)計(jì)特定的未登錄詞(如人名,、地名,、機(jī)構(gòu)名)識(shí)別模塊。這使得分詞系統(tǒng)的設(shè)計(jì)大大簡(jiǎn)化,。在字標(biāo)注過(guò)程中,,所有的字根據(jù)預(yù)定義的特征進(jìn)行詞位特性的學(xué)習(xí),獲得一個(gè)概率模型,。然后,,在待分字串上,根據(jù)字與字之間的結(jié)合緊密程度,,得到一個(gè)詞位的標(biāo)注結(jié)果,。最后,根據(jù)詞位定義直接獲得最終的分詞結(jié)果,??偠灾谶@樣一個(gè)分詞過(guò)程中,,分詞成為字重組的簡(jiǎn)單過(guò)程,。然而這一簡(jiǎn)單處理帶來(lái)的分詞結(jié)果卻是令人滿意的。
注:轉(zhuǎn)載請(qǐng)注明出處“我愛(ài)自然語(yǔ)言處理”:www.
本文鏈接地址:http://www./the-character-based-tagging-method-of-chinese-word-segmentation
|