久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

機(jī)器學(xué)習(xí)與自然語(yǔ)言處理

 石開九穴新聞學(xué) 2020-11-19

一,、 引言<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

隨著大規(guī)模語(yǔ)料庫(kù)的建設(shè)和各種語(yǔ)言知識(shí)庫(kù)的出現(xiàn),基于語(yǔ)料庫(kù)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法進(jìn)入自然語(yǔ)言處理的視野,。多種機(jī)器學(xué)習(xí)方法應(yīng)用到自然語(yǔ)言處理中來(lái)并取得了良好的效果,,促進(jìn)了自然語(yǔ)言處理技術(shù)的發(fā)展,。然而,自然語(yǔ)言處理領(lǐng)域仍然有許多課題尚待探索,,為機(jī)器學(xué)習(xí)的研究與應(yīng)用提供了廣闊的舞臺(tái),。
本文較系統(tǒng)地介紹了自然語(yǔ)言處理中廣泛存在的歧義現(xiàn)象的類型、實(shí)例和問(wèn)題,,并提供了我們利用機(jī)器學(xué)習(xí)方法解決其中一些問(wèn)題的實(shí)例,。本文還引出文學(xué)語(yǔ)言對(duì)機(jī)器學(xué)習(xí)的挑戰(zhàn)性課題,其目的是期望更多的機(jī)器學(xué)習(xí)專家關(guān)注自然語(yǔ)言處理領(lǐng)域中的問(wèn)題,,共同努力,,使自然語(yǔ)言處理技術(shù)朝自然語(yǔ)言理解的方向不斷前進(jìn)。

 

二,、自然語(yǔ)言處理的主攻方向

自然語(yǔ)言處理的流程可以劃分為分析和生成兩大部分,。自然語(yǔ)言生成固然也有很多難題,但幾十年來(lái),,自然語(yǔ)言處理研究的重點(diǎn)是分析,。自然語(yǔ)言分析的關(guān)鍵就是識(shí)別與消解自然語(yǔ)言的歧義。人與人的交流由于有共同的知識(shí)背景,,并且能領(lǐng)會(huì)交流的環(huán)境和過(guò)程,,通常不會(huì)產(chǎn)生誤解。但是,,作為語(yǔ)言學(xué)研究對(duì)象的任何一個(gè)語(yǔ)言單位,,如詞、短語(yǔ)和句子等,,如果脫離語(yǔ)境而孤立存在,,通常都是有歧義的。當(dāng)交流在人和機(jī)器之間進(jìn)行時(shí),,由于機(jī)器尚不具備“背景知識(shí)”和“世界知識(shí)”,,歧義現(xiàn)象就表現(xiàn)得尤為突出。
漢語(yǔ)信息處理很難回避的一個(gè)步驟就是把用漢字序列書寫的句子切分為詞的序列或者說(shuō)從句子中辨識(shí)出詞,。在這個(gè)最基本的步驟中,,就存在大量的歧義。例如,,僅“白天鵝”這3個(gè)漢字組成的序列就存在歧義:是“白/天鵝/”還是“白天//”,?如果這3個(gè)字的序列落在更長(zhǎng)的漢字序列中,歧義就可能得以消解,。
白天鵝飛過(guò)來(lái)了——/天鵝//過(guò)來(lái)//  (因?yàn)轾Z不會(huì)飛)
白天鵝可以看家——白天//可以//(家里通常不會(huì)養(yǎng)天鵝)
人如何消解歧義呢,?當(dāng)然是根據(jù)業(yè)已掌握的知識(shí)。也可以把這些知識(shí)教授給計(jì)算機(jī),,存儲(chǔ)在知識(shí)庫(kù)中,,計(jì)算機(jī)據(jù)此也可以消解這樣的歧義,。但如果“白天鵝”落在“白天鵝在湖里游泳”中,僅依靠存儲(chǔ)在人腦或電腦中的靜態(tài)知識(shí),,是不能判定句中的“白天鵝”這3個(gè)字應(yīng)該如何切分的,,必須依賴更大的上下文語(yǔ)境。

 

* 本文相關(guān)研究得到國(guó)家 973 課題“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)( 2004CB318102 )”,、國(guó)家自然科學(xué)基金( 60773173 ,, 60603093 60503071 ),、國(guó)家博士后基金( 20060400027 )和江蘇省社會(huì)科學(xué)基金( 06JSBYY001 )的支持,。

 

動(dòng)物園里,白天鵝在湖里游泳,?!?jiǎng)游飯@////天鵝////游泳/,。/
白天鵝在湖里游泳,,夜晚青蛙在池邊鳴唱。
——白天/////游泳/,,/夜晚/青蛙////鳴唱/,。/
詞語(yǔ)切分確定下來(lái)之后,還有歧義,。見下例: 
老子不在家——老子//// 
這里的“老子”如果讀“lao3zi<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" />3,,是指古代的人物;如果讀lao3zi”,,則可能指“父親”,或者指“自己”,。以上句子中“子”的讀音不同可以造成意義的不同,,而同音詞也會(huì)形成另外的歧義。下面幾個(gè)例子中“連”的讀音是一樣的,,但詞性不同(當(dāng)然,,詞義也不同):
    一個(gè)連有三個(gè)排——“連”是名詞,指軍隊(duì)的建制,;
我們兄弟心連心——“連”是動(dòng)詞,,“連接”的意思;
蘋果可以連皮吃——“連”是介詞,,“帶”的意思,。 
當(dāng)詞語(yǔ)切分和詞性標(biāo)注正確解決之后,還會(huì)面臨語(yǔ)句結(jié)構(gòu)的歧義,。
兩個(gè)孩子的母親——/m  個(gè)/q  孩子/n  /u  母親/n
              ——[ [  /m  個(gè)/q  孩子/n ]  /u  母親/n ]
              ——/m  個(gè)/q  [孩子/n  /u  母親/n ] ]
(m,q,n,u 分別是數(shù)詞,、量詞,、名詞,、助詞的代碼)
短語(yǔ)中各個(gè)詞的結(jié)合順序不同,,就構(gòu)成結(jié)構(gòu)不同的短語(yǔ),意義也就不一樣,。
再考察下面一組句子及其切分和詞性標(biāo)注的結(jié)果,,其切分,、標(biāo)注、語(yǔ)句結(jié)構(gòu)都無(wú)歧義:   
狗熊/n  /v  玉米/n                    
學(xué)生/n  /v  食堂/n                                     
民工/n  /v  大碗/n
顯然,,動(dòng)詞“吃”與其后面同是賓語(yǔ)的“玉米”,、“食堂”、“大碗”的語(yǔ)義關(guān)系是不一樣的:“玉米”是“吃”的受事(動(dòng)作所及的對(duì)象),,“食堂”是“吃”的處所,,“大碗”則是工具。又如,,同是述補(bǔ)結(jié)構(gòu)的“寫完了”,、“寫累了”、“寫滿了”,、“寫全了”中的補(bǔ)語(yǔ)“完,、累、滿,、全”的語(yǔ)義指向也是不一樣的:“書稿寫完了”,、“老師寫累了”、“紙寫滿了”,、“要點(diǎn)寫全了”,。這樣的語(yǔ)義指向問(wèn)題對(duì)于計(jì)算機(jī)理解來(lái)說(shuō)已經(jīng)非常困難了,但畢竟還可以根據(jù)上下文進(jìn)行分析,。而像對(duì)
天快要下雨了吧,?
這句話的意義的理解,則完全依賴說(shuō)這句話的人身份和當(dāng)時(shí)的心境:主人希望留客還是在下逐客令,。只有對(duì)說(shuō)話者的態(tài)度進(jìn)行揣度分析,,才能消解這種語(yǔ)境歧義。
除上述句子內(nèi)的切詞,、多音詞,、詞性、詞義,、句法結(jié)構(gòu),、語(yǔ)義角色等都有歧義現(xiàn)象外,其它語(yǔ)言求解問(wèn)題,諸如斷句(現(xiàn)代漢語(yǔ)盡管有標(biāo)點(diǎn)符號(hào),,確定句法和語(yǔ)義相對(duì)完整,、又不過(guò)長(zhǎng)的句子仍是難題)、指代,、省略也可歸結(jié)為歧義問(wèn)題,。
自然語(yǔ)言處理技術(shù)的進(jìn)步總是伴隨著計(jì)算機(jī)系統(tǒng)內(nèi)的知識(shí)庫(kù)的豐富和發(fā)展。然而,,人對(duì)知識(shí)的運(yùn)用并不局限于已經(jīng)知道的知識(shí)以及單純的機(jī)械計(jì)算或邏輯推理,,人還會(huì)靈活運(yùn)用舊知識(shí),從而創(chuàng)造出新知識(shí),。以下是筆者之一的親身經(jīng)歷,。
曾在飛機(jī)上閱讀《今日民航》(20019月號(hào))上一篇關(guān)于“沙漠化”的文章:“幾年前由于種植籽瓜有利可圖,使大批的種植者就到過(guò)渡帶來(lái)開墾,,……在這樣的綠洲和沙漠過(guò)渡帶開墾,,極易造成風(fēng)蝕。
刪節(jié)號(hào)代表略去的很長(zhǎng)的篇幅,。開始讀刪節(jié)號(hào)之前的第2句話,,就是讀不懂,朦朧地做了這樣的切分:“就”,、“就到”,、到”、“到過(guò)”,、“過(guò)渡”,、“帶”、“帶來(lái)”,、“來(lái)”,、“開墾”,總是感覺不連貫,。無(wú)奈,,也就放過(guò)去了。當(dāng)讀到刪節(jié)號(hào)后的那句話時(shí),,“過(guò)渡帶”這個(gè)新詞突然被發(fā)現(xiàn),而且很自然地聯(lián)想到前面那句未能理解的話,,現(xiàn)在也豁然理解了,。那時(shí)筆者第一次接觸“綠洲和沙漠過(guò)渡帶”這樣一個(gè)新概念,從前筆者的腦海中并沒(méi)有這樣的知識(shí),,卻突然獲取了這個(gè)知識(shí),,這種情況可不可以說(shuō)是“頓悟”?這種“頓悟”的機(jī)理,,計(jì)算機(jī)可以模擬嗎,?這一段由不懂到懂的文字顯然超出了“未定義詞”的范疇,,因?yàn)椤白压稀睂?duì)很多人和機(jī)器詞典來(lái)說(shuō)或許也是未定義詞,但似乎并不像“過(guò)渡帶”這個(gè)新概念那樣妨礙對(duì)文章的理解,。
讓計(jì)算機(jī)理解符合規(guī)則(詞法,、句法、語(yǔ)義)的自然語(yǔ)言的語(yǔ)句和文本已經(jīng)是十分困難的任務(wù),,不同語(yǔ)言單位的各種形態(tài)的歧義已經(jīng)讓研究者左支右絀,,力不從心。然而,,當(dāng)自然語(yǔ)言處理面對(duì)語(yǔ)言中的各種修辭手法時(shí),,又會(huì)遭遇什么樣的困難呢?

三,、文學(xué)語(yǔ)言對(duì)機(jī)器學(xué)習(xí)提出的挑戰(zhàn)

    記得一位語(yǔ)言學(xué)家W. Taubert 曾說(shuō)過(guò),,“自然語(yǔ)言是一套規(guī)則加噪聲”。這個(gè)命題如果不算是一條定律,,至少是一種看法,。
    哪些現(xiàn)象可以看作是噪聲?規(guī)則能反映形象思維的規(guī)律嗎,?這些問(wèn)題同樣難以界定,。
并非所有不合規(guī)則和常識(shí)的語(yǔ)句都是噪聲。在常識(shí)范圍內(nèi),,動(dòng)詞“吃”的客體或?qū)ο笸ǔJ鞘澄?。土塊不是食物。有報(bào)紙?jiān)d,,“中國(guó)河北省有個(gè)老太太吃土塊”,。顯然不能認(rèn)為這句違背常識(shí)的話是混在正常自然語(yǔ)言中的噪聲。
文學(xué)作品常常采用的一些表現(xiàn)手法更增加了自然語(yǔ)言理解的難度,,甚至超越了目前機(jī)器理解可能達(dá)到的界限,。而這些文學(xué)表現(xiàn)手法也不能簡(jiǎn)單地看作是自然語(yǔ)言的噪聲。

1 隱喻和影射

隱喻是修辭學(xué)的傳統(tǒng)研究?jī)?nèi)容,,運(yùn)用隱喻是為了提高語(yǔ)言表達(dá)效果,。作為一種修辭手段,隱喻可以歸于文學(xué)語(yǔ)言的范疇,,但從認(rèn)知語(yǔ)言學(xué)角度觀察,,隱喻無(wú)處不在,因此它又不限于文學(xué)語(yǔ)言的范疇,。認(rèn)知語(yǔ)言學(xué)甚至認(rèn)為“隱喻不僅僅是語(yǔ)言修辭手段,,而且是一種思維方式——隱喻概念體系。作為人們認(rèn)知、思維,、經(jīng)歷,、語(yǔ)言甚至行為的基礎(chǔ),隱喻是人類生存主要的和基本的方式[1],?!痹谟?jì)算語(yǔ)言學(xué)領(lǐng)域,特別是在漢語(yǔ)信息處理領(lǐng)域,,中國(guó)內(nèi)陸學(xué)者只是近年來(lái)才開始關(guān)注“隱喻”的識(shí)別和求解[2,3],。不過(guò),語(yǔ)言信息處理要走上自然語(yǔ)言理解的坦途,,隱喻是必須逾越的路障,。
首先探討隱喻和歧義的關(guān)系。歧義是指對(duì)同一個(gè)語(yǔ)言形式進(jìn)行分析或理解時(shí),,至少存在兩種不同的結(jié)果,。歧義消解就是對(duì)兩種以上的可能結(jié)果,在特定的語(yǔ)境中選擇其中的一種作為答案,。歧義的最終消解取決于語(yǔ)境,,需要語(yǔ)境分析。機(jī)器理解的困難是“由同辨異”,。
“這男人是狼”和“那女人是狐貍”這樣的話就是隱喻,。“男人是狼”本是違反生物分類學(xué)常識(shí)的,,而在自然語(yǔ)言中這種表現(xiàn)形式又是常見的,。隱喻符合人的認(rèn)知機(jī)制,說(shuō)話人利用了“男人”和“狼”的某種共同屬性構(gòu)成含有隱喻的句子,,比直接說(shuō)“男人如何如何”的表現(xiàn)力要豐富得多,,聽話人“異中求同”,也能夠理解說(shuō)話人想講什么,。對(duì)于機(jī)器來(lái)說(shuō),,“異中求同”和“由同辨異”一樣困難。隱喻也包含有歧義問(wèn)題,,“男人是狼”在不同的語(yǔ)境中也可能表達(dá)不同的意思,。又如,“男人都是動(dòng)物”表面上是符合常識(shí)的,,這句話在不同語(yǔ)境中有歧義,,在某個(gè)語(yǔ)境中,也可以作為隱喻,。隱喻和歧義的復(fù)雜關(guān)系及其界定還需要進(jìn)行深入的討論。 
可以根據(jù)包含隱喻的語(yǔ)言單位的大小將隱喻劃分為詞匯級(jí)、語(yǔ)句級(jí)和篇章級(jí),。
從詞匯級(jí)隱喻開始(以下涉及詞義,,均參照《現(xiàn)代漢語(yǔ)詞典》[4],但也有一些修改),。像“山頭”,、“墻腳”、“心田”,、“吹?!薄ⅰ奥恶R腳”,、“吹毛求疵”,、“雞蛋里挑骨頭”這樣一些些詞語(yǔ),都是借助隱喻形成的,。例如,,“山頭”有兩個(gè)義項(xiàng):山的最高處;②比喻獨(dú)霸一方的宗派,。②顯然是隱喻,。關(guān)于,這個(gè)“山頭”也是由隱喻形成的,,本體是“山(的最高處)”,,喻體是“(人)頭”。只是人們已經(jīng)習(xí)慣叫“山頭”,,詞典就不特別指明它是隱喻,。“山頭”在組成短語(yǔ)時(shí)又可以有進(jìn)一步的隱喻用法,,如“他這個(gè)人慣于壘山頭,,作風(fēng)不正派”。
只要詞典(或機(jī)器中的詞匯知識(shí)庫(kù))登錄了這些詞語(yǔ)的各種義項(xiàng)(包括本義或引申的隱喻義),,識(shí)別和理解這些詞語(yǔ)沒(méi)有特別的困難,,其求解技術(shù)同歧義消解沒(méi)有本質(zhì)的區(qū)別。詞匯級(jí)隱喻也在發(fā)展,。像“病毒”,、“窗口”、“垃圾”這些詞,,1996年版的《現(xiàn)代漢語(yǔ)詞典》的釋義都與計(jì)算機(jī)技術(shù)沒(méi)有關(guān)系,。由于計(jì)算機(jī)技術(shù)的普及,這些詞的新義在社會(huì)上的使用日益廣泛,。2005年版的《現(xiàn)代漢語(yǔ)詞典》增加了這些詞作為計(jì)算機(jī)詞匯的新義項(xiàng),。這些詞都是由隱喻形成的,,但把這些詞匯加入詞典后,對(duì)這些詞匯隱喻意義的識(shí)別就如同詞義消歧一樣,,沒(méi)有特別之處了,。
語(yǔ)句級(jí)的隱喻如:“金融風(fēng)暴”、“知識(shí)的海洋”,、“郎平是中國(guó)女排的鐵榔頭”,、“鐵榔頭(指郎平)的去向尚未敲定”、“幻想是詩(shī)人的翅膀”,,等等,。“詩(shī)人的翅膀”和“幻想是翅膀”已經(jīng)是隱喻的表現(xiàn)形式,“幻想是詩(shī)人的翅膀”則是雙重隱喻,。
“風(fēng)暴”,、“海洋”、“鐵榔頭”,、“翅膀”都是普通的名詞,,用在這里使整個(gè)語(yǔ)句有了隱喻的意義。普通動(dòng)詞和形容詞也可以用于隱喻,。像“鐵榔頭(指郎平)的去向尚未敲定”中的“敲”在這里也是隱喻用法,。其它的例子還有“用知識(shí)照亮希望”,“熱血沸騰,,激情燃燒”,、“這樣處理可以得到漂亮的結(jié)果”,等等,。
書要擺在書架上,,或者拋幾本在地板上,酒杯要擺在桌子上,,但算盤卻要收在抽屜里,,或者最好是收在肚子里。”(魯迅《病后雜談》)
這是一個(gè)句群,。第二個(gè)“或者”之前的幾句都符合常識(shí),。“算盤”作為計(jì)算工具自然可以“收在抽屜里”,,前面用“但”,,會(huì)使人感到奇怪。讀到“或者最好是收在肚子里”,,才會(huì)理解“收在肚子里”的“算盤”是個(gè)人的想法和打算,,當(dāng)然不便擺在“桌面”上。這樣,,整個(gè)句群的隱喻意義才會(huì)顯現(xiàn)出來(lái),。
打起黃鶯兒,,莫叫枝上啼。啼時(shí)驚妾夢(mèng),,不得到遼西,。”這首短詩(shī)可以作為篇章級(jí)隱喻的例子。其中“遼西”喻指古戰(zhàn)場(chǎng),,整首詩(shī)則反映妻子對(duì)在遠(yuǎn)方征戰(zhàn)的親人的魂?duì)繅?mèng)繞。篇章級(jí)的隱喻自然更難求解,。像魯迅的《狂人日記》顯然不能按字面意義去理解,,一定要理解它隱喻什么,影射什么,。在這里,,影射是要達(dá)到的目的,而隱喻只是表現(xiàn)手段,。
語(yǔ)言或文章常有弦外之音(這里的“弦外之音”又隱喻“言外之意”),,這是最難理解和表達(dá)的。弦外之音是否也可看作篇章級(jí)隱喻的效果,?或許也可看作是語(yǔ)用問(wèn)題,,也就是必須基于語(yǔ)境(狹義的上下文和廣義的社會(huì)、文化,、歷史環(huán)境)才能消解的歧義,。
再看朱慶余的宮中詞“寂寂花開閉院門,美人相并立瓊軒,。含情欲說(shuō)宮中事,,鸚鵡前頭不敢言。”詩(shī)人想象兩個(gè)宮女想講講貼己話,,又恐鸚鵡學(xué)舌,,泄露機(jī)密。計(jì)算機(jī)即使裝備了“鸚鵡會(huì)學(xué)人說(shuō)話”的知識(shí),,它能理解詩(shī)中所反映的宮女的孤寂和膽怯嗎,?這首詩(shī)或許還有更深一層的含義,表現(xiàn)皇宮內(nèi)院的壓抑,、沉悶,、恐怖、人人自危的生存環(huán)境,,這樣的一層含義,,計(jì)算機(jī)能夠通過(guò)學(xué)習(xí)進(jìn)而理解嗎?
文學(xué)作品常常表現(xiàn)人物觸景生情,,如王昌齡的《閨怨》:“閨中×××不知愁,,春日凝妝上翠樓,。忽見陌頭楊柳色,悔教夫婿覓封侯,。”為什么×××見了楊柳,,就對(duì)讓丈夫外出競(jìng)逐功名起了后悔之心?只在這一首詩(shī)中是難以找到答案的,,必須了解當(dāng)時(shí)人們的文化背景,。以“楊柳”為關(guān)鍵詞檢索唐詩(shī),找到如下一些詩(shī)篇:張九齡的《折楊柳》:“纖纖折楊柳,,持此寄情人,,一枝何足貴,憐是故園春,。”李瑞的《橫吹曲辭——折楊柳》:“贈(zèng)君折楊柳,,顏色豈能久,上客莫沾巾,,佳人正回首,。”令狐楚的《遠(yuǎn)離別》:“昨日盧梅渡口,整見諸人鎮(zhèn)守,,都護(hù)三年不歸,,折盡江邊楊柳。”還有《送別》:“楊柳東門樹,,青青夾御河,。近來(lái)攀折苦,應(yīng)為別離多,。”從這些詩(shī),,讀者可以了解,唐代人經(jīng)常把“楊柳”和“離別”,、“思念”聯(lián)系在一起,。計(jì)算機(jī)能不能學(xué)到這樣的知識(shí)?對(duì)包含“楊柳”的詩(shī)篇進(jìn)行比較,、計(jì)算,、判別,探求詩(shī)篇所表達(dá)的情感,,進(jìn)而達(dá)到對(duì)不同語(yǔ)境中的“楊柳”詞義的理解,。這是計(jì)算語(yǔ)言學(xué)正在努力研究的問(wèn)題[5]
除了隱喻之外,,還有很多的文學(xué)表現(xiàn)手法也突破了常規(guī)的語(yǔ)法,。文學(xué)作品是形象思維的結(jié)晶,其表現(xiàn)形式自然也需要形象生動(dòng),,需要標(biāo)新立異,,常常采用夸張,、擬人、典故,、雙關(guān)等表現(xiàn)手法,,還要照顧韻律、節(jié)奏,、效果等美學(xué)因素,,由此造成的真實(shí)文本往往有不合語(yǔ)法、違反常識(shí)的現(xiàn)象,,這些算不算噪聲,,計(jì)算機(jī)如何識(shí)別、應(yīng)對(duì)和理解,?

2 引用典故

韋莊的《章臺(tái)夜思》:“清瑟怨遙夜,繞弦風(fēng)雨哀,。孤燈聞楚角,,殘?jiān)孪抡屡_(tái)。芳草已云暮,,故人殊未來(lái),。鄉(xiāng)書不可寄,秋雁又南回,。”鄉(xiāng)書和秋雁有何關(guān)聯(lián),?這里引用了古人(《漢書:蘇武傳》)的雁足傳書的故事。
     杜牧的《赤壁》:“折戟沉沙鐵未銷,,自將磨洗認(rèn)前朝,。東風(fēng)不與周郎便,銅雀春深鎖二喬,。”這里引用了火燒赤壁的大故事,,里面又包含了借東風(fēng)、孫策娶大喬,、周瑜娶小喬,、曹操建銅雀臺(tái)等小情節(jié)。如果不了解這些歷史事件,,如何能知道這首詩(shī)在說(shuō)些什么呢,?
    當(dāng)代人講話、寫文章也常常引用典故或古詩(shī)詞,。

3 遣詞造句的形象化

3-1 使用形象化的量詞
通常名詞與量詞的搭配有一定的規(guī)則和約定俗成的習(xí)慣,。為了生動(dòng)形象,使人印象深刻,,
可能故意標(biāo)新立異,,選用其它的詞作量詞,。例如:“燈”是可計(jì)數(shù)名詞,與它搭配的典型量詞是“盞”,??墒牵谙旅娴膱?bào)道中:
雪一程,,風(fēng)一程,,災(zāi)區(qū)雪夜千帳燈。張北縣臺(tái)路溝鄉(xiāng)二百來(lái)戶人家的大圪村,,人口近六百人,。走進(jìn)村民趙榮福家的帳篷,幾戶人正圍坐在一臺(tái)電視機(jī)前,,收看電視新聞節(jié)目,。
千帳燈”雖然符合“數(shù)詞+量詞+名詞”的結(jié)構(gòu),可是量詞用了“帳”,,顯然不合常規(guī),,但又比“盞”要生動(dòng),更切合情境,。又如,,“一鉤新月”、“一葉小舟”,、“一寸光陰一寸金”中的量詞“鉤,、葉、寸”是很形象的,,但都不是通常使用的,。
3-2  詞性的變通使用
古漢語(yǔ)中不乏詞性變通使用的實(shí)例:
曉鏡但愁云鬢改
在此,名詞“鏡”作動(dòng)詞用:“照鏡子”,。
春風(fēng)又綠江南岸
在此,,形容詞“綠”作動(dòng)詞用:“使…變綠”。
當(dāng)局能肩天下事
讀書深得古人心
在此,,名詞“肩”作動(dòng)詞用:“肩負(fù)”,。
這里的名詞“鏡”、“肩”和形容詞“綠”都作了動(dòng)詞,,固然是受制于古詩(shī),、楹聯(lián)的字?jǐn)?shù)和格律,卻也顯得緊湊,、生動(dòng),。由此可以看出,詞性變通使用的現(xiàn)象在古漢語(yǔ)中已經(jīng)存在。變通使用得多了,、久了,,就成了兼類。
3-3)韻律影響語(yǔ)序,,造成不合語(yǔ)法,、語(yǔ)義的詞序
    ×××的詩(shī)句“春風(fēng)楊柳萬(wàn)千條,六億神州盡舜堯,。”中的“神州”指中國(guó),,何來(lái)“六億中國(guó)”?應(yīng)是“中國(guó)的六億人”,。受律詩(shī)平仄分布規(guī)律的制約,,詩(shī)人改變了正常語(yǔ)序。
李清照的詞:“簾卷西風(fēng),,人比黃花瘦,。”查《現(xiàn)代漢語(yǔ)詞典》中動(dòng)詞“卷”,,有例句:“風(fēng)卷著雨點(diǎn)劈面打來(lái)”,。據(jù)此,正常語(yǔ)序“西風(fēng)卷簾”才好理解,。
3-4)擬聲、擬態(tài)詞
離離原上草,,一歲一枯榮,。野火燒不盡,春風(fēng)吹又生,。遠(yuǎn)芳侵古道,,晴翠接荒城。又送王孫去,,萋萋滿別情,。”這里的“離離”指草長(zhǎng)垂貌;“萋萋”指草盛貌,。
風(fēng)蕭蕭兮易水寒,,壯士一去兮不復(fù)還。”中的“蕭蕭”可能是擬聲詞,?!?/span>無(wú)邊落木蕭蕭下,不盡長(zhǎng)江滾滾來(lái)”中的“蕭蕭”,、“滾滾”可能是擬態(tài)詞,,也可能是擬聲詞。 這些擬聲詞、擬態(tài)詞是很難根據(jù)所用的漢字猜想其真正意義的,。
3-5褒貶色彩轉(zhuǎn)換
他出國(guó)留學(xué)不過(guò)3年,,便‘拐’了一個(gè)洋妞回來(lái)。”“拐騙”意義的“拐”是貶義詞,,用在這里只有夸耀,、羨慕的意義,完全沒(méi)有貶義,。
正意反說(shuō)與褒貶色彩轉(zhuǎn)換有點(diǎn)相似,。“嶺外音書絕,,經(jīng)冬復(fù)立春,。近鄉(xiāng)情更怯,不敢問(wèn)來(lái)人,。(李頻:渡漢江)長(zhǎng)年流浪在外,,好不容易快回到故里了,照常理,,本該急切了解家鄉(xiāng)近況,,此刻卻反而不敢打聽了,這種心態(tài)把太過(guò)牽掛的心境,,表現(xiàn)得淋漓盡致,。

4 夸張

    李白的樂(lè)府詩(shī)《將進(jìn)酒》:“君不見黃河之水天上來(lái),奔流到海不復(fù)回,。君不見高堂明鏡悲白發(fā),,朝如青絲暮成雪。”講黃河水的磅礴氣勢(shì),,用頭發(fā)喻人生,,都極其夸張,超出了常識(shí),。

5)雙關(guān)

5-1)語(yǔ)義雙關(guān)
由于語(yǔ)言符號(hào)的有限性與自然語(yǔ)言所表現(xiàn)的內(nèi)容的無(wú)限性,,自然語(yǔ)言的歧義是固有的,但人們有時(shí)還要故意采用歧義表現(xiàn)手段,,凸現(xiàn)出待人接物的技巧和語(yǔ)言運(yùn)用的藝術(shù),。一語(yǔ)雙關(guān)是典型的例證。
可是匪徒們走上幾十里的大山背,,他們沒(méi)想到包馬腳的麻袋片全爛掉在馬路上,,露出了他們的馬腳。”(曲波《林海雪原》)
通常,,“露馬腳”只用其引申義(隱喻):露出破綻,。這里的“露馬腳”一語(yǔ)雙關(guān):表面上敘述事實(shí),實(shí)際上用了隱喻。
往后的日子,,兒子開始在下課后被留下來(lái),,開始了他自己說(shuō)的‘留學(xué)’生涯。理由是字寫得太丑了,,留下來(lái)繼續(xù)學(xué)寫字,。”
通常,,“留學(xué)”是“留在國(guó)外學(xué)習(xí)”的縮寫,,約定俗成,中國(guó)人“留學(xué)”還常讓人羨慕,。這里將“留下來(lái)繼續(xù)學(xué)寫字”也緊縮成“留學(xué)”,,也符合詞語(yǔ)縮略的規(guī)則,卻又明顯帶有調(diào)侃的口氣,,顯得幽默風(fēng)趣,。
以下的例子是歧義的活用 —— 一語(yǔ)雙關(guān)的例子:
某下崗工人開的理發(fā)店的招牌:“從頭開始”。其意思一:我的新生活從(剃)頭(理發(fā))開始,;意思二:下崗不可怕,,一切可以從頭(重新)做起。表現(xiàn)了理發(fā)店主人詼諧的性格,,樂(lè)觀的生活態(tài)度,。
另一理發(fā)店的招牌:“頂上功夫”。其意思一:頭(頂)上的手藝——理發(fā),;意思二:最棒的手藝,。一語(yǔ)雙關(guān),用得實(shí)在妙,!
5-2)諧音雙關(guān)
利用音同或音近的條件使詞語(yǔ)或句子語(yǔ)義雙關(guān),也是一種藝術(shù),。古詩(shī)如:
東邊日出西邊雨
道是無(wú)晴(情)卻有晴(情)
這樣的諧音雙關(guān)是耐人尋味的,。  
此外,,漢語(yǔ)中的許多歇后語(yǔ)就是利用諧音雙關(guān)構(gòu)成的,。例如
老虎拉車——誰(shuí)趕(敢)?
也有兼顧諧音和意義的,。某車主在他的后車窗寫道:“別吻我,,我怕羞(修)!
意思一:別撞上我,,修車挺麻煩的,。意思二:別太親近我,我害羞。語(yǔ)言形象生動(dòng),,利用諧音雙關(guān),,風(fēng)趣幽默。

6 擬人化

童話故事中的“狼和小羊”的對(duì)話惟妙惟肖地刻畫了一個(gè)霸道者的蠻不講理和弱小者的聰明善辨,。在常識(shí)中,,無(wú)論是狼還是小羊可都不會(huì)說(shuō)人話呀。有的童話故事還濃縮成了一句習(xí)慣用語(yǔ):“狐貍吃不到葡萄說(shuō)葡萄酸”,。
目前不僅自然語(yǔ)言處理的實(shí)用技術(shù)同識(shí)別,、理解文學(xué)語(yǔ)言的要求尚有很大的距離,而且計(jì)算語(yǔ)言學(xué)在理論上也沒(méi)有找到合適的模型,??煞窠梃b機(jī)器學(xué)習(xí)的理論和方法以及如何借鑒?是否可以圍繞文學(xué)語(yǔ)言的理解建立一套機(jī)器學(xué)習(xí)的理論和方法,?這些問(wèn)題都值得我們探討,、思考和實(shí)踐。

 

四,、服務(wù)于機(jī)器學(xué)習(xí)的語(yǔ)言資源建設(shè)

       北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所(ICL/PKU, Institute of Computational Linguistics, Peking University)1986年成立,,至今已有二十多個(gè)年頭。在這二十余年自然語(yǔ)言處理的實(shí)踐中,,我們深切體會(huì)到語(yǔ)言資源和語(yǔ)言知識(shí)庫(kù)在自然語(yǔ)言處理中的重要性,。面向自然語(yǔ)言的機(jī)器學(xué)習(xí),就是要在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上訓(xùn)練各種模型的參數(shù),;要在各類語(yǔ)言知識(shí)庫(kù)的強(qiáng)力支撐下,,完成自然語(yǔ)言各層級(jí)的處理任務(wù)。而語(yǔ)言知識(shí)庫(kù)建設(shè)本身,,也就是語(yǔ)言文本中的知識(shí)發(fā)現(xiàn),,同樣可以利用機(jī)器學(xué)習(xí)的各種方法。
二十年來(lái),,我們建立起比較齊全的各類語(yǔ)言資源,,其中一些已經(jīng)在國(guó)內(nèi)外機(jī)器學(xué)習(xí)和相關(guān)研究中得到廣泛的應(yīng)用。在此基礎(chǔ)上,,我們先后開展了詞法分析,、句法分析、語(yǔ)義分析,、語(yǔ)用分析,、機(jī)器翻譯、領(lǐng)域知識(shí)工程,、信息檢索,、信息抽取,、自動(dòng)問(wèn)答系統(tǒng)等一系列的研究,積累了一定的經(jīng)驗(yàn),。到目前為止,,已經(jīng)成形的語(yǔ)言知識(shí)庫(kù)主要有
1)現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典[6]
2)大規(guī)模現(xiàn)代漢語(yǔ)基本標(biāo)注語(yǔ)料庫(kù)[7,8]
3)大規(guī)?,F(xiàn)代漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)[9]
4)面向漢英機(jī)器翻譯的現(xiàn)代漢語(yǔ)語(yǔ)義詞典[10]
5)面向跨語(yǔ)言文本內(nèi)容處理的中文概念詞典[11]
6)英漢,、日漢對(duì)照雙語(yǔ)語(yǔ)料庫(kù)[12]
7)多個(gè)專業(yè)領(lǐng)域的術(shù)語(yǔ)庫(kù)(信息科學(xué)技術(shù)、體育,、商務(wù),、旅游、餐飲)[13]
8)現(xiàn)代漢語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)則庫(kù)[14]
9)中國(guó)古代詩(shī)詞語(yǔ)料庫(kù)[15]
10)服務(wù)于語(yǔ)言知識(shí)庫(kù)建設(shè)的各種工具軟件
成果(1)是北大語(yǔ)言知識(shí)庫(kù)的第一塊基石,。它收詞8萬(wàn),,依據(jù)語(yǔ)法功能優(yōu)勢(shì)分布建立了一個(gè)面向信息處理的詞類體系,完成了8萬(wàn)詞語(yǔ)的歸類,,在此基礎(chǔ)上,,進(jìn)而又采用關(guān)系數(shù)據(jù)庫(kù)文件格式按類描述每個(gè)詞語(yǔ)的詳細(xì)的語(yǔ)法屬性。成果(2)就是在此基礎(chǔ)上開發(fā)的,,現(xiàn)在已經(jīng)積累到約6000萬(wàn)漢字的規(guī)模,。
成果(4)的結(jié)構(gòu)設(shè)計(jì)參照成果(1),采用同樣的知識(shí)描述形式,,詞語(yǔ)條目也是《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》的子集,,記錄數(shù)約有6萬(wàn)。成果(3)是以成果(4)為基礎(chǔ)建立起來(lái)的,,同時(shí),,大規(guī)模詞義語(yǔ)料庫(kù)的標(biāo)注過(guò)程,也對(duì)《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》的完善發(fā)揮了巨大的作用,。成果(5)參照WordNet, 用同義詞詞集synset表示概念,,目前收入的概念已達(dá)到10萬(wàn)。這兩部詞典從不同側(cè)面描述了漢語(yǔ)詞匯的語(yǔ)義知識(shí),。由于它們是面向機(jī)器翻譯以及信息檢索,、信息提取等跨語(yǔ)言文本處理的,都涉及兩種以上的語(yǔ)言,,所以它們的每一個(gè)詞條都有對(duì)譯的英語(yǔ)詞。成果(6)以更大的對(duì)譯單位(文章,、段落,、句子、短語(yǔ))覆蓋兩種語(yǔ)言,。目前對(duì)齊了的英漢對(duì)照的句子在80萬(wàn)對(duì)以上,,日漢對(duì)照的句子也有2.5萬(wàn)對(duì),。
從成果(1)到成果(6)匯集的都是日常生活語(yǔ)言的知識(shí)。成果(7)則提供專業(yè)知識(shí),,這些術(shù)語(yǔ)庫(kù)中的術(shù)語(yǔ)都是英漢對(duì)照的,。另有一部計(jì)算語(yǔ)言學(xué)的術(shù)語(yǔ)庫(kù),英,、日,、德、漢4種語(yǔ)言對(duì)照,,收入5000多條計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的術(shù)語(yǔ)[16],。
從成果(1)到成果(7)聚焦于詞匯知識(shí)。成果(8)描述的則是句法結(jié)構(gòu)知識(shí),,含600多條擴(kuò)充的上下文無(wú)關(guān)句法規(guī)則,。
從成果(1)到成果(8)都是關(guān)于現(xiàn)代漢語(yǔ)的。建設(shè)“中國(guó)古代詩(shī)詞語(yǔ)料庫(kù)”的目的是利用在現(xiàn)代漢語(yǔ)信息處理研究中積累的技術(shù)和方法開展古代詩(shī)詞計(jì)算機(jī)輔助深層研究,,同時(shí)進(jìn)行古代漢語(yǔ)和現(xiàn)代漢語(yǔ)的縱向?qū)Ρ妊芯俊?span lang="en-us">
建造語(yǔ)言知識(shí)庫(kù)需要專家知識(shí)的投入,,也需要工具軟件的輔助。ICL/PKU開發(fā)的一系列工具軟件也是知識(shí)庫(kù)的有機(jī)組成部分,。成果(10)中包含的“現(xiàn)代漢語(yǔ)詞語(yǔ)切分與詞性標(biāo)注軟件”,、“現(xiàn)代漢語(yǔ)文本注音軟件”、“雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建工具集”具有通用性,。為中文概念詞典CCD研制的可視化詞典輔助構(gòu)造軟件VACOL,,對(duì)加快CCD的研制進(jìn)程起了關(guān)鍵作用。 以前提供《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》給用戶使用時(shí),,只提供數(shù)據(jù)庫(kù)本身,,現(xiàn)在也開發(fā)了功能完善的管理軟件,不但操作快速安全,,而且為詞典的擴(kuò)充提供了方便,。
這些語(yǔ)言數(shù)據(jù)資源匯集的語(yǔ)言知識(shí)及其表述形式獨(dú)立于特定的語(yǔ)言信息處理系統(tǒng)和實(shí)現(xiàn)算法。這種設(shè)計(jì)理念使得這些知識(shí)庫(kù)得以廣泛傳播,。
從方法論角度考察,,這些語(yǔ)言數(shù)據(jù)資源的建設(shè)既采用基于規(guī)則的方法,也采用基于統(tǒng)計(jì)的方法,?!按笠?guī)模基本標(biāo)注語(yǔ)料庫(kù)”及其開發(fā)工具“詞語(yǔ)切分與詞性標(biāo)注軟件”是最典型的例證,。而這些語(yǔ)言數(shù)據(jù)資源的存在又促進(jìn)了這兩種方法的發(fā)展和融合,。
ICL/PKU 為這些資源的傳播提供了便利,所有資源的規(guī)格說(shuō)明書都已經(jīng)公開發(fā)表,?!艾F(xiàn)代漢語(yǔ)詞語(yǔ)切分,、詞性標(biāo)注、注音軟件”的功能可以在網(wǎng)上測(cè)試?,F(xiàn)在可以從網(wǎng)上[1]下載的資源包括:《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》的1萬(wàn)個(gè)詞語(yǔ)的樣例數(shù)據(jù)庫(kù),;一個(gè)月的《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù),200多萬(wàn)字,;機(jī)器翻譯評(píng)測(cè)大綱與例句集,;大規(guī)模詞義標(biāo)注語(yǔ)料庫(kù)的部分語(yǔ)料,等等,。 2001510對(duì)《人民日?qǐng)?bào)》語(yǔ)料庫(kù)下載次數(shù)開始進(jìn)行統(tǒng)計(jì),,截至2007228日,已記錄了11578下載人次,。并且,,這個(gè)數(shù)字仍在不斷更新。1996年以來(lái),,以《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》為龍頭的北大語(yǔ)言數(shù)據(jù)資源通過(guò)簽訂許可使用權(quán)協(xié)議的方式轉(zhuǎn)讓給了國(guó)內(nèi)外的諸多大學(xué),、研究院所和公司,遍及美國(guó),、法國(guó),、德國(guó)、英國(guó),、瑞典,、日本、韓國(guó),、新加坡,、中國(guó)香港、中國(guó)臺(tái)灣以及境內(nèi)各地,。2007年初,,ICL/PKU申報(bào)的“綜合型語(yǔ)言知識(shí)庫(kù)”研究成果通過(guò)了教育部組織的技術(shù)鑒定。以張鈸院士為主任,、懷進(jìn)鵬教授為副主任的鑒定委員會(huì)認(rèn)為:“《綜合型語(yǔ)言知識(shí)庫(kù)》開創(chuàng)性地實(shí)現(xiàn)了漢語(yǔ)詞語(yǔ)的大規(guī)模歸類與屬性描述,,很好地處理了基礎(chǔ)研究與應(yīng)用研究的關(guān)系,形成了基礎(chǔ)資源建設(shè)與應(yīng)用系統(tǒng)開發(fā)相互支撐,、相互促進(jìn)的良性模式,,其規(guī)模、深度,、質(zhì)量和應(yīng)用效果在我國(guó)語(yǔ)言工程實(shí)踐中是前所未有的,。該成果是以漢語(yǔ)為核心的多語(yǔ)言知識(shí)庫(kù)建設(shè)中最全面、最重要的研究成果,,總體上達(dá)到了國(guó)際領(lǐng)先水平,。”
機(jī)器學(xué)習(xí)的本質(zhì)是基于數(shù)據(jù)的學(xué)習(xí)(Learning from Data),。在自然語(yǔ)言處理中,,機(jī)器要學(xué)習(xí)的語(yǔ)言知識(shí)的源頭是人們使用的話語(yǔ)和創(chuàng)作的文本,現(xiàn)在通常以語(yǔ)料庫(kù)的形式存放在機(jī)器中,。從沒(méi)有經(jīng)過(guò)任何加工的原始語(yǔ)料中,,機(jī)器就可以學(xué)到很多書面語(yǔ)言的知識(shí),例如漢字頻度,、常用的漢字串(組塊)及其頻度,、漢字串與漢字串的搭配以及搭配強(qiáng)度等,甚至通過(guò)聚類方法也可以區(qū)分(或者說(shuō)“辨析”,,也是某種意義上的“學(xué)習(xí)”)詞語(yǔ)的義項(xiàng)乃至文本的內(nèi)容,,這類學(xué)習(xí)可以歸于無(wú)指導(dǎo)的學(xué)習(xí)。無(wú)指導(dǎo)的學(xué)習(xí)很重要,,人可能主要是通過(guò)無(wú)指導(dǎo)的學(xué)習(xí)方式培養(yǎng)自己的學(xué)習(xí)和處事能力的,。但人類社會(huì)又強(qiáng)調(diào)教育的重要性,教育是有指導(dǎo)的學(xué)習(xí),。人類借助老師,、教材等有指導(dǎo)的方式學(xué)到的可能主要是知識(shí)。知識(shí)不能等同于能力,,但是能力的強(qiáng)弱在某種程度上或在某些方面又要依賴于是否具備足夠的知識(shí),。顯然,對(duì)于人來(lái)說(shuō),,有指導(dǎo)的學(xué)習(xí)和無(wú)指導(dǎo)的學(xué)習(xí)缺一不可,。我們以為,機(jī)器也是一樣,。原始語(yǔ)料固然包含大量的語(yǔ)言知識(shí),,在確定的上下文環(huán)境中,其含義和用法也是確定的,,機(jī)器是可以學(xué)到的,。但原始語(yǔ)料中語(yǔ)言知識(shí)的表現(xiàn)方式卻是隱性的,限于當(dāng)前人工智能的水平(學(xué)習(xí)能力)或者數(shù)據(jù)的規(guī)模,,機(jī)器還不容易學(xué)到這些知識(shí),。需要有人加以指導(dǎo)、點(diǎn)撥,。以不同的形式和深度對(duì)語(yǔ)料進(jìn)行加工,,就是使隱含的信息顯性化。例如,,進(jìn)行了切分的語(yǔ)料,,使詞的知識(shí)顯性化了,;完成了詞性標(biāo)注的語(yǔ)料,不僅使詞的知識(shí)顯性化,,而且使其詞性的知識(shí)顯性化,。加工越深,顯性化的信息就越多,。
語(yǔ)言學(xué)家的論著和語(yǔ)文詞典是人類語(yǔ)言知識(shí)的集大成者,。人通過(guò)閱讀語(yǔ)言學(xué)論著和查閱詞典學(xué)習(xí)語(yǔ)言知識(shí),可以收到事半功倍的效果,。機(jī)器也應(yīng)該是這樣的,。不過(guò),面向人的論著和詞典,,也是當(dāng)代的計(jì)算機(jī)理解不了或不便應(yīng)用的,。《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》,,《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》和《中文概念詞典》這類相當(dāng)于語(yǔ)文詞典的語(yǔ)言知識(shí)庫(kù)都是結(jié)構(gòu)化的,,機(jī)器就便于利用了。結(jié)構(gòu)化的語(yǔ)言知識(shí)庫(kù)與非結(jié)構(gòu)化的文本中的語(yǔ)言知識(shí)構(gòu)成互補(bǔ)的關(guān)系:詞匯知識(shí)庫(kù)中關(guān)于語(yǔ)言知識(shí)的表達(dá)都是顯性的,,但也是靜態(tài)的,,存在“不確定性”(例如:一詞多類或一詞多義);在真實(shí)的文本語(yǔ)料中,,詞的每次出現(xiàn)都有一定的語(yǔ)境,,其詞義、句法功能,、語(yǔ)義角色雖然都是確定的,,但卻是隱性的。要使文本中的語(yǔ)言知識(shí)顯性化,,結(jié)構(gòu)化的語(yǔ)言知識(shí)庫(kù)可以提供必要的支持,。
對(duì)結(jié)構(gòu)化的語(yǔ)言知識(shí)庫(kù)也可以進(jìn)行知識(shí)挖掘,即結(jié)構(gòu)化的語(yǔ)言知識(shí)庫(kù)也是機(jī)器學(xué)習(xí)可以利用的數(shù)據(jù),。特別是當(dāng)把結(jié)構(gòu)化的語(yǔ)言知識(shí)庫(kù)以及基于這些知識(shí)庫(kù)加工的語(yǔ)料庫(kù)集成到一起,,機(jī)器可以學(xué)到更豐富、更深入的語(yǔ)言知識(shí),。
正是基于上述認(rèn)識(shí),,ICL/PKU不僅研制了多種類型的語(yǔ)言知識(shí)庫(kù),而且力求各類知識(shí)庫(kù)相互補(bǔ)足,,形成綜合型語(yǔ)言知識(shí)庫(kù),。ICL/PKU利用綜合型語(yǔ)言知識(shí)庫(kù),嘗試進(jìn)行深層次的知識(shí)挖掘,已經(jīng)取得一些成果,,例如,,詞頻、帶詞性的詞頻,、詞的(粗/細(xì)粒度)義項(xiàng)頻度,、詞的分布均勻度、動(dòng)詞向名詞漂移現(xiàn)象以及詞與詞組合規(guī)律的定量描述,,等等。這些知識(shí)無(wú)論對(duì)于信息處理,,還是對(duì)于語(yǔ)言本體研究乃至語(yǔ)言教學(xué)都是十分有價(jià)值的,。
為了讓已有的各類語(yǔ)言知識(shí)庫(kù)發(fā)揮更大的效益,ICL/PKU正在努力把它們集成到綜合型語(yǔ)言知識(shí)庫(kù)系統(tǒng)中[17],。也期望這樣的綜合型語(yǔ)言知識(shí)庫(kù)系統(tǒng)為機(jī)器學(xué)習(xí)提供一個(gè)廣闊的舞臺(tái),。

五、機(jī)器學(xué)習(xí)方法的實(shí)踐

ICL/PKU現(xiàn)有的語(yǔ)言資源的支撐下,,我們近期開展了許多研究,,這里介紹3個(gè)例子:詞義消歧研究、文本的情感傾向分析研究和隱喻識(shí)別研究,。這些研究都使用了機(jī)器學(xué)習(xí)的方法,,涉及自然語(yǔ)言處理的各個(gè)層面。如果說(shuō)詞義消歧還可以歸于語(yǔ)言本體研究的話,,那么文本的情感傾向分析則深入到文本所反映的主觀褒貶態(tài)度,,而隱喻的識(shí)別則把研究的觸角伸向修辭學(xué)以及人類語(yǔ)言認(rèn)知的層面上。

1)詞義消歧研究

一詞多義在自然語(yǔ)言中是一個(gè)非常普遍的現(xiàn)象,。以動(dòng)詞“講”為例,,可以出現(xiàn)在“講/故事/”和“講/衛(wèi)生/”等上下文中。前者的意思是“說(shuō)”,,而后者表示“注意”,。
詞義消歧(Word Sense Disambiguation, WSD)就是從給定上下文中確定一個(gè)多義詞的具體意思(sense)。這項(xiàng)研究最早源起于20世紀(jì)50年代的機(jī)器翻譯,,目前已涉及自然語(yǔ)言處理的諸多領(lǐng)域,,如機(jī)器翻譯、信息檢索,、問(wèn)答系統(tǒng)等,。數(shù)十年來(lái),針對(duì)詞義消歧已經(jīng)提出許多方法,,大致可以分為基于規(guī)則的方法,、基于詞典的方法和基于語(yǔ)料庫(kù)的方法。
目前基于統(tǒng)計(jì)學(xué)習(xí)的主流研究方法是把詞義消歧看作典型的分類問(wèn)題,通過(guò)建立詞義標(biāo)注語(yǔ)料庫(kù)作為訓(xùn)練數(shù)據(jù)去訓(xùn)練各種分類器,,實(shí)現(xiàn)對(duì)新的上下文中多義詞的消歧,。WSD可以描述如下:
對(duì)具有N個(gè)義項(xiàng)的多義詞W,記為 S = {s1, s2, … , sn},。W出現(xiàn)在某個(gè)確定的上下文C(可以是小句,、句子、段落甚至篇章)中,,詞義消歧的任務(wù)就是根據(jù)給定的上下文C,,在這N個(gè)義項(xiàng)中選擇一個(gè)最合適的義項(xiàng),記為<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
其中,,R用來(lái)計(jì)算每個(gè)義項(xiàng)和上下文匹配的程度,。
需要指出的是,詞義消歧也可以采用自動(dòng)聚類的方法實(shí)現(xiàn),,稱為詞義區(qū)分(Word Sense Discrimination),。雖然也可以縮寫為WSD,但這不屬于本文討論的范圍(有興趣的讀者可參閱[18]),。以下行文中,,若無(wú)特別說(shuō)明,WSD即為詞義消歧,。
詞義消歧不是自然語(yǔ)言處理的一項(xiàng)獨(dú)立的任務(wù),,而且消歧系統(tǒng)性能的評(píng)測(cè)會(huì)因?yàn)樵~義區(qū)分的顆粒度、所用語(yǔ)料等的不同而有很大的差異,。為了更好地開展研究,,國(guó)際上于1998年成立了SENSEVAL[url]http://www.[/url])組織,提供benchmark 數(shù)據(jù),,開展國(guó)際評(píng)測(cè),。迄今為止已經(jīng)進(jìn)行了3屆。2007年將進(jìn)行第4屆評(píng)測(cè),,名稱改為SemEval-2007,。從名字的改變可以看出,該測(cè)評(píng)從以往的單純?cè)~義消歧,,發(fā)展到包括詞義消歧和語(yǔ)義角色標(biāo)注等多個(gè)方面的測(cè)評(píng),。ICL/PKU也提供了一個(gè)任務(wù),為評(píng)測(cè)提供標(biāo)準(zhǔn)語(yǔ)料[19],。從以往的評(píng)測(cè)結(jié)果看,,所用分類器包括支持向量機(jī)、決策表,、決策樹,、貝葉斯,、神經(jīng)網(wǎng)絡(luò)、最大熵等分類模型和算法,。性能比較好的系統(tǒng),,幾乎都采用了集成(Ensemble)學(xué)習(xí)的策略[20]
下面將按照數(shù)據(jù)采集,、特征提取和選擇,、模型選擇、訓(xùn)練和性能評(píng)估這一機(jī)器學(xué)習(xí)的經(jīng)典流程來(lái)介紹ICL/PKU所做的工作,。
(1) 數(shù)據(jù)采集
對(duì)詞義消歧而言,,數(shù)據(jù)采集WSTWord Sense Tagging就是建立大規(guī)模、高質(zhì)量的詞義標(biāo)注語(yǔ)料庫(kù),,稱為詞義標(biāo)注(Word Sense Tagging, WST),。其本身可獨(dú)立成為一個(gè)研究課題,涉及詞典選擇(詞義區(qū)分的顆粒度),、語(yǔ)料選擇(語(yǔ)料的平衡性和規(guī)模)、標(biāo)注方法(正確性和一致性如何保證)等方面,。我們?cè)O(shè)計(jì)了人機(jī)互助的高效詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)模式,,并積累了一套完整的軟件工具。文獻(xiàn)[9]詳細(xì)介紹了詞義標(biāo)注語(yǔ)料庫(kù)的建設(shè)工作,。
詞典選用ICL/PKU的《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》,,語(yǔ)料庫(kù)選擇人民日?qǐng)?bào)(詞義標(biāo)注前已經(jīng)完成詞語(yǔ)切分和詞性標(biāo)注),采用機(jī)器輔助的人工標(biāo)注方法,。目前已經(jīng)完成170個(gè)動(dòng)詞和796個(gè)名詞的義項(xiàng)區(qū)分和描寫,,在《人民日?qǐng)?bào)》642萬(wàn)字的語(yǔ)料上標(biāo)注了76519個(gè)詞語(yǔ)的義項(xiàng)編碼,。這應(yīng)該是當(dāng)今規(guī)模最大的現(xiàn)代漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù),。
必須指出的是,盡管目前語(yǔ)料庫(kù)規(guī)模比較大,,但是對(duì)于機(jī)器學(xué)習(xí)來(lái)講仍然是稀疏的,,主要表現(xiàn)為多義詞的各個(gè)義項(xiàng)出現(xiàn)的不平衡。出現(xiàn)在20001-3月這三個(gè)月人民日?qǐng)?bào)語(yǔ)料中的多義名詞有485個(gè),,其中只以一個(gè)義項(xiàng)出現(xiàn)在語(yǔ)料中的有237個(gè),。僅有51% 表現(xiàn)為真正的多義詞。義項(xiàng)分布的不平衡,,給機(jī)器學(xué)習(xí)帶來(lái)巨大困難,。已經(jīng)有許多研究人員致力于解決這個(gè)問(wèn)題[21],。
2 特征提取和選擇
英國(guó)語(yǔ)言學(xué)家J. R. Firth有句名言“觀其伴、知其義”。就是說(shuō),,人通過(guò)一個(gè)詞周圍的那些詞(也就是這個(gè)詞的上下文語(yǔ)境)來(lái)辨別它的意義,。目前的機(jī)器學(xué)習(xí)中,特征選擇也主要來(lái)自多義詞出現(xiàn)的上下文。上下文是一個(gè)廣義的概念,,多義詞所在的句子、段落,、甚至整個(gè)篇章都可以稱為上下文,。我們的研究?jī)H以多義詞所在的句子作為上下文,從中提取和選擇特征,。以現(xiàn)有的語(yǔ)言資源和處理工具為基礎(chǔ),,目前用到的特征主要是詞法特征和淺層的語(yǔ)義特征。下面舉一個(gè)例子來(lái)說(shuō)明,,其中多義詞為“分子”:
此外/c  ,,/w  他們/r  /d  監(jiān)視/v  恐怖/a  分子/n  可能/v  對(duì)/p  /m  國(guó)/n  電腦/n  系統(tǒng)/n  /u  襲擊/v  /w 
詞法層特征:包括局部詞,、局部詞性,、局部詞及詞性、局部共現(xiàn),、詞袋和搭配,。除搭配外,這些特征的獲取相對(duì)容易,,也比較準(zhǔn)確,。針對(duì)上面的例子作如下簡(jiǎn)單說(shuō)明:
局部詞特征是指把多義詞周圍窗口大小為n范圍內(nèi)的詞作為特征。若設(shè)定窗口大小為3,,則特征向量表示為<W-3=, W-2=監(jiān)視, W-1=恐怖, W+1=可能, W+2=對(duì), W+3=>,。局部詞性是指把多義詞周圍窗口大小為n的范圍內(nèi)詞的詞性作為特征。仍以窗口大小為3為例,,特征向量表示為<P-3=d, P-2=v, P-1=a, P+1=v, P+2=p, P+3=m>,。局部詞及詞性是指把多義詞周圍窗口大小為n的范圍內(nèi)的“詞+詞性”作為特征。上句中詞和詞性特征向量為</ d, 監(jiān)視/v, 恐怖/a, 可能/v, 對(duì)/p, /m>,。局部共現(xiàn)是指兩個(gè)(或多個(gè))詞同時(shí)出現(xiàn)在多義詞的窗口,。設(shè)Ci,j表示一個(gè)共現(xiàn),并且這兩個(gè)詞的位置分別位于距多義詞第i個(gè)位置和第j個(gè)位置,。比如:C-1,1表示多義詞的左右緊鄰的兩個(gè)詞,。共現(xiàn)限于多義詞所在的句子范圍內(nèi)。我們?nèi)?/span>C-2,-1, C-1,1, C1,2, C-2,1, C-2,2作為局部共現(xiàn)特征,。例句中的共現(xiàn)特征為<監(jiān)視_恐怖, 恐怖_可能, 可能_對(duì), 監(jiān)視_可能, 監(jiān)視_對(duì)>,。局部共現(xiàn)考察了多義詞周圍的詞的搭配對(duì)消歧的影響,是對(duì)多義詞搭配信息很好的補(bǔ)充,。詞袋中的詞(Bag-of-Word, BOW 是指多義詞上下文中所有出現(xiàn)的詞,,沒(méi)有位置信息,,不包括標(biāo)點(diǎn)。搭配信息對(duì)詞義消歧有著重要的作用,,許多情況下,,僅僅通過(guò)搭配就可以直接消解歧義。遺憾的是,,在有限的上下文中很難準(zhǔn)確地找到搭配詞對(duì),。
句法層:在我們的特征選擇中,尚未加入句法特征,。文獻(xiàn)[22]的研究表明,,和英文相比,加入句法特征后,,中文詞義消歧的性能提高并不明顯,。
語(yǔ)義層:這里主要進(jìn)行了機(jī)構(gòu)名稱識(shí)別。在現(xiàn)代漢語(yǔ)基本標(biāo)注語(yǔ)料庫(kù)中,,已經(jīng)對(duì)機(jī)構(gòu)名作了捆綁,。比如“阿拉伯國(guó)家聯(lián)盟”,在語(yǔ)料中標(biāo)記為“[阿拉伯/n  國(guó)家/n  聯(lián)盟/n]nt”,。其中nt表明,,方括號(hào)中的是一個(gè)機(jī)構(gòu)名稱。
許多研究者認(rèn)為,,特征提取和選擇是目前WSD的研究重點(diǎn)[2324],。我們針對(duì)SENSEVAL-3的中文語(yǔ)料,,對(duì)上下文所開窗口大小對(duì)系統(tǒng)性能的影響進(jìn)行了研究。實(shí)驗(yàn)中采用的分類器是SVM-MultiClass工具包(線性核,,一次優(yōu)化),。實(shí)驗(yàn)結(jié)果如圖1所示。從結(jié)果中不難看出,,當(dāng)窗口為9時(shí),,消歧性能達(dá)到最好。

 

 

 

 

 

 

 

 

 

 


1:消歧性能隨上下文窗口變化的曲線
3 模型選擇和訓(xùn)練
選擇支持向量機(jī)(Support Vector Machines, SVM)開展研究,。支持向量機(jī)是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域非常流行的方法,,該方法因其有限樣本下良好的推廣能力而備受重視。SVM已經(jīng)在手寫體數(shù)字識(shí)別,、人臉識(shí)別,、文本分類等領(lǐng)域得到了廣泛的應(yīng)用。文獻(xiàn)[25]利用支持向量機(jī)對(duì)英文詞義消歧進(jìn)行實(shí)驗(yàn),,結(jié)果要優(yōu)于樸素貝葉斯,、決策樹,、最大熵等方法。
我們?cè)诤撕瘮?shù)的選擇和采用何種多分策略兩個(gè)方面進(jìn)行了實(shí)驗(yàn)研究[26],。
核函數(shù)的選擇,。考察了SVM各種核函數(shù)對(duì)詞義消歧的影響,選擇二十個(gè)多義詞(每個(gè)多義詞均為兩個(gè)義項(xiàng)),,選用上面介紹的所有特征,,用SVM-light進(jìn)行實(shí)驗(yàn)。通過(guò)設(shè)置不同的核函數(shù),,并且對(duì)每種核函數(shù)試驗(yàn)各種參數(shù)設(shè)置,,達(dá)到最優(yōu)時(shí)各種核函數(shù)的實(shí)驗(yàn)結(jié)果見表1

 

1  利用各種核函數(shù)的消歧結(jié)果
核函數(shù)
參數(shù)設(shè)置
正確率
訓(xùn)練時(shí)間
線性核
無(wú)
90.03
96s
多項(xiàng)式核
a=1, b=1, d=7
90.05
356s
RBF
86.50
467s
Sigmoid
v=2, c=1
81.12
264s

 

從結(jié)果看,如果對(duì)核函數(shù)參數(shù)進(jìn)行合理的調(diào)整,,多項(xiàng)式核的效果比其它核的效果要好,。但是,多項(xiàng)式核的參數(shù)太多,,在參數(shù)空間中尋找最優(yōu)的參數(shù)設(shè)置比較困難,。綜合各種核函數(shù)的參數(shù)設(shè)置的復(fù)雜性、正確率以及時(shí)間效率等因素,,線性核還是比較理想的選擇,。
二分到多分的轉(zhuǎn)換。WSD顯然是一個(gè)多分類問(wèn)題,,因?yàn)槎嗔x詞常常多于兩個(gè)義項(xiàng),。如何用SVM解決多類別的分類問(wèn)題,是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,。目前主要有兩類方法:用多個(gè)二類SVM構(gòu)造多類別SVM的方法和一次優(yōu)化決策的方法,。前者又可以分為1對(duì)多(1-v-r)、1對(duì)11-v-1)和有向圖三種方法,。
針對(duì)多義詞“想”(共4個(gè)義項(xiàng))分別對(duì)上述四個(gè)方法進(jìn)行實(shí)驗(yàn)(語(yǔ)料使用20001-3月人民日?qǐng)?bào)),,結(jié)果如表2

 

2 利用各種多類別SVM方法的消歧結(jié)果
多類別 SVM 方法
正確率
訓(xùn)練時(shí)間
測(cè)試時(shí)間
1-v-1
88.06%
36s
3s
1-v-r
87.12%
70s
9s
有向圖 SVM
87.67%
39s
4s
一次優(yōu)化決策
87.94%
43s
4s

 

從結(jié)果來(lái)看1-v-1的方法正確率最高,運(yùn)行時(shí)間也較短,。一次優(yōu)化決策的方法效果也不錯(cuò),,且構(gòu)造起來(lái)比較簡(jiǎn)單、訓(xùn)練時(shí)間也較短,。
4)實(shí)驗(yàn)及分析
我們?cè)趦山M訓(xùn)練數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),。第一組數(shù)據(jù)使用SENSEVAL-3中文評(píng)測(cè)數(shù)據(jù)(由哈爾濱工業(yè)大學(xué)提供)。語(yǔ)料共有20個(gè)多義詞,,793個(gè)訓(xùn)練實(shí)例,,379個(gè)測(cè)試實(shí)例。第二組數(shù)據(jù)是ICL/PKU 的人工標(biāo)注語(yǔ)料,。
SENSEVAL-3數(shù)據(jù)集上的實(shí)驗(yàn),。實(shí)驗(yàn)結(jié)果顯示最大熵的準(zhǔn)確率為62.53%,,支持向量機(jī)

[1] http //icl.pku.edu.cn

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多