哈工大信息檢索研究室(HIT-IRLab)語言技術(shù)平臺(tái)共享資源和程序步驟 一、語言技術(shù)平臺(tái)相關(guān)資源和程序庫說明: 全部資源介紹如表1所示: 表 1. 哈工大信息檢索研究室對外共享語料庫資源 Table 1. Sharing corpora of Information Retrieval Laboratory, Harbin Institute of Technology
程序庫中包含模塊及其依賴關(guān)系如圖1所示,,程序庫使用示例如圖2所示。 原始文本 斷句 詞法分析 命名實(shí)體識(shí)別 依存句法分析 全文詞義消歧 單文檔文摘 文本分類 指代消解 淺層語義標(biāo)注 圖 1. LTP處理模塊間的依賴關(guān)系 Figure 1. The dependency relationship between LTP modules
圖 2. LTP DLL庫統(tǒng)一接口調(diào)用方式 Figure 2. The uniform invoking interface of LTP Dll 基于TinyXML,我們編寫了LTML的操作函數(shù)庫,,包含基本的XML操作功能和相關(guān)的各個(gè)自然語言處理模塊的接口,,并將LTML結(jié)構(gòu)和各個(gè)處理模塊連接起來。LTP目前包含的10個(gè)模塊提供的都是DLL方式,。 經(jīng)過框架實(shí)現(xiàn),,現(xiàn)在的LTP程序庫的調(diào)用比較方便,C++編程人員只需要按照圖2中顯示的簡短的語句即可實(shí)現(xiàn)對既有文件的各種自然語言處理,。在圖2.a中main2是動(dòng)態(tài)鏈接庫唯一的接口函數(shù),,三個(gè)參數(shù)分別是輸入文件地址,輸出文件地址,,配置文件地址,。圖2.b和圖2.c展示了配置文件的格式和每行的含義,其中第二行開始的各行分別表示斷句(split),,詞法分析(irlas,,分詞和詞性標(biāo)注),命名實(shí)體識(shí)別(ne),,依存句法分析(parser),,全文詞義消歧(wsd),自動(dòng)文摘(summary),,文本分類(class),,指代消解(cr),和淺層語義標(biāo)注(srl),。第一行的”txt”表示把輸入文件當(dāng)成原始文本文件進(jìn)行處理,,”xml”表示對符合LTML標(biāo)準(zhǔn)的已經(jīng)處理部分信息的xml文件進(jìn)行后續(xù)處理。前者屬于常見的處理方式,,后者屬于對LTP DLL的高級應(yīng)用,。高級應(yīng)用可以實(shí)現(xiàn)人工標(biāo)注和程序處理的理想結(jié)合。 LTP DLL中的9個(gè)現(xiàn)有模塊之間是有前后依賴關(guān)系的,,比如命名實(shí)體識(shí)別之前必須有詞法分析的結(jié)果。全部的依賴關(guān)系如圖1所示,。對于”txt”的處理方式,,配置文件中的9個(gè)處理模塊之間依賴關(guān)系會(huì)被自動(dòng)處理,用戶只需要在配置文件中通過0,、1設(shè)定來選擇需要的處理結(jié)果,。例如,如果配置文件中選取自動(dòng)文摘而沒有選擇底層的詞法分析,,那么接口函數(shù)內(nèi)部也會(huì)進(jìn)行自動(dòng)的選擇先完成詞法分析功能,。 這種框架將模塊的內(nèi)部開發(fā)和外部調(diào)用完全分開。感興趣的同仁也可以根據(jù)LTML接口規(guī)范,,編寫出性能更好的技術(shù)模塊,,替換LTP中的相應(yīng)模塊,。比如用戶可以自己編寫一個(gè)符合我們命名實(shí)體標(biāo)注規(guī)范和接口方式的命名實(shí)體識(shí)別DLL,然后放到對應(yīng)文件夾中即可實(shí)現(xiàn)模塊的方便替換,,隨后的DLL庫使用方式和先前完全一樣,。不論是初入NLP領(lǐng)域的研究者還是經(jīng)驗(yàn)豐富的研究人員,都能方便的應(yīng)用這個(gè)程序庫,,快速跨越開發(fā)分詞等基礎(chǔ)技術(shù)的階段,,直接進(jìn)入高層應(yīng)用技術(shù)的研究。 二,、語言技術(shù)平臺(tái)資源和程序庫共享步驟 特別說明:HIT-IRLab語言技術(shù)平臺(tái)共享資源的完整數(shù)據(jù)只免費(fèi)提供給“高校和科研院所”用于科學(xué)研究,,對于獨(dú)立個(gè)人或者商業(yè)公司的申請恕不免費(fèi)提供。 1,、HIT-IRLab將全部資源的10%樣本以及相關(guān)的規(guī)范和說明文檔放到主頁上,; (1) 該資源或程序庫不用于商業(yè)目的,;
三,、語料資源和程序庫下載說明 2,、程序庫需要簽署協(xié)議才能共享,,效果請參見語言技術(shù)平臺(tái)的在線演示。 四,、討論區(qū) 1,、哈工大信息檢索研究室論壇-語言技術(shù)平臺(tái)LTP版 2、郵件列表 ltp-users, http://ltp./mailman/listinfo/ltp-users 五,、升級 1,、 2,、 |
|