久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

哈工大信息檢索研究室(HIT-IRLab)共享資源步驟

 funson 2007-03-31

哈工大信息檢索研究室(HIT-IRLab)語言技術(shù)平臺(tái)共享資源和程序步驟

一、語言技術(shù)平臺(tái)相關(guān)資源和程序庫說明:

 

全部資源介紹如表1所示:

1. 哈工大信息檢索研究室對外共享語料庫資源

Table 1. Sharing corpora of Information Retrieval Laboratory, Harbin Institute of Technology

語料庫名稱

規(guī)模

說明

漢英雙語語料庫

10萬對齊雙語句對

文本文件格式

同義詞詞林?jǐn)U展版

77,343條詞語

秉承《同義詞詞林》的編撰風(fēng)格,,同時(shí)采用五級編碼體系

多文檔自動(dòng)文摘語料庫

40個(gè)主題

文本文件格式,,同一主題下是同一事件的不同報(bào)道

漢語依存樹庫

不帶關(guān)系5萬句,   帶關(guān)系1萬句

LTML化,,分詞,、詞性、句法部分人工標(biāo)注,,可以圖形化查看

問答系統(tǒng)問題集

6264句,,已標(biāo)注問題類型

LTML化,分詞,、詞性,、句法、詞義,、淺層語義等程序處理得到

單文檔自動(dòng)文摘語料庫

211篇,,分不同體裁

LTML化,文摘句標(biāo)注,,分詞,、詞性、句法,、詞義,、淺層語義、文本分類,、指代消解等程序處理得到

 

       程序庫中包含模塊及其依賴關(guān)系如圖1所示,,程序庫使用示例如圖2所示。

 

原始文本

斷句

詞法分析

命名實(shí)體識(shí)別

依存句法分析

全文詞義消歧

單文檔文摘

文本分類

指代消解

淺層語義標(biāo)注

1. LTP處理模塊間的依賴關(guān)系

Figure 1. The dependency relationship between LTP modules

 

a. LTP DllC++語言調(diào)用示例

        

b. ltpconfig.ini配置文件格式說明                  c. ltpconfig.ini示例

2. LTP DLL庫統(tǒng)一接口調(diào)用方式

Figure 2. The uniform invoking interface of LTP Dll

基于TinyXML,我們編寫了LTML的操作函數(shù)庫,,包含基本的XML操作功能和相關(guān)的各個(gè)自然語言處理模塊的接口,,并將LTML結(jié)構(gòu)和各個(gè)處理模塊連接起來。LTP目前包含的10個(gè)模塊提供的都是DLL方式,。

經(jīng)過框架實(shí)現(xiàn),,現(xiàn)在的LTP程序庫的調(diào)用比較方便,C++編程人員只需要按照圖2中顯示的簡短的語句即可實(shí)現(xiàn)對既有文件的各種自然語言處理,。在圖2.amain2是動(dòng)態(tài)鏈接庫唯一的接口函數(shù),,三個(gè)參數(shù)分別是輸入文件地址,輸出文件地址,,配置文件地址,。圖2.b和圖2.c展示了配置文件的格式和每行的含義,其中第二行開始的各行分別表示斷句(split),,詞法分析(irlas,,分詞和詞性標(biāo)注),命名實(shí)體識(shí)別(ne),,依存句法分析(parser),,全文詞義消歧(wsd),自動(dòng)文摘(summary),,文本分類(class),,指代消解(cr),和淺層語義標(biāo)注(srl),。第一行的”txt”表示把輸入文件當(dāng)成原始文本文件進(jìn)行處理,,”xml”表示對符合LTML標(biāo)準(zhǔn)的已經(jīng)處理部分信息的xml文件進(jìn)行后續(xù)處理。前者屬于常見的處理方式,,后者屬于對LTP DLL的高級應(yīng)用,。高級應(yīng)用可以實(shí)現(xiàn)人工標(biāo)注和程序處理的理想結(jié)合。

LTP DLL中的9個(gè)現(xiàn)有模塊之間是有前后依賴關(guān)系的,,比如命名實(shí)體識(shí)別之前必須有詞法分析的結(jié)果。全部的依賴關(guān)系如圖1所示,。對于”txt”的處理方式,,配置文件中的9個(gè)處理模塊之間依賴關(guān)系會(huì)被自動(dòng)處理,用戶只需要在配置文件中通過0,、1設(shè)定來選擇需要的處理結(jié)果,。例如,如果配置文件中選取自動(dòng)文摘而沒有選擇底層的詞法分析,,那么接口函數(shù)內(nèi)部也會(huì)進(jìn)行自動(dòng)的選擇先完成詞法分析功能,。

這種框架將模塊的內(nèi)部開發(fā)和外部調(diào)用完全分開。感興趣的同仁也可以根據(jù)LTML接口規(guī)范,,編寫出性能更好的技術(shù)模塊,,替換LTP中的相應(yīng)模塊,。比如用戶可以自己編寫一個(gè)符合我們命名實(shí)體標(biāo)注規(guī)范和接口方式的命名實(shí)體識(shí)別DLL,然后放到對應(yīng)文件夾中即可實(shí)現(xiàn)模塊的方便替換,,隨后的DLL庫使用方式和先前完全一樣,。不論是初入NLP領(lǐng)域的研究者還是經(jīng)驗(yàn)豐富的研究人員,都能方便的應(yīng)用這個(gè)程序庫,,快速跨越開發(fā)分詞等基礎(chǔ)技術(shù)的階段,,直接進(jìn)入高層應(yīng)用技術(shù)的研究。

 

 

二,、語言技術(shù)平臺(tái)資源和程序庫共享步驟

 

特別說明:HIT-IRLab語言技術(shù)平臺(tái)共享資源的完整數(shù)據(jù)只免費(fèi)提供給高校和科研院所用于科學(xué)研究,,對于獨(dú)立個(gè)人或者商業(yè)公司的申請恕不免費(fèi)提供。

 

1,、HIT-IRLab將全部資源的10%樣本以及相關(guān)的規(guī)范和說明文檔放到主頁上,;
2
、如果您對這些資源有興趣,,可以下載樣本,、規(guī)范和說明文檔,決定是否需要該項(xiàng)資源100%的數(shù)據(jù),;
3
,、如果確認(rèn)希望獲得全部資源100%的數(shù)據(jù),請?jiān)敿?xì)填寫《哈工大信息檢索研究室(HIT-IRLab)共享資源和程序庫協(xié)議》,,并請您所在課題組的負(fù)責(zé)人直接將填好后的《協(xié)議》作為附件發(fā)郵件給劉挺老師(tliu@),,在協(xié)議中默認(rèn)同意下述條款。

 

(1) 該資源或程序庫不用于商業(yè)目的,;
(2)
不將資源或程序庫擴(kuò)散給第三方,;
(3)
在發(fā)表論文時(shí)聲明“使用了哈工大信息檢索研究室語言技術(shù)平臺(tái)中的的某資源或者某程序模塊”。


4
,、經(jīng)確認(rèn)《協(xié)議》符合規(guī)格后,,HIT-IRLab共享資源聯(lián)系人將在三個(gè)工作日以內(nèi)把該項(xiàng)共享資源的全部數(shù)據(jù)通過Email寄給您,您可以免費(fèi)用于研究,;
5
,、在使用過程中,如果發(fā)現(xiàn)了問題,,歡迎您直接到HIT-IRLab-BBS IR資源版去討論,,歡迎您批評指正,也歡迎您和我們一起豐富這些資源,,加工這些資源,;
6
、這些資源和程序庫一旦有新的版本出來,將免費(fèi)給各位使用者升級,。

 

三,、語料資源和程序庫下載說明

1全部共享資源樣例下載(10%)

2,、程序庫需要簽署協(xié)議才能共享,,效果請參見語言技術(shù)平臺(tái)的在線演示

 

四,、討論區(qū)

1,、哈工大信息檢索研究室論壇-語言技術(shù)平臺(tái)LTP

2、郵件列表 ltp-users, http://ltp./mailman/listinfo/ltp-users

 

五,、升級

1,、200695,協(xié)議發(fā)布HIT_IRLab_LTP_Sharing_Package_Full_v1.rar

2,、2007111,,發(fā)布升級包Update_v1.2_20070111.rar,同時(shí)協(xié)議發(fā)布HIT_IRLab_LTP_Sharing_Package_Full_v1.2.rar,,升級說明

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多