鏈接:http://www.oschina.net/project/tag/264/segment 開源中國(guó)社區(qū) 1,、IKAnalyzer IKAnalyzer是一個(gè)開源的,基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包,。從2006年12月推出1.0版開始,,IKAnalyzer已經(jīng)推出 了3個(gè)大版本,。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,,結(jié)合詞典分詞和文法分析算法的中文分詞組件,。新版本的IKAnalyzer3.0則發(fā)展為 面向Java的公用分詞組件,,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn),。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最細(xì)粒度切分算法“,,具有60萬(wàn)字/秒的高速處理能力,。 采用了多子處理器分析模式,支持:英文字母(IP地址,、Email、URL),、數(shù)字(日期,,常用中文數(shù)量詞,羅馬數(shù)字,,科學(xué)計(jì)數(shù)法),中文詞匯(姓名,、地名處理)等分詞處理,。 優(yōu)化的詞典存儲(chǔ),,更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義 針對(duì)Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(作者吐血推薦),;采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大的提高Lucene檢索的命中率,。 授權(quán)協(xié)議:LGPL 開發(fā)語(yǔ)言:Java 在線查看 IKAnalyzer 源碼 ? 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2008年12月03日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/ikanalyzer 或 http://code.google.com/p/ik-analyzer/ 2,、盤古分詞 盤古分詞是一個(gè)基于 .net framework 的中英文分詞組件,,提供lucene(.net 版本) 和HubbleDotNet的接口。 高效:Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒 準(zhǔn)確:盤古分詞采用字典和統(tǒng)計(jì)結(jié)合的分詞算法,,分詞準(zhǔn)確率較高,。 功能:盤古分詞提供中文人名識(shí)別,,簡(jiǎn)繁混合分詞,,多元分詞,英文詞根化,,強(qiáng)制一元分詞,,詞頻優(yōu)先分詞,,停用詞過濾,英文專名提取等一系列功能,。 授權(quán)協(xié)議:Apache 操作系統(tǒng):Windows 收錄時(shí)間:2010年12月29日 下載:http://www.oschina.net/p/pangu 或:http://pangusegment./ 3、Paoding 庖丁中文分詞庫(kù)是一個(gè)使用Java開發(fā)的,,可結(jié)合到Lucene應(yīng)用中的,,為互聯(lián)網(wǎng),、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件,。Paoding填補(bǔ)了國(guó)內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件,。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。 Paoding's Knives 中文分詞具有極高效率和高擴(kuò)展性,。引入隱喻,,采用完全的面向?qū)ο笤O(shè)計(jì),,構(gòu)思先進(jìn)。 高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,,1秒可準(zhǔn)確分詞100萬(wàn)漢字。 采用基于不限制個(gè)數(shù)的詞典文件對(duì)文章進(jìn)行有效切分,,使能夠?qū)?duì)詞匯分類定義,。 能夠?qū)ξ粗脑~匯進(jìn)行合理解析 授權(quán)協(xié)議:Apache 開發(fā)語(yǔ)言:Java 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2008年09月07日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/paoding 或http://code.google.com/p/paoding/ 4,、FreeICTCLAS 中科院ICTCLAS最新free開放源代碼,里面有中文分詞算法,,大家一起共同學(xué)習(xí)和研究,,對(duì)搜索引擎中文分詞方面有很大用處哦 授權(quán)協(xié)議:未知 開發(fā)語(yǔ)言:C/C++ 操作系統(tǒng):Windows 收錄時(shí)間:2010年10月20日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/freeictclas 5、LibMMSeg LibMMSeg 是Coreseek.com為Sphinx全文搜索引擎設(shè)計(jì)的中文分詞軟件包,,其在GPL協(xié)議下發(fā)行的中文分詞法,采用Chih-Hao Tsai的MMSEG算法,。 您可以在Chih-Hao Tsai's Technology Page找到算法的原文,。 LibMMSeg 采用C++開發(fā),同時(shí)支持Linux平臺(tái)和Windows平臺(tái),,切分速度大約在300K/s(PM-1.2G),截至當(dāng)前版本(0.7.1)LibMMSeg沒有為速度仔細(xì)優(yōu)化過,,進(jìn)一步的提升切分速度應(yīng)仍有空間,。 授權(quán)協(xié)議:未知 開發(fā)語(yǔ)言:C/C++ 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2009年05月31日 (國(guó)產(chǎn)軟件) 下載 : MMSeg 0.7.3 6、PHPCWS PHPCWS 是一款開源的PHP中文分詞擴(kuò)展,,目前僅支持Linux/Unix系統(tǒng),該項(xiàng)目現(xiàn)在已改名為HTTPCWS,此項(xiàng)目不再繼續(xù)維護(hù),。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進(jìn)行初次分詞處理,,再使用自行編寫的“逆向最大匹配算法”對(duì)分詞和進(jìn)行詞語(yǔ)合并處理,并增加標(biāo)點(diǎn)符號(hào)過濾功能,,得出分詞結(jié)果。 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,,基于多層隱馬模型研制出的漢語(yǔ)詞法分析系統(tǒng),主要功能包括中文分詞,;詞性標(biāo)注,;命 名實(shí)體識(shí)別;新詞識(shí)別,;同時(shí)支持用戶詞典。ICTCLAS經(jīng)過五年精心打造,,內(nèi)核升級(jí)6次,,目前已經(jīng)升級(jí)到了ICTCLAS3.0,,分詞精度 98.45%,各種詞典數(shù)據(jù)壓縮后不到3M,。ICTCLAS在國(guó)內(nèi)973專家組組織的評(píng)測(cè)中活動(dòng)獲得了第一名,,在第一屆國(guó)際中文處理研究機(jī)構(gòu)SigHan 組織的評(píng)測(cè)中都獲得了多項(xiàng)第一名,,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。 授權(quán)協(xié)議:BSD 開發(fā)語(yǔ)言:PHP 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2009年03月19日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/phpcws 7,、HTTPCWS HTTPCWS是一款Linux下的基于HTTP協(xié)議的開源中文分詞系統(tǒng),采用BSD協(xié)議,。 這個(gè)分詞系統(tǒng)是對(duì)中國(guó)科學(xué)院計(jì)算技術(shù)研究所免費(fèi)提供的ICTCLAS 3.0共享版分詞后的結(jié)果,再采用逆向最大匹配算法,,根據(jù)作者自己補(bǔ)充的一個(gè)9萬(wàn)條詞語(yǔ)的自定義詞庫(kù),,對(duì)ICTCLAS分詞結(jié)果進(jìn)行合并處理,,輸出最終分詞結(jié)果。目前只支持GBK編碼。 經(jīng)過測(cè)試,,局域網(wǎng)內(nèi) HTTPCWS 接口中文分詞平均處理速度(Wait時(shí)間):0.001秒,,每秒可處理5000~20000次請(qǐng)求,。 授權(quán)協(xié)議:BSD 開發(fā)語(yǔ)言:C/C++ 操作系統(tǒng):Linux 收錄時(shí)間:2009年08月11日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/httpcws 8、imdict-chinese-analyzer imdict-chinese-analyzer 是imdict智能詞典的智能中文分詞模塊,,算法基于隱馬爾科夫模型(Hidden Markov Model, HMM),是中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ictclas中 文分詞程序的重新實(shí)現(xiàn)(基于Java),,可以直接為lucene搜索引擎提供簡(jiǎn)體中文分詞支持,。 授權(quán)協(xié)議:Apache 開發(fā)語(yǔ)言:Java 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2010年03月02日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/imdict-chinese-analyzer 9,、mmseg4j mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology./mmseg/)實(shí)現(xiàn)的中文分詞器,并實(shí)現(xiàn) lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用,。 MMSeg 算法有兩種分詞方法:Simple和Complex,,都是基于正向最大匹配,。Complex 加了四個(gè)規(guī)則過慮。官方說:詞語(yǔ)的正確識(shí)別率達(dá)到了 98.41%,。mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法,。 授權(quán)協(xié)議:Apache 開發(fā)語(yǔ)言:Java 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2009年09月26日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/mmseg4j 10、smallseg smallseg -- 開源的,,基于DFA的輕量級(jí)的中文分詞工具包 特點(diǎn):可自定義詞典、切割后返回登錄詞列表和未登錄詞列表,、有一定的新詞識(shí)別能力,。 授權(quán)協(xié)議:未知 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2009年10月15日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/smallseg 11,、CRF 中文分詞是互聯(lián)網(wǎng)應(yīng)用不可缺少的基礎(chǔ)技術(shù)之一,也是其他語(yǔ)音和語(yǔ)言產(chǎn)品必不可少的技術(shù)組件,。 自2003年第一屆國(guó)際中文分詞評(píng)測(cè)以來,,由字構(gòu)詞的分詞方法獲得了壓倒性優(yōu)勢(shì),,國(guó)內(nèi)主要通過CRF++開源軟件包來學(xué)習(xí)該分詞方法,,但是CRF++過于復(fù)雜的代碼結(jié)構(gòu),導(dǎo)致了該算法的普及率,。 CRF中文分詞開源版僅僅包含CRF++軟件包中分詞解碼器部分,簡(jiǎn)化了CRF++復(fù)雜代碼結(jié)構(gòu),,清除了分詞解碼器不需要的代碼,,大大提高了分詞解碼器的可讀性和可懂度。同時(shí)為了方便學(xué)習(xí)者可視化跟蹤和調(diào)試代碼,,在Windows平臺(tái)下分別建立了VC6.0和VS2008兩個(gè)工程文件,使得VC6.0用戶和VS2008用戶都能輕玩轉(zhuǎn)中文分詞,。 授權(quán)協(xié)議:未知 開發(fā)語(yǔ)言:C/C++ 操作系統(tǒng):Windows 收錄時(shí)間:2010年08月26日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/crf 12、SCWS SCWS 是 Simple Chinese Words Segmentation 的縮寫,,即簡(jiǎn)易中文分詞系統(tǒng),。 這是一套基于詞頻詞典的機(jī)械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞,。詞是漢語(yǔ)的基本語(yǔ)素單位,而書寫的時(shí)候不像英語(yǔ)會(huì)在詞之間用空格分開,, 所以如何準(zhǔn)確而又快速的分詞一直是中文分詞的攻關(guān)難點(diǎn),。 SCWS 在概念上并無創(chuàng)新成分,,采用的是自行采集的詞頻詞典,并輔以一定程度上的專有名稱,、人名,、地名、數(shù)字年代等規(guī)則集,,經(jīng)小范圍測(cè)試大概準(zhǔn)確率在 90% ~ 95% 之間,已能基本滿足一些中小型搜索引擎,、關(guān)鍵字提取等場(chǎng)合運(yùn)用,。 SCWS 采用純 C 代碼開發(fā),,以 Unix-Like OS 為主要平臺(tái)環(huán)境,,提供共享函數(shù)庫(kù),,方便植入各種現(xiàn)有軟件系統(tǒng)。此外它支持 GBK,,UTF-8,,BIG5 等漢字編碼,,切詞效率高。 授權(quán)協(xié)議:未知 開發(fā)語(yǔ)言:PHP 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2010年05月23日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/scws 13,、FudanNLP FudanNLP主要是為中文自然語(yǔ)言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集,。 授權(quán)協(xié)議:LGPL 開發(fā)語(yǔ)言:Java 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2010年07月19日 (國(guó)產(chǎn)軟件) 下載:http://www.oschina.net/p/fudannlp 14,、ictclas4j ictclas4j中文分詞系統(tǒng)是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)java開源分詞項(xiàng)目,,簡(jiǎn)化了原分詞程序的復(fù)雜度,旨在為廣大的中文分詞愛好者一個(gè)更好的學(xué)習(xí)機(jī)會(huì),。 授權(quán)協(xié)議:Apache 開發(fā)語(yǔ)言:Java 操作系統(tǒng):跨平臺(tái) 收錄時(shí)間:2010年10月20日 (國(guó)產(chǎn)軟件) 下載: http://www.oschina.net/p/ictclas4j
|
|