14款中文分詞開源軟件【整理】

RoryShaw 2013-09-09

展開全文

鏈接：http://www.oschina.net/project/tag/264/segment 開源中國(guó)社區(qū)

1,、IKAnalyzer

IKAnalyzer是一個(gè)開源的，基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包,。從2006年12月推出1.0版開始,，IKAnalyzer已經(jīng)推出了3個(gè)大版本,。最初，它是以開源項(xiàng)目Luence為應(yīng)用主體的,，結(jié)合詞典分詞和文法分析算法的中文分詞組件,。新版本的IKAnalyzer3.0則發(fā)展為面向Java的公用分詞組件,，獨(dú)立于Lucene項(xiàng)目，同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn),。

IKAnalyzer3.0特性:

采用了特有的“正向迭代最細(xì)粒度切分算法“,，具有60萬(wàn)字/秒的高速處理能力,。

采用了多子處理器分析模式，支持：英文字母（IP地址,、Email、URL）,、數(shù)字（日期,，常用中文數(shù)量詞，羅馬數(shù)字,，科學(xué)計(jì)數(shù)法），中文詞匯（姓名,、地名處理）等分詞處理,。

優(yōu)化的詞典存儲(chǔ),，更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義

針對(duì)Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(作者吐血推薦),；采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合，能極大的提高Lucene檢索的命中率,。

授權(quán)協(xié)議：LGPL

開發(fā)語(yǔ)言：Java 在線查看 IKAnalyzer 源碼 ?

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2008年12月03日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/ikanalyzer 或 http://code.google.com/p/ik-analyzer/

2,、盤古分詞

盤古分詞是一個(gè)基于 .net framework 的中英文分詞組件,，提供lucene(.net 版本) 和HubbleDotNet的接口。

高效：Core Duo 1.8 GHz 下單線程分詞速度為 390K 字符每秒

準(zhǔn)確：盤古分詞采用字典和統(tǒng)計(jì)結(jié)合的分詞算法,，分詞準(zhǔn)確率較高,。

功能：盤古分詞提供中文人名識(shí)別,，簡(jiǎn)繁混合分詞,，多元分詞，英文詞根化,，強(qiáng)制一元分詞,，詞頻優(yōu)先分詞,，停用詞過濾，英文專名提取等一系列功能,。

授權(quán)協(xié)議：Apache

開發(fā)語(yǔ)言：C#.NET

操作系統(tǒng)：Windows

收錄時(shí)間：2010年12月29日

下載：http://www.oschina.net/p/pangu 或：http://pangusegment./

3、Paoding

庖丁中文分詞庫(kù)是一個(gè)使用Java開發(fā)的,，可結(jié)合到Lucene應(yīng)用中的,，為互聯(lián)網(wǎng),、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件,。Paoding填補(bǔ)了國(guó)內(nèi)中文分詞方面開源組件的空白，致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件,。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。

Paoding's Knives 中文分詞具有極高效率和高擴(kuò)展性,。引入隱喻,，采用完全的面向?qū)ο笤O(shè)計(jì),，構(gòu)思先進(jìn)。

高效率：在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,，1秒可準(zhǔn)確分詞100萬(wàn)漢字。

采用基于不限制個(gè)數(shù)的詞典文件對(duì)文章進(jìn)行有效切分,，使能夠?qū)?duì)詞匯分類定義,。

能夠?qū)ξ粗脑~匯進(jìn)行合理解析

授權(quán)協(xié)議：Apache

開發(fā)語(yǔ)言：Java

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2008年09月07日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/paoding 或http://code.google.com/p/paoding/

4,、FreeICTCLAS

中科院ICTCLAS最新free開放源代碼，里面有中文分詞算法,，大家一起共同學(xué)習(xí)和研究,，對(duì)搜索引擎中文分詞方面有很大用處哦

授權(quán)協(xié)議：未知

開發(fā)語(yǔ)言：C/C++

操作系統(tǒng)：Windows

收錄時(shí)間：2010年10月20日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/freeictclas

5、LibMMSeg

LibMMSeg 是Coreseek.com為Sphinx全文搜索引擎設(shè)計(jì)的中文分詞軟件包,，其在GPL協(xié)議下發(fā)行的中文分詞法，采用Chih-Hao Tsai的MMSEG算法,。

您可以在Chih-Hao Tsai's Technology Page找到算法的原文,。

LibMMSeg 采用C++開發(fā)，同時(shí)支持Linux平臺(tái)和Windows平臺(tái),，切分速度大約在300K/s（PM-1.2G），截至當(dāng)前版本（0.7.1）LibMMSeg沒有為速度仔細(xì)優(yōu)化過,，進(jìn)一步的提升切分速度應(yīng)仍有空間,。

授權(quán)協(xié)議：未知

開發(fā)語(yǔ)言：C/C++

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2009年05月31日（國(guó)產(chǎn)軟件）

下載： MMSeg 0.7.3

6、PHPCWS

PHPCWS 是一款開源的PHP中文分詞擴(kuò)展,，目前僅支持Linux/Unix系統(tǒng)，該項(xiàng)目現(xiàn)在已改名為HTTPCWS，此項(xiàng)目不再繼續(xù)維護(hù),。

PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進(jìn)行初次分詞處理,，再使用自行編寫的“逆向最大匹配算法”對(duì)分詞和進(jìn)行詞語(yǔ)合并處理，并增加標(biāo)點(diǎn)符號(hào)過濾功能,，得出分詞結(jié)果。

ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,，基于多層隱馬模型研制出的漢語(yǔ)詞法分析系統(tǒng)，主要功能包括中文分詞,；詞性標(biāo)注,；命名實(shí)體識(shí)別；新詞識(shí)別,；同時(shí)支持用戶詞典。ICTCLAS經(jīng)過五年精心打造,，內(nèi)核升級(jí)6次,，目前已經(jīng)升級(jí)到了ICTCLAS3.0,，分詞精度 98.45%，各種詞典數(shù)據(jù)壓縮后不到3M,。ICTCLAS在國(guó)內(nèi)973專家組組織的評(píng)測(cè)中活動(dòng)獲得了第一名,，在第一屆國(guó)際中文處理研究機(jī)構(gòu)SigHan 組織的評(píng)測(cè)中都獲得了多項(xiàng)第一名,，是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。

授權(quán)協(xié)議：BSD

開發(fā)語(yǔ)言：PHP

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2009年03月19日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/phpcws

7,、HTTPCWS

HTTPCWS是一款Linux下的基于HTTP協(xié)議的開源中文分詞系統(tǒng)，采用BSD協(xié)議,。

這個(gè)分詞系統(tǒng)是對(duì)中國(guó)科學(xué)院計(jì)算技術(shù)研究所免費(fèi)提供的ICTCLAS 3.0共享版分詞后的結(jié)果，再采用逆向最大匹配算法,，根據(jù)作者自己補(bǔ)充的一個(gè)9萬(wàn)條詞語(yǔ)的自定義詞庫(kù),，對(duì)ICTCLAS分詞結(jié)果進(jìn)行合并處理,，輸出最終分詞結(jié)果。目前只支持GBK編碼。

經(jīng)過測(cè)試,，局域網(wǎng)內(nèi) HTTPCWS 接口中文分詞平均處理速度（Wait時(shí)間）：0.001秒,，每秒可處理5000～20000次請(qǐng)求,。

授權(quán)協(xié)議：BSD

開發(fā)語(yǔ)言：C/C++

操作系統(tǒng)：Linux

收錄時(shí)間：2009年08月11日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/httpcws

8、imdict-chinese-analyzer

imdict-chinese-analyzer 是imdict智能詞典的智能中文分詞模塊,，算法基于隱馬爾科夫模型(Hidden Markov Model, HMM)，是中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ictclas中文分詞程序的重新實(shí)現(xiàn)（基于Java）,，可以直接為lucene搜索引擎提供簡(jiǎn)體中文分詞支持,。

授權(quán)協(xié)議：Apache

開發(fā)語(yǔ)言：Java

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2010年03月02日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/imdict-chinese-analyzer

9,、mmseg4j

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology./mmseg/)實(shí)現(xiàn)的中文分詞器，并實(shí)現(xiàn) lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用,。

MMSeg 算法有兩種分詞方法：Simple和Complex,，都是基于正向最大匹配,。Complex 加了四個(gè)規(guī)則過慮。官方說：詞語(yǔ)的正確識(shí)別率達(dá)到了 98.41%,。mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法,。

授權(quán)協(xié)議：Apache

開發(fā)語(yǔ)言：Java

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2009年09月26日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/mmseg4j

10、smallseg

smallseg -- 開源的,，基于DFA的輕量級(jí)的中文分詞工具包

特點(diǎn)：可自定義詞典、切割后返回登錄詞列表和未登錄詞列表,、有一定的新詞識(shí)別能力,。

授權(quán)協(xié)議：未知

開發(fā)語(yǔ)言：Java Python

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2009年10月15日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/smallseg

11,、CRF

中文分詞是互聯(lián)網(wǎng)應(yīng)用不可缺少的基礎(chǔ)技術(shù)之一，也是其他語(yǔ)音和語(yǔ)言產(chǎn)品必不可少的技術(shù)組件,。

自2003年第一屆國(guó)際中文分詞評(píng)測(cè)以來,，由字構(gòu)詞的分詞方法獲得了壓倒性優(yōu)勢(shì),，國(guó)內(nèi)主要通過CRF++開源軟件包來學(xué)習(xí)該分詞方法,，但是CRF++過于復(fù)雜的代碼結(jié)構(gòu)，導(dǎo)致了該算法的普及率,。

CRF中文分詞開源版僅僅包含CRF++軟件包中分詞解碼器部分，簡(jiǎn)化了CRF++復(fù)雜代碼結(jié)構(gòu),，清除了分詞解碼器不需要的代碼,，大大提高了分詞解碼器的可讀性和可懂度。同時(shí)為了方便學(xué)習(xí)者可視化跟蹤和調(diào)試代碼,，在Windows平臺(tái)下分別建立了VC6.0和VS2008兩個(gè)工程文件，使得VC6.0用戶和VS2008用戶都能輕玩轉(zhuǎn)中文分詞,。

授權(quán)協(xié)議：未知

開發(fā)語(yǔ)言：C/C++

操作系統(tǒng)：Windows

收錄時(shí)間：2010年08月26日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/crf

12、SCWS

SCWS 是 Simple Chinese Words Segmentation 的縮寫,，即簡(jiǎn)易中文分詞系統(tǒng),。

這是一套基于詞頻詞典的機(jī)械中文分詞引擎，它能將一整段的漢字基本正確的切分成詞,。詞是漢語(yǔ)的基本語(yǔ)素單位，而書寫的時(shí)候不像英語(yǔ)會(huì)在詞之間用空格分開,，所以如何準(zhǔn)確而又快速的分詞一直是中文分詞的攻關(guān)難點(diǎn),。

SCWS 在概念上并無創(chuàng)新成分,，采用的是自行采集的詞頻詞典，并輔以一定程度上的專有名稱,、人名,、地名、數(shù)字年代等規(guī)則集,，經(jīng)小范圍測(cè)試大概準(zhǔn)確率在 90% ~ 95% 之間，已能基本滿足一些中小型搜索引擎,、關(guān)鍵字提取等場(chǎng)合運(yùn)用,。 SCWS 采用純 C 代碼開發(fā),，以 Unix-Like OS 為主要平臺(tái)環(huán)境,，提供共享函數(shù)庫(kù),，方便植入各種現(xiàn)有軟件系統(tǒng)。此外它支持 GBK,，UTF-8,，BIG5 等漢字編碼,，切詞效率高。

授權(quán)協(xié)議：未知

開發(fā)語(yǔ)言：PHP

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2010年05月23日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/scws

13,、FudanNLP

FudanNLP主要是為中文自然語(yǔ)言處理而開發(fā)的工具包，也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集,。

授權(quán)協(xié)議：LGPL

開發(fā)語(yǔ)言：Java

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2010年07月19日（國(guó)產(chǎn)軟件）

下載：http://www.oschina.net/p/fudannlp

14,、ictclas4j

ictclas4j中文分詞系統(tǒng)是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)java開源分詞項(xiàng)目,，簡(jiǎn)化了原分詞程序的復(fù)雜度，旨在為廣大的中文分詞愛好者一個(gè)更好的學(xué)習(xí)機(jī)會(huì),。

授權(quán)協(xié)議：Apache

開發(fā)語(yǔ)言：Java

操作系統(tǒng)：跨平臺(tái)

收錄時(shí)間：2010年10月20日（國(guó)產(chǎn)軟件）

下載： http://www.oschina.net/p/ictclas4j

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： RoryShaw > 《計(jì)算機(jī)類》

舉報(bào)/認(rèn)領(lǐng)