久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

13 款開源的全文檢索引擎

 風(fēng)中的眼睛_ 2013-04-10

轉(zhuǎn)載新聞 13 款開源的全文檢索引擎

2013-04-02 11:28 by 資深編輯 WnouM 評(píng)論(2) 有4022人瀏覽
本文轉(zhuǎn)載自xum2008的博客,,主要介紹13款現(xiàn)有的開源搜索引擎,你可以將它們用在你的項(xiàng)目中以實(shí)現(xiàn)檢索功能,。

1.  Lucene 

Lucene的開發(fā)語言是Java,,也是Java家族中最為出名的一個(gè)開源搜索引擎,在Java世界中已經(jīng)是標(biāo)準(zhǔn)的全文檢索程序,,它提供了完整的查詢引擎和索引引擎,,沒有中文分詞引擎,需要自己去實(shí)現(xiàn),,因此用Lucene去做一個(gè)搜素引擎需要自己去架構(gòu).另外它不支持實(shí)時(shí)搜索,,但linkedin和twitter有分別對(duì)Lucene改進(jìn)的實(shí)時(shí)搜素. 其中Lucene有一個(gè)C++移植版本叫CLucene,CLucene因?yàn)槭褂肅++編寫,,所以理論上要比lucene快. 

官方主頁:http://lucene./ 

CLucene官方主頁:http:///projects/clucene/ 

2.  Sphinx 

Sphinx是一個(gè)用C++語言寫的開源搜索引擎,,也是現(xiàn)在比較主流的搜索引擎之一,,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,,因此Sphinx在索引的建立方面是空間換取事件的策略,,在檢索速度上,和lucene相差不大,,但檢索精準(zhǔn)度方面Lucene要優(yōu)于Sphinx,,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,,使用起來比較簡單方便. 

官方主頁:http:///about/sphinx/ 

3.  Xapian 

Xapian是一個(gè)用C++編寫的全文檢索程序,,它的api和檢索原理和lucene在很多方面都很相似,算是填補(bǔ)了lucene在C++中的一個(gè)空缺. 

官方主頁:http:/// 

4.  Nutch 

Nutch是一個(gè)用java實(shí)現(xiàn)的開源的web搜索引擎,,包括爬蟲crawler,,索引引擎,查詢引擎. 其中Nutch是基于Lucene的,,Lucene為Nutch提供了文本索引和搜索的API. 

對(duì)于應(yīng)該使用Lucene還是使用Nutch,,應(yīng)該是如果你不需要抓取數(shù)據(jù)的話,應(yīng)該使用Lucene,,最常見的應(yīng)用是:你有數(shù)據(jù)源,,需要為這些數(shù)據(jù)提供一個(gè)搜索頁面,在這種情況下,,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù),,并用Lucene API建立索引. 

官方主頁:http://nutch./ 

5.  DataparkSearch 

DataparkSearch是一個(gè)用C語言實(shí)現(xiàn)的開源的搜索引擎. 其中網(wǎng)頁排序是采用神經(jīng)網(wǎng)絡(luò)模型.  其中支持HTTP,HTTPS,,F(xiàn)TP,NNTP等下載網(wǎng)頁.包括索引引擎,,檢索引擎和中文分詞引擎(這個(gè)也是唯一的一個(gè)開源的搜索引擎里有中文分詞引擎).能個(gè)性化定制搜索結(jié)果,,擁有完整的日志記錄. 

官方主頁:http://www./ 

6.  Zettair 

Zettair是根據(jù)Justin Zobel的研究成果為基礎(chǔ)的全文檢索實(shí)驗(yàn)系統(tǒng).它是用C語言實(shí)現(xiàn)的. 其中Justin Zobel在全文檢索領(lǐng)域很有名氣,是業(yè)界第一個(gè)系統(tǒng)提出倒排序索引差分壓縮算法的人,,倒排列表的壓縮大大提高了檢索和加載的性能,,同時(shí)空間膨脹率也縮小到相當(dāng)優(yōu)秀的水平. 由于Zettair是源于學(xué)術(shù)界,代碼是由RMIT University的搜索引擎組織寫的,,因此它的代碼簡潔精煉,,算法高效,是學(xué)習(xí)倒排索引經(jīng)典算法的非常好的實(shí)例. 其中支持linux,,windows,,mac os等系統(tǒng). 

官方主頁:http://www.seg./zettair/about.html 

7.  Indri 

Indri是一個(gè)用C語言和C++語言寫的全文檢索引擎系統(tǒng),是由University of Massachusetts和Carnegie Mellon University合作推出的一個(gè)開源項(xiàng)目. 特點(diǎn)是跨平臺(tái),,API接口支持Java,,PHP,,C++. 

官方主頁:http://www./indri/ 

8.  Terrier 

Terrier是由School of Computing Science,Universityof Glasgow用java開發(fā)的一個(gè)全文檢索系統(tǒng). 

官方主頁:http:/// 

9.  Galago 

Galago是一個(gè)用java語言寫的關(guān)于文本搜索的工具集. 其中包括索引引擎和查詢引擎,,還包括一個(gè)叫TupleFlow的分布式計(jì)算框架(和google的MapReduce很像).這個(gè)檢索系統(tǒng)支持很多Indri查詢語言. 

官方主頁:http://www./ 

10.  Zebra 

Zebra是一個(gè)用C語言實(shí)現(xiàn)的檢索程序,,特點(diǎn)是對(duì)大數(shù)據(jù)的支持,支持EMAIL,,XML,,MARC等格式的數(shù)據(jù). 

官方主頁:https://www./zebra 

11.  Solr 

Solr是一個(gè)用java開發(fā)的獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器,它提供了類似于Web-service的API接口,,它是基于Lucene的全文檢索服務(wù)器,,也算是Lucene的一個(gè)變種,很多一線互聯(lián)網(wǎng)公司都在使用Solr,,也算是一種成熟的解決方案. 

官方主頁:http://lucene./solr/ 

12.  Elasticsearch 

Elasticsearch是一個(gè)采用java語言開發(fā)的,,基于Lucene構(gòu)造的開源,分布式的搜索引擎. 設(shè)計(jì)用于云計(jì)算中,,能夠達(dá)到實(shí)時(shí)搜索,,穩(wěn)定可靠. Elasticsearch的數(shù)據(jù)模型是JSON. 

官方主頁:http://www./ 

13.  Whoosh 

Whoosh是一個(gè)用純python寫的開源搜索引擎. 

官方主頁:https:///mchaput/whoosh/wiki/Home

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多