久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

干貨 | 樂(lè)思信息采集系統(tǒng)與開(kāi)源爬蟲(chóng)軟件相實(shí)用性比較

 悅讀院 2016-07-04

干貨 | 樂(lè)思信息采集系統(tǒng)與開(kāi)源爬蟲(chóng)軟件相實(shí)用性比較

開(kāi)源爬蟲(chóng)軟件

Nutch

優(yōu)點(diǎn):Nutch支持分布式抓取,并有Hadoop支持,,可以進(jìn)行多機(jī)分布抓取,,存儲(chǔ)和索引。另外很吸引人的一點(diǎn)在于,,它提供了一種插件框架,,使得其對(duì)各種網(wǎng)頁(yè)內(nèi)容的解析、各種數(shù)據(jù)的采集,、查詢,、集群、過(guò)濾等功能能夠方便的進(jìn)行擴(kuò)展,,正是由于有此框架,,使得 Nutch 的插件開(kāi)發(fā)非常容易,第三方的插件也層出不窮,,極大的增強(qiáng)了 Nutch 的功能和聲譽(yù),。

缺點(diǎn):Nutch的爬蟲(chóng)定制能力比較弱

Scrapy

優(yōu)點(diǎn):為抓取單一網(wǎng)站上固定格式的內(nèi)容而設(shè)計(jì)的,比如抓取一個(gè)小說(shuō)網(wǎng)站上的小說(shuō)或者抓取一個(gè)電子商務(wù)網(wǎng)站上的商品,。結(jié)構(gòu)清晰,,可以很方便得修改它來(lái)實(shí)現(xiàn)更復(fù)雜的需求。

缺點(diǎn):要進(jìn)行大規(guī)模的抓取,,可能要修改scrapy以處理如下問(wèn)題,。快速的link extractor,。pythonSGMLParser實(shí)在是太慢了,,使用SgmlLinkExtractor會(huì)讓爬蟲(chóng)把大部分的時(shí)間都浪費(fèi)在解析網(wǎng)頁(yè)上,最好自己寫(xiě)一個(gè)link extractor,。也可以用正則表達(dá)式來(lái)寫(xiě)link extractor,,速度快,問(wèn)題是不理解html語(yǔ)義,,會(huì)把注釋里的鏈接也包含進(jìn)來(lái),。另外基于javascript重定向url也要在這里提取出來(lái)。

爬蟲(chóng)陷阱,。爬蟲(chóng)可能陷入鏈接引用死循環(huán),。

增量抓取。一個(gè)針對(duì)多個(gè)網(wǎng)站的爬蟲(chóng)很難一次性把所有網(wǎng)頁(yè)爬取下來(lái),,并且網(wǎng)頁(yè)也處于不斷更新的狀態(tài)中,,爬取是一個(gè)動(dòng)態(tài)的過(guò)程,爬蟲(chóng)支持增量的抓取是很必要的。

高效數(shù)據(jù)存儲(chǔ),。抓取的頁(yè)面多了之后如何存儲(chǔ)就成了一個(gè)問(wèn)題,,按我們的統(tǒng)計(jì)純html頁(yè)面的平均大小大概在20~30k之間,百萬(wàn)的頁(yè)面抓下來(lái)之后占用的硬盤(pán)空間大概是幾十G,。ntfsext3這些文件系統(tǒng)在小文件過(guò)多之后效率都會(huì)比較低,,需要優(yōu)化存儲(chǔ)效率。

Heritrix

優(yōu)點(diǎn):Heritrix的爬蟲(chóng)定制參數(shù)多,。

缺點(diǎn):?jiǎn)螌?shí)例的爬蟲(chóng),,之間不能進(jìn)行合作。在有限的機(jī)器資源的情況下,,卻要復(fù)雜的操作,。只有官方支持,僅僅在Linux上進(jìn)行了測(cè)試,。每個(gè)爬蟲(chóng)是單獨(dú)進(jìn)行工作的,,沒(méi)有對(duì)更新進(jìn)行修訂。在硬件和系統(tǒng)失敗時(shí),,恢復(fù)能力很差,。很少的時(shí)間用來(lái)優(yōu)化性能。相對(duì)于Nutch,,Heritrix僅僅只是一個(gè)爬蟲(chóng)工具,,沒(méi)有提供搜索引擎。如果要對(duì)抓取的站點(diǎn)排序必須要實(shí)現(xiàn)類似于Pagerank的復(fù)雜算法,。

WebMagic

優(yōu)點(diǎn):簡(jiǎn)單,,適合小網(wǎng)站抓取。

缺點(diǎn):用戶太少,,后續(xù)升級(jí)能力不強(qiáng),。

SpiderMan

優(yōu)點(diǎn):簡(jiǎn)單,適合小網(wǎng)站抓取,。

缺點(diǎn):用戶太少,,后續(xù)升級(jí)能力不強(qiáng)。Nutch, Scrapy,, WebMagic, SpiderMan, Heritrix 都是開(kāi)發(fā)源代碼的網(wǎng)頁(yè)數(shù)據(jù)爬取工具,,最大的優(yōu)勢(shì)是免費(fèi),源代碼可以自由修改,。但是使用這類爬蟲(chóng)中間件有幾個(gè)問(wèn)題:

1. 他們對(duì)于現(xiàn)在流行的AJAX風(fēng)格的頁(yè)面都抓去不到或需要很復(fù)雜的配置,,因?yàn)榕老x(chóng)中間件都是向網(wǎng)站發(fā)送一個(gè)請(qǐng)求,,通過(guò)分析其響應(yīng)的源代碼來(lái)獲取信息,,而AJAX網(wǎng)站一般其內(nèi)容很可能不在首次直接響應(yīng)的HTML源代碼中,而在其后續(xù)的HTTP請(qǐng)求響應(yīng)中。

2. 他們對(duì)于信息的精確采集一般通過(guò)XPath與正則表達(dá)式來(lái)提取,,而這兩種技術(shù)比較復(fù)雜,,難于維護(hù),一般程序員都不會(huì),。

3.這類爬蟲(chóng)需要進(jìn)行較大的修改以適應(yīng)輿情監(jiān)測(cè)的周期性定向主題聚焦采集的需求,,短期內(nèi)無(wú)法保證其完全適合輿情監(jiān)測(cè)的需要,且修改時(shí)間成本也較高,。

樂(lè)思軟件

樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng)是由國(guó)內(nèi)一家專門(mén)做信息采集的公司提供的專業(yè)采集系統(tǒng),,不是開(kāi)源的,屬于收費(fèi)的商業(yè)軟件,,主要是針對(duì)任意網(wǎng)站的快速信息采集,,除了爬蟲(chóng)技術(shù)之外,可以支持各種AJAX技術(shù)開(kāi)發(fā)的網(wǎng)站,,如新聞,,論壇,微博等,,還可以用其利用新浪API進(jìn)行數(shù)據(jù)采集,。

樂(lè)思軟件對(duì)于網(wǎng)頁(yè)的精確采集可以自動(dòng)進(jìn)行分析或者只要很少的基于可視化的人為指導(dǎo)—框住需要的數(shù)據(jù)即可。

樂(lè)思軟件適用面廣,,且在國(guó)內(nèi)已有一定用戶群,,有大量采集目標(biāo)網(wǎng)站的經(jīng)驗(yàn),屬于成熟軟件,,雖然收費(fèi),,但整體上在本輿情系統(tǒng)中應(yīng)用的成功率大大高于其它開(kāi)源的爬蟲(chóng)中間件。

具體對(duì)比表格如下:


閱讀原文
閱讀 25
0

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多