實(shí)現(xiàn)爬蟲技術(shù)的編程環(huán)境有很多種,,Java,、Python,、C++等都可以用來(lái)爬蟲,。但很多人選擇Python來(lái)寫爬蟲,,為什么呢,?因?yàn)镻ython確實(shí)很適合做爬蟲,,豐富的第三方庫(kù)十分強(qiáng)大,簡(jiǎn)單幾行代碼便可實(shí)現(xiàn)你想要的功能,。更重要的,,Python也是數(shù)據(jù)挖掘和分析的好能手。那么,,Python爬蟲一般用什么框架比較好,? 一般來(lái)說,爬蟲的需求,,用requests庫(kù)+bs4庫(kù)就能解決,;大型爬蟲數(shù)據(jù),尤其涉及異步抓取,、內(nèi)容管理及后續(xù)擴(kuò)展等功能時(shí),,就需要用到爬蟲框架了。這12個(gè)框架都有其獨(dú)特的特點(diǎn),,可以根據(jù)具體的需求選擇合適的框架,。需要注意的是,不同的框架適用的場(chǎng)景不同,,選擇框架時(shí)需要充分考慮數(shù)據(jù)的規(guī)模,、爬蟲的性能、網(wǎng)頁(yè)的特性等因素,。 1. Scrapyscrapy官網(wǎng):https:/// scrapy中文文檔: https://www./scrapy/intro/o Scrapy是Python爬蟲領(lǐng)域最著名的框架之一,,提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,。它是一個(gè)快速、高效,、可擴(kuò)展的爬蟲框架,。可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中,。Scrapy自帶了強(qiáng)大的Selector和異步處理機(jī)制,,能夠快速高效地爬取大量數(shù)據(jù),。 其最初是為了 頁(yè)面抓取 (更確切來(lái)說, 網(wǎng)絡(luò)抓取 )所設(shè)計(jì)的, 也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡(luò)爬蟲,。 優(yōu)點(diǎn) - Scrapy是一個(gè)非??焖俸透咝У呐老x框架,能夠快速地爬取大量的數(shù)據(jù),。
- Scrapy內(nèi)置的Selector提供了強(qiáng)大的數(shù)據(jù)解析功能,,支持XPath和CSS選擇器。
- Scrapy有一個(gè)強(qiáng)大的異步處理機(jī)制,,可以同時(shí)處理多個(gè)請(qǐng)求,,從而加速爬取過程。
- Scrapy支持多種數(shù)據(jù)存儲(chǔ)方式,,包括CSV,、JSON、XML,、SQLite和MySQL等,。
缺點(diǎn) - Scrapy的學(xué)習(xí)曲線比較陡峭,需要一定的Python基礎(chǔ),。
- Scrapy的定制化程度比較高,,需要一定的技術(shù)水平才能進(jìn)行修改和擴(kuò)展。
- Scrapy對(duì)于JavaScript渲染的網(wǎng)頁(yè)支持不夠完善,,需要使用Selenium等工具來(lái)解決,。
2. PySpiderPySpider 中文網(wǎng):http://www. PySpider 官網(wǎng):http://docs. PySpider 演示:http://demo. PySpider 源碼: https://github.com/binux/pyspider PySpider是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI,其用python實(shí)現(xiàn)的功能強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng),,能在瀏覽器界面上進(jìn)行腳本的編寫,,功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看,后端使用常用的數(shù)據(jù)庫(kù)進(jìn)行爬取結(jié)果的存儲(chǔ),,還能定時(shí)設(shè)置任務(wù)與任務(wù)優(yōu)先級(jí)等,。 3. CrawleyCrawley可以高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫(kù),,數(shù)據(jù)可以導(dǎo)出為JSON,、XML等。 4. Portia官網(wǎng): https://portia./ Portia是一個(gè)開源可視化爬蟲工具,,可讓您在不需要任何編程知識(shí)的情況下爬取網(wǎng)站,!簡(jiǎn)單地注釋您感興趣的頁(yè)面,Portia將創(chuàng)建一個(gè)蜘蛛來(lái)從類似的頁(yè)面提取數(shù)據(jù),。其主要特征是: - 基于 scrapy 內(nèi)核
- 可視化爬取內(nèi)容,,不需要任何開發(fā)專業(yè)知識(shí)
- 動(dòng)態(tài)匹配相同模板的內(nèi)容
5. Newspaper官方文檔:Quickstart - newspaper 0.0.2 documentation github地址: https://github.com/codelucas/newspaper Newspaper可以用來(lái)提取新聞、文章和內(nèi)容分析,。使用多線程,,支持10多種語(yǔ)言等。作者從requests庫(kù)的簡(jiǎn)潔與強(qiáng)大得到靈感,,使用python開發(fā)的可用于提取文章內(nèi)容的程序,。支持10多種語(yǔ)言并且所有的都是unicode編碼。 6. Beautiful Soup官方文檔:Beautiful Soup 4.4.0 文檔 Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間,。這個(gè)我是使用的特別頻繁的,。在獲取html元素,都是bs4完成的,。 優(yōu)點(diǎn) - BeautifulSoup簡(jiǎn)單易用,,對(duì)于初學(xué)者非常友好。
- BeautifulSoup內(nèi)置了多種解析器,,支持多種格式的文檔,。
缺點(diǎn) - BeautifulSoup不是一個(gè)完整的爬蟲框架,需要搭配其他庫(kù)來(lái)實(shí)現(xiàn)爬蟲功能,。
- BeautifulSoup不支持異步處理,,因此不能高效地處理大量的數(shù)據(jù)。
- BeautifulSoup的解析速度相對(duì)較慢,。
7. Grab官網(wǎng): https:///en/latest/ Grab是一個(gè)用于構(gòu)建Web刮板的Python框架,。借助Grab,您可以構(gòu)建各種復(fù)雜的網(wǎng)頁(yè)抓取工具,,從簡(jiǎn)單的5行腳本到處理數(shù)百萬(wàn)個(gè)網(wǎng)頁(yè)的復(fù)雜異步網(wǎng)站抓取工具,。Grab提供一個(gè)API用于執(zhí)行網(wǎng)絡(luò)請(qǐng)求和處理接收到的內(nèi)容,例如與HTML文檔的DOM樹進(jìn)行交互,。 8. Colagithub地址: https://github.com/qinxuye/cola Cola是一個(gè)分布式的爬蟲框架,,對(duì)于用戶來(lái)說,只需編寫幾個(gè)特定的函數(shù),,而無(wú)需關(guān)注分布式運(yùn)行的細(xì)節(jié),。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上,整個(gè)過程對(duì)用戶是透明的,。 9. Selenium官網(wǎng):https://www.v/ Selenium 是自動(dòng)化測(cè)試工具,。它支持各種瀏覽器,包括 Chrome,,Safari,,F(xiàn)irefox 等主流界面式瀏覽器,如果在這些瀏覽器里面安裝一個(gè) Selenium 的插件,,可以方便地實(shí)現(xiàn)Web界面的測(cè)試. Selenium 支持瀏覽器驅(qū)動(dòng),。Selenium支持多種語(yǔ)言開發(fā),比如 Java,C,,Ruby等等,,PhantomJS 用來(lái)渲染解析JS,Selenium 用來(lái)驅(qū)動(dòng)以及與 Python 的對(duì)接,,Python 進(jìn)行后期的處理,。Selenium是一個(gè)流行的自動(dòng)化測(cè)試工具,也可以用于爬蟲開發(fā),。它可以模擬用戶行為,,支持JavaScript渲染的網(wǎng)頁(yè)。 優(yōu)點(diǎn) - Selenium可以模擬用戶行為,,支持JavaScript渲染的網(wǎng)頁(yè),,能夠解決一些其他框架不能解決的問題。
- Selenium支持異步處理,,可以高效地處理大量的數(shù)據(jù),。
缺點(diǎn) - Selenium啟動(dòng)瀏覽器需要一定的時(shí)間,并且消耗系統(tǒng)資源,。
- Selenium需要安裝瀏覽器驅(qū)動(dòng),,有一定的技術(shù)門檻
10. Python-goosegithub地址: https://github.com/goose3/goose Python-goose框架可提取的信息包括: 文章主體內(nèi)容 文章主要圖片 文章中嵌入的任何Youtube/Vimeo視頻 元描述 元標(biāo)簽 11、PyQueryPyQuery是另一個(gè)流行的Python爬蟲框架,,它是jQuery的Python實(shí)現(xiàn),。它可以解析HTML和XML文檔,并提供了類似于jQuery的API來(lái)處理解析樹,。 優(yōu)點(diǎn) - PyQuery的API設(shè)計(jì)簡(jiǎn)單易用,,可以快速地實(shí)現(xiàn)爬蟲功能。
- PyQuery支持鏈?zhǔn)秸{(diào)用,,可以更加高效地處理數(shù)據(jù),。
- PyQuery支持XPath和CSS選擇器。
缺點(diǎn) - PyQuery不支持異步處理,,因此不能高效地處理大量的數(shù)據(jù),。
- PyQuery對(duì)于JavaScript渲染的網(wǎng)頁(yè)支持不夠完善,需要使用Selenium等工具來(lái)解決,。
12,、Requests-HTMLRequests-HTML是基于Requests和PyQuery的Python爬蟲框架。它提供了類似于Requests的API,,并使用PyQuery進(jìn)行數(shù)據(jù)解析,。 優(yōu)點(diǎn) - Requests-HTML使用簡(jiǎn)單,API設(shè)計(jì)類似于Requests,。
- Requests-HTML使用PyQuery進(jìn)行數(shù)據(jù)解析,,可以方便地處理數(shù)據(jù),。
- Requests-HTML支持JavaScript渲染的網(wǎng)頁(yè)。
缺點(diǎn) - Requests-HTML不支持異步處理,,因此不能高效地處理大量的數(shù)據(jù),。
|