【Scrapy】走進成熟的爬蟲框架

flyk0tcfb46p9f 2019-02-02

展開全文

今天簡單聊聊Scrapy的安裝。

前幾天有小伙伴留言說能不能介紹推薦一下爬蟲框架,，我給他推薦了Scrapy,，本來想偷個懶，推薦他去看官方文檔,，里面有一些demo代碼可供學(xué)習(xí)測試,。結(jié)果收到回復(fù)說文檔中演示用到的網(wǎng)站已經(jīng)無法訪問了。所以只能自己來簡單寫一下了,，也算是自己一個學(xué)習(xí)記錄,。

Scrapy是什么？

定義介紹我也不復(fù)制粘貼了,。簡單來說,，Scrapy是一個中大型的爬蟲框架,，框架的意義就在于幫你預(yù)設(shè)好了很多可以用的東西，讓你可以從復(fù)雜的數(shù)據(jù)流和底層控制中抽離出來,，專心于頁面的解析即可完成中大項目爬蟲,，甚至是分布式爬蟲,。

但是爬蟲入門是不推薦直接從框架入手的,，直接從框架入手會讓你頭暈?zāi)垦＃X得哪兒哪兒都看不懂,，有點類似于還沒學(xué)會基礎(chǔ)的遣詞造句就直接套用模板寫成文章,，自然是十分吃力的。所以還是推薦大家有一定的手寫爬蟲基礎(chǔ)再深入了解框架,。（當(dāng)然還沒有入門爬蟲的同學(xué)…可以催更我的爬蟲入門文章…）

那么首先是安裝,。

Python的版本選擇之前提過，推薦大家全面擁抱Python 3.x,。

很久以前,，大概是我剛?cè)腴T學(xué)習(xí)Scrapy時，Scrapy還沒有支持Python 3.x,，那時一部分爬蟲工程師把Scrapy不支持Python 3.x作為不進行遷移的理由,。當(dāng)然了，那時更具體的原因是Scrapy所依賴的twisted和mitmproxy不支持Python 3.x,。

現(xiàn)在我依然推薦大家全面擁抱Python 3.x,。

先安裝Python

這次我們以本地環(huán)境來進行安裝（Windows+Anaconda），由于Python的跨平臺特性,，我們本地寫的代碼可以很容易遷移到別的電腦或服務(wù)器使用,。（當(dāng)然了，從規(guī)范使用的角度上推薦大家使用單獨的env,，或者直接使用docker或者vagrant,，不過那就說來話長了…以后可以考慮單獨介紹）

按照慣例，我們直接使用 pip install scrapy 進行安裝,。

那么,，你大概率會遇到這樣的錯誤：

具體的錯誤原因…缺少Microsoft Visual C++ 14.0…你也可以自己通過其他渠道解決，當(dāng)然我們最推薦的做法是直接使用 conda install scrapy 命令（前提是你安裝了Anaconda而非普通Python）,。

如果遇到寫入權(quán)限錯誤,，請用管理員模式運行cmd。

之后我們可以寫一個很小的demo,，依然是官方案例中的DMOZ,，DMOZ網(wǎng)站是一個著名的開放式分類目錄（Open DirectoryProject），原版的DMOZ已于去年的3月17日停止了運營,，目前網(wǎng)站處于403狀態(tài),。但是網(wǎng)上大量過去的教程都是以DMOZ為案例的,。我為大家找到了原DMOZ網(wǎng)站的靜態(tài)鏡像站，大家可以直接訪問 http:///

大家按照官方文檔的步驟繼續(xù)做就可以了,，后續(xù)的問題不大,。

（http://scrapy-chs./zh_CN/0.24/intro/tutorial.html）

需要注意的就是工作目錄問題。

啟動Scrapy項目,。

scrapy startproject tutorial

進入目錄,，我們可以看到自動生成的一些文件，這些文件就是scrapy框架所需要的最基礎(chǔ)的組織結(jié)構(gòu),。

scrapy.cfg: 項目的配置文件

tutorial/: 該項目的python模塊,。之后您將在此加入代碼。

tutorial/items.py: 項目中的item文件.

tutorial/pipelines.py: 項目中的pipelines文件.

tutorial/settings.py: 項目的設(shè)置文件.

tutorial/spiders/: 放置spider代碼的目錄.

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： flyk0tcfb46p9f > 《AI》

舉報/認(rèn)領(lǐng)