學習爬蟲,,我們首先要了解什么是爬蟲以及它的工作流程,,知己知彼,方能百戰(zhàn)百勝嘛,。當然這些大家都知道的,,廢話不多說,先來看看爬蟲工程師必學部分,。 暫且把目標定位初級爬蟲工程師,,簡單列一下吧:(必要部分) 熟悉多線程編程、網(wǎng)絡(luò)編程、HTTP協(xié)議相關(guān) 開發(fā)過完整爬蟲項目(最好有全站爬蟲經(jīng)驗,,這個下面會說到) 反爬相關(guān),,cookie、ip池,、驗證碼等等 熟練使用分布式 了解企業(yè)級爬蟲和個人爬蟲的差異(企業(yè)級爬蟲,,首先在數(shù)據(jù)量上跟我們平時學習的時候爬蟲,不是同一數(shù)量級,,數(shù)據(jù)量大很多,。其次,企業(yè)級爬蟲代碼一般部署到專門的爬蟲服務(wù)器上,,采取7*24小時運行,,所以需要日志監(jiān)控,異常維護,。) 知道什么是深度優(yōu)先,,廣度優(yōu)先的抓取算法,及實踐中的使用規(guī)則; 能分析簡單網(wǎng)站的結(jié)構(gòu),,會使用urllib,urllib2或requests庫進行簡單的數(shù)據(jù)抓取; |
|
來自: 碼農(nóng)9527 > 《Python》