爬蟲,被稱為網(wǎng)絡(luò)機(jī)器人,,現(xiàn)在爬蟲在我們生活中具有非常重要,,可以解決很多繁瑣的過程,而python作為爬蟲的首選語言,,受到很多人的關(guān)注和喜歡,。那么學(xué)習(xí)python做爬蟲主要學(xué)習(xí)哪些內(nèi)容呢?小編為大家介紹一下,。 1、需要了解html相關(guān)的知識:html是一種標(biāo)記語言并不是很難學(xué),,它是超文本標(biāo)記語言,,標(biāo)準(zhǔn)通用標(biāo)記語言下一個(gè)應(yīng)用。Python網(wǎng)絡(luò)爬蟲學(xué)習(xí),,不需要你深入學(xué)習(xí)html,,只要知道掌握它常用的簡單標(biāo)簽跟知識點(diǎn)就行。 2,、urllib,、urllib2兩個(gè)庫:是進(jìn)行網(wǎng)頁抓取時(shí)候會使用到的,在python中,,urllib,、urllib2兩個(gè)庫不可相互替代,雖然urllib2比urllib增強(qiáng),,但是urllib有urllib2沒有的函數(shù),。 urllib2,可以用urllib2openurl中設(shè)置Request參數(shù),,來修改Header頭,。當(dāng)你訪問一個(gè)文章,需要更改User Agent,,也需要用它,。 urllib支持設(shè)置編碼的函數(shù),urllib.urlencode進(jìn)行模擬登陸的時(shí)候,,經(jīng)常要POST編碼之后的參數(shù),,不想要使用第三方進(jìn)行登陸,你需要使用urllib,。 3,、python scrapy:scrapy是應(yīng)用最為廣泛的爬蟲框架,沒有之一,,也是成熟度最高的框架,可以利用成熟的產(chǎn)品,,避免造輪子,,可以快速的構(gòu)建項(xiàng)目。 scrapy也是python開發(fā)的一個(gè)快速,、高層次的屏幕抓取和web抓取框架,,用于抓取web框架并從頁面提取結(jié)構(gòu)化的數(shù)據(jù),用途廣泛,,可以應(yīng)用在數(shù)據(jù)挖掘,、監(jiān)測和自動化測試,。 |
|