久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

爬蟲基本原理 --網(wǎng)絡(luò)爬蟲

 印度阿三17 2019-04-20
一、爬蟲基本流程
1. 發(fā)起請(qǐng)求

通過(guò)HTTP庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,,即發(fā)送一個(gè)Request,,請(qǐng)求可以包含額外的headers等信息,,等待服務(wù)器響應(yīng),。

2. 獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng),,會(huì)得到一個(gè)Response,Response的內(nèi)容便是所要獲取的頁(yè)面內(nèi)容,,類型可能有HTML,,Json字符串,二進(jìn)制數(shù)據(jù)(如圖片視頻)等類型,。

3. 解析內(nèi)容

得到的內(nèi)容可能是HTML,,可以用正則表達(dá)式、網(wǎng)頁(yè)解析庫(kù)進(jìn)行解析,??赡苁荍son,可以直接轉(zhuǎn)為Json對(duì)象解析,,可能是二進(jìn)制數(shù)據(jù),,可以做保存或者進(jìn)一步的處理。

4.保存數(shù)據(jù)

保存形式多樣,,可以存為文本,,也可以保存至數(shù)據(jù)庫(kù),或者保存特定格式的文件,。

二,、Request與Response

瀏覽器發(fā)送消息給該網(wǎng)址所在的服務(wù)器,這個(gè)過(guò)程叫做HTTP Request,。服務(wù)器收到瀏覽器發(fā)送的消息后,,能夠根據(jù)瀏覽器發(fā)送消息的內(nèi)容,做相應(yīng)處理,,然后把消息回傳給瀏覽器,。這個(gè)過(guò)程叫做HTTP Response。 瀏覽器收到服務(wù)器的Response信息后,,會(huì)對(duì)信息進(jìn)行相應(yīng)處理,,然后展示。

三,、Request
1.請(qǐng)求方式

主要有GET,、POST兩種類型,另外還有HEAD,、PUT,、DELETE、OPTIONS等,。

2.請(qǐng)求URL

URL全稱統(tǒng)一資源定位符,,如一個(gè)網(wǎng)頁(yè)文檔、一張圖片、一個(gè)視頻等都可以用URL唯一來(lái)確定,。

3.請(qǐng)求頭

包含請(qǐng)求時(shí)的頭部信息,,如User-Agent、Host,、Cookies等信息,。

4.請(qǐng)求體

請(qǐng)求時(shí)額外攜帶的數(shù)據(jù),如表單提交時(shí)的表單數(shù)據(jù)

四,、Response
1.響應(yīng)狀態(tài)

有多種響應(yīng)狀態(tài),,如200代表成功、301跳轉(zhuǎn),、404找不到頁(yè)面,、502服務(wù)器錯(cuò)誤

2.響應(yīng)頭

如內(nèi)容類型、內(nèi)容長(zhǎng)度,、服務(wù)器信息,、設(shè)置Cookie等等

3.響應(yīng)體

最主要的部分,包含了請(qǐng)求資源的內(nèi)容,,如網(wǎng)頁(yè)HTML,、圖片二進(jìn)制數(shù)據(jù)等

五、抓取的數(shù)據(jù)類型
1.網(wǎng)頁(yè)文本

如HTML文檔,、Json格式文本等

2.圖片

獲取到的是二進(jìn)制文件,,保存為圖片格式

3.視頻

同為二進(jìn)制文件,保存為視頻格式即可

4.其他數(shù)據(jù)

只要是能請(qǐng)求到的,,都能獲取

六,、解析方式
1.直接處理
2.Json解析
3.正則表達(dá)式
4.BeautifulSoup
5.PyQuery
6.Path
七、JavaScript渲染問(wèn)題
1.分析Ajax請(qǐng)求
2.Selenium/WebDriver
3.Splash
4.PyV8
5.Ghost
八,、數(shù)據(jù)得保存
1.文本

純文本,、Json、Xml等……

2.關(guān)系型數(shù)據(jù)庫(kù)

如MySQL,、Oracle,、SQL Server等具有結(jié)構(gòu)化表結(jié)構(gòu)形式存儲(chǔ)

3.非關(guān)系型數(shù)據(jù)庫(kù)

如MongoDB、Redis等Key-Value形式存儲(chǔ)

4.二進(jìn)制文件

如圖片,、視頻,、音頻等等直接保存成特定格式即可

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多