本文以谷歌瀏覽器
為例子,本文只用到了Xpath
,正則
,爬蟲(chóng)可以有css選擇器的插件
,可自己操作一下css選擇器
的下載使用
1. 安裝Xpath插件
打開(kāi)谷歌瀏覽器這里,打開(kāi)擴(kuò)展程序,。
點(diǎn)擊這里,進(jìn)入谷歌插件應(yīng)用中心
在這里搜索Xpath
我自己喜歡用這個(gè),點(diǎn)擊進(jìn)去
進(jìn)行安裝
這樣就安裝成功了
點(diǎn)擊這個(gè)按鈕,把xpath
固定在輸入框的右側(cè),方便使用的時(shí)候調(diào)用這個(gè)插件。
這樣就安裝成功了,。
2. 使用Xpath插件
以豆瓣為例子,。
但我們一點(diǎn)擊這個(gè)插件的時(shí)候
就會(huì)彈出這個(gè)黑色的xpath語(yǔ)法輸入框,這個(gè)框左邊是你輸入的Xpath語(yǔ)法,右邊的Xpath語(yǔ)法選擇出來(lái)的結(jié)點(diǎn)數(shù)據(jù)。
當(dāng)清楚好結(jié)點(diǎn)的Xpath語(yǔ)句
之后,在左側(cè)輸入,就會(huì)匹配到這個(gè)結(jié)點(diǎn)數(shù)據(jù)了,。
瀏覽器也會(huì)高亮提示,你選擇的結(jié)點(diǎn)數(shù)據(jù),。并且右側(cè)也會(huì)顯示選擇的結(jié)點(diǎn)信息
大概就是這個(gè)用法
3. 安裝正則表達(dá)式插件
先打開(kāi)這里
再打開(kāi)這里
搜索正則表達(dá)式的插件
選擇這一個(gè)插件
添加到瀏覽器上
這樣就成功了安裝完了~
然后把這個(gè)東西固定到輸入欄的右側(cè),方便使用
4. 使用正則表達(dá)式插件
還是使用正則作為例子
點(diǎn)擊插件,就會(huì)彈出這個(gè)插件
匹配所有的數(shù)字,和xpath一樣,會(huì)高亮提示
簡(jiǎn)單的使用就是這樣了。
但是這個(gè)插件有個(gè)問(wèn)題,就是一離開(kāi),就會(huì)自動(dòng)收起,很不方便,可以自行下載其他的插件使用,這里i只是做一個(gè)列子而已,。
另外,大家可以嘗試自己安裝css選擇器
的插件
5. F12抓包,CSDN評(píng)論為例子
首先隨便找一篇博文進(jìn)行評(píng)論的抓取
5.1 Header
打開(kāi)NetWork
找到對(duì)應(yīng)的包,進(jìn)行分析
我們可以看到請(qǐng)求的url
,http狀態(tài)碼
,請(qǐng)求方法
之類的
我們爬蟲(chóng)的話,一般都要用請(qǐng)求頭去模擬這個(gè)過(guò)程,因?yàn)檫@個(gè)請(qǐng)求頭可以起到一個(gè)偽裝
的作用,讓服務(wù)器知道這是一個(gè)正常的訪問(wèn)
而不是一個(gè)爬蟲(chóng)訪問(wèn)
,。所以請(qǐng)求頭還是很重要的。
這個(gè)就是傳的參數(shù),page
就是頁(yè)數(shù),size
就是頁(yè)面大小,。
5.2 Preview
我們就能看見(jiàn)這個(gè)評(píng)論信息了,。這些就是動(dòng)態(tài)數(shù)據(jù)
。這種不是固定在網(wǎng)頁(yè)源代碼里面的。
就是你右鍵查看網(wǎng)頁(yè)源代碼就看不到的
是沒(méi)有的,所以要用抓包來(lái)獲取,。
6. F12抓包,B站評(píng)論為例子
同樣的,我們打開(kāi)F12,找到這個(gè)評(píng)論的包,。
注意B站這個(gè)是一邊加載一邊渲染
的,就是必須滑倒下面有評(píng)論的地方,才能有請(qǐng)求的這個(gè)包。
比如說(shuō)這種情況,這種情況是沒(méi)有看見(jiàn)評(píng)論
的,所以就是沒(méi)有這個(gè)評(píng)論包的,因?yàn)楦揪?code>沒(méi)有請(qǐng)求,。
我們要往下拉,知道看到評(píng)論,才會(huì)慢慢加載出來(lái),這個(gè)評(píng)論包
也會(huì)自然而然出現(xiàn)了,。就能找到了!
同樣的這種請(qǐng)求的動(dòng)態(tài)數(shù)據(jù)是在網(wǎng)頁(yè)源代碼
里面是看不到的。