一月份時,Google新的SEO代言人Gary Illyes在Google官方博客上發(fā)了一篇帖子:What Crawl Budget Means for Googlebot,,討論了搜索引擎蜘蛛抓取份額相關(guān)問題,。對大中型網(wǎng)站來說,這是個頗為重要的SEO問題,,有時候會成為網(wǎng)站自然流量的瓶頸,。 今天的帖子總結(jié)一下Gary Illyes帖子里的以及后續(xù)跟進的很多博客、論壇帖子的主要內(nèi)容,,以及我自己的一些案例和理解,。 強調(diào)一下,以下這些概念對百度同樣適用,。 一,、什么是搜索引擎蜘蛛抓取份額?顧名思義,抓取份額是搜索引擎蜘蛛花在一個網(wǎng)站上的抓取頁面的總的時間上限,。對于特定網(wǎng)站,,搜索引擎蜘蛛花在這個網(wǎng)站上的總時間是相對固定的,,不會無限制地抓取網(wǎng)站所有頁面,。 抓取份額的英文Google用的是crawl budget,直譯是爬行預(yù)算,,我覺得不太能說明是什么意思,,所以用抓取份額表達這個概念。 抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制,。 二,、抓取需求抓取需求,,crawl demand,指的是搜索引擎“想”抓取特定網(wǎng)站多少頁面,。 決定抓取需求的主要有兩個因素,。一是頁面權(quán)重,網(wǎng)站上有多少頁面達到了基本頁面權(quán)重,,搜索引擎就想抓取多少頁面,。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權(quán)重,,權(quán)重高的頁面就不會太久不更新,。 頁面權(quán)重和網(wǎng)站權(quán)重又是息息相關(guān)的,提高網(wǎng)站權(quán)重,,就能使搜索引擎愿意多抓取頁面,。 三、抓取速度限制搜索引擎蜘蛛不會為了抓取更多頁面,,把人家網(wǎng)站服務(wù)器拖垮,,所以對某個網(wǎng)站都會設(shè)定一個抓取速度的上限,crawl rate limit,,也就是服務(wù)器能承受的上限,,在這個速度限制內(nèi),蜘蛛抓取不會拖慢服務(wù)器,、影響用戶訪問,。 服務(wù)器反應(yīng)速度夠快,這個速度限制就上調(diào)一點,,抓取加快,,服務(wù)器反應(yīng)速度下降,速度限制跟著下降,,抓取減慢,,甚至停止抓取。 所以,,抓取速度限制是搜索引擎“能”抓取的頁面數(shù),。 四、抓取份額是由什么決定的?抓取份額是考慮抓取需求和抓取速度限制兩者之后的結(jié)果,,也就是搜索引擎“想”抓,,同時又“能”抓的頁面數(shù)。 網(wǎng)站權(quán)重高,,頁面內(nèi)容質(zhì)量高,,頁面夠多,服務(wù)器速度夠快,抓取份額就大,。 五,、小網(wǎng)站沒必要擔(dān)心抓取份額小網(wǎng)站頁面數(shù)少,即使網(wǎng)站權(quán)重再低,,服務(wù)器再慢,,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓個幾百頁,,十幾天怎么也全站抓取一遍了,,所以幾千個頁面的網(wǎng)站根本不用擔(dān)心抓取份額的事。數(shù)萬個頁面的網(wǎng)站一般也不是什么大事,。每天幾百個訪問要是能拖慢服務(wù)器,,SEO就不是主要需要考慮的事了。 六,、大中型網(wǎng)站經(jīng)常需要考慮抓取份額幾十萬頁以上的大中型網(wǎng)站,,可能要考慮抓取份額夠不夠的問題。 抓取份額不夠,,比如網(wǎng)站有1千萬頁面,,搜索引擎每天只能抓幾萬個頁面,那么把網(wǎng)站抓一遍可能需要幾個月,,甚至一年,,也可能意味著一些重要頁面沒辦法被抓取,所以也就沒排名,,或者重要頁面不能及時被更新,。 要想網(wǎng)站頁面被及時、充分抓取,,首先要保證服務(wù)器夠快,,頁面夠小。如果網(wǎng)站有海量高質(zhì)量數(shù)據(jù),,抓取份額將受限于抓取速度,,提高頁面速度直接提高抓取速度限制,因而提高抓取份額,。 百度站長平臺和Google Search Console都有抓取數(shù)據(jù),。如下圖某網(wǎng)站百度抓取頻次:
上圖是SEO每天一貼這種級別的小網(wǎng)站,,頁面抓取頻次和抓取時間(取決于服務(wù)器速度和頁面大小)沒有什么大關(guān)系,說明沒有用完抓取份額,,不用擔(dān)心,。 有的時候,,抓取頻次和抓取時間是有某種對應(yīng)關(guān)系的,,如下圖另一個大些的網(wǎng)站:
可以看到,抓取時間改善(減小頁面尺寸,、提高服務(wù)器速度,、優(yōu)化數(shù)據(jù)庫),明顯導(dǎo)致抓取頻次上升,,使更多頁面被抓取收錄,,遍歷一遍網(wǎng)站更快速。 Google Search Console里更大點站的例子:
最上面的是抓取頁面數(shù),中間的是抓取數(shù)據(jù)量,,除非服務(wù)器出錯,,這兩個應(yīng)該是對應(yīng)的。最下面的是頁面抓取時間,??梢钥吹剑撁嫦螺d速度夠快,,每天抓取上百萬頁是沒有問題的,。 當(dāng)然,像前面說的,,能抓上百萬頁是一方面,,搜索引擎想不想抓是另一方面。 大型網(wǎng)站另一個經(jīng)常需要考慮抓取份額的原因是,,不要把有限的抓取份額浪費在無意義的頁面抓取上,,導(dǎo)致應(yīng)該被抓取的重要頁面卻沒有機會被抓取。 浪費抓取份額的典型頁面有:
上面這些頁面被大量抓取,,可能用完抓取份額,該抓的頁面卻沒抓,。 七,、怎樣節(jié)省抓取份額?當(dāng)然首先是降低頁面文件大小,,提高服務(wù)器速度,優(yōu)化數(shù)據(jù)庫,,降低抓取時間,。 然后,盡量避免上面列出的浪費抓取份額的東西,。有的是內(nèi)容質(zhì)量問題,,有的是網(wǎng)站結(jié)構(gòu)問題,如果是結(jié)構(gòu)問題,,最簡單的辦法是robots文件禁止抓取,,但多少會浪費些頁面權(quán)重,因為權(quán)重只進不出,。 某些情況下使用鏈接nofollow屬性可以節(jié)省抓取份額,。小網(wǎng)站,由于抓取份額用不完,,加nofollow是沒有意義的,。大網(wǎng)站,nofollow是可以在一定程度上控制權(quán)重流動和分配的,,精心設(shè)計的nofollow會使無意義頁面權(quán)重降低,,提升重要頁面權(quán)重。搜索引擎抓取時會使用一個URL抓取列表,,里面待抓URL是按頁面權(quán)重排序的,,重要頁面權(quán)重提升,會先被抓取,,無意義頁面權(quán)重可能低到搜索引擎不想抓取,。 最后幾個說明:
作者: Zac@SEO每天一貼 搜索引擎蜘蛛抓取配額是什么,? - 推薦閱讀: 轉(zhuǎn)載請注明來源:申永祥博客 |
|