robots.txt文件的運(yùn)用,在SEO技術(shù)里面是比較不易懂的知識(shí),,但是SEOER的我們又必須要去了解,,因?yàn)樗鼱砍兜揭恍┐a、URL在內(nèi),,也許稍微偏差一字,,對(duì)網(wǎng)站的影響就和本身的效果遠(yuǎn)遠(yuǎn)不同了。
一,、 利用robots.txt來(lái)限制網(wǎng)頁(yè)快照 很多搜索引擎都提供一個(gè)網(wǎng)頁(yè)快照的功能,。但是網(wǎng)頁(yè)快照功能卻有很多的弊端,例如事實(shí)內(nèi)容在網(wǎng)頁(yè)快照中更新不及時(shí),、索引網(wǎng)頁(yè)快照浪費(fèi)大量的服務(wù)器資源等,。因此,我們有些時(shí)候可能并不需要搜索引擎來(lái)索引我們某個(gè)頁(yè)面的網(wǎng)頁(yè)快照,。 解決這樣問(wèn)題的辦法很簡(jiǎn)單,,只需要在你的網(wǎng)頁(yè)元標(biāo)記中(<head>和</head>之間)放置如下的一段代碼。 <meta name=”robots” content=”noarchive”> 以上的一段代碼限制了所有的搜索引擎建立你的網(wǎng)頁(yè)快照,。如果我們需要僅僅限制一個(gè)搜索引擎建立快照的話,,就可以像如下這樣去寫 <meta name=”Baiduspider” content=”noarchive”> 需要注意的是,這樣的標(biāo)記僅僅是禁止搜索引擎為你的網(wǎng)站建立快照,,如果你要禁止搜索引擎索引你的這個(gè)頁(yè)面的話,,請(qǐng)參照后面的辦法。 二,、禁止搜索引擎抓取網(wǎng)頁(yè)頁(yè)面 在SEO中,,禁止搜索引擎抓取本頁(yè)面或者是允許搜索引擎抓取本頁(yè)面是經(jīng)常會(huì)用到的。因?yàn)榫W(wǎng)頁(yè)有一些是我們不需要用來(lái)參加關(guān)鍵詞排名的,,所以可以屏蔽掉,。為了讓搜索引擎禁止抓取本頁(yè)面,,我們一般的做法是在頁(yè)面的元標(biāo)記中加入如下的代碼: <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”> <meta content=’***************’ name=description> 在 這里,,META NAME=”ROBOTS”是泛指所有的搜索引擎的,在這里我們也可以特指某個(gè)搜索引擎,,例如 META NAME=”Googlebot”,、META NAME=”Baiduspide”、META NAME=”www.********.com” 等,。content部分有四個(gè)命令:index,、noindex、follow,、nofollow,,命令間以英文的“,”分隔。 INDEX命令:告訴搜索引擎抓取這個(gè)頁(yè)面 FOLLOW命令:告訴搜索引擎可以從這個(gè)頁(yè)面上找到鏈接,,然后繼續(xù)訪問(wèn)抓取下去,。 NOINDEX命令:告訴搜索引擎不允許抓取這個(gè)頁(yè)面 NOFOLLOW命令:告訴搜索引擎不允許從此頁(yè)找到鏈接、拒絕其繼續(xù)訪問(wèn),。 根據(jù)以上的命令,,我們就有了一下的四種組合: <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>:可以抓取本頁(yè),,而且可以順著本頁(yè)繼續(xù)索引別的鏈接 <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>:不許抓取本頁(yè),但是可以順著本頁(yè)抓取索引別的鏈接 <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>:可以抓取本頁(yè),,但是不許順著本頁(yè)抓取索引別的鏈接 <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>:不許抓取本頁(yè),,也不許順著本頁(yè)抓取索引別的鏈接。 這里需要注意的是,,不可把兩個(gè)對(duì)立的反義詞寫到一起,,例如 www.*********.com <META NAME=”ROBOTS” CONTENT=”INDEX,NOINDEX”> 或者直接同時(shí)寫上兩句 <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”> 這里有一個(gè)簡(jiǎn)便的寫法,如果是 <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>的形式的話,,可以寫成: <META NAME=”ROBOTS” CONTENT=”ALL”> 如果是 <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>的形式的話,,可以寫成:<META NAME=”ROBOTS” CONTENT=”NONE”>
當(dāng)然,我們也可以把禁止建立快照和對(duì)于搜索引擎的命令寫到一個(gè)命令元標(biāo)記中,。從上面的文章中我們得知,,禁止建立網(wǎng)頁(yè)快照的命令是noarchive,那么
我們就可以寫成如下的形式:<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW,noarchive”> 如果是對(duì)于單獨(dú)的某個(gè)搜索引擎不允許建立快照,,例如百度,,我們就可以寫成: <META NAME=” Baiduspider” CONTENT=”INDEX,FOLLOW,noarchive”> 如果在元標(biāo)記中不屑關(guān)于蜘蛛的命令,那么默認(rèn)的命令即為如下 <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW, archive”> 因此,,如果我們對(duì)于這一部分把握不準(zhǔn)的話,,可以直接寫上上面的這一行命令,或者是直接留空,。
在SEO中,,對(duì)于蜘蛛的控制是非常重要的一部分內(nèi)容,所以希望各位看官準(zhǔn)確把握這部分的內(nèi)容有些時(shí)候我們會(huì)遇到這樣的困難:我們?cè)静幌氡凰阉饕媸珍浀?
網(wǎng)站后臺(tái)地址卻被搜索引擎“無(wú)情”的收錄,,這樣只要在Google里輸入一個(gè)“后臺(tái),、管理site: http://www.********.com/
”,自己的后臺(tái)地址就會(huì)顯露無(wú)疑,,因此網(wǎng)站安全性也無(wú)從談起,。遇到這樣的情況時(shí),我們?nèi)绾巫柚顾阉饕媸珍浳覀儾幌氡皇珍浀奈募兀?/div> 一般在這個(gè)時(shí)候,,我們常用的辦法有兩個(gè),,一個(gè)是編輯robots.txt文件,另外一個(gè)是在不想被收錄的頁(yè)面頭部放置META NAME=”ROBOTS”標(biāo)簽,。
所謂的robots.txt文件,,是每一個(gè)搜索引擎到你的網(wǎng)站之后要尋找和訪問(wèn)的第一個(gè)文件,robots.txt是你對(duì)搜索引擎制定的一個(gè)如何索引你的
網(wǎng)站的規(guī)則,。通過(guò)這個(gè)文件,,搜索引擎就可以知道在你的網(wǎng)站中,哪些文件是可以被索引的,哪些文件是被拒絕索引的,。 在很多網(wǎng)站中,,站長(zhǎng)們都忽略了使用robots.txt文件。因?yàn)楹芏嗾鹃L(zhǎng)都認(rèn)為,,自己的網(wǎng)站沒有什么秘密可言,,而且自己也不太會(huì)使用robots.txt的語(yǔ)法,因此一旦寫錯(cuò)了會(huì)帶來(lái)更多的麻煩,,還不如干脆不用,。
其實(shí)這樣的做法是不對(duì)的。在前面的文章中我們知道,,如果一個(gè)網(wǎng)站有大量文件找不到的時(shí)候(404),,搜索引擎就會(huì)降低網(wǎng)站的權(quán)重。而robots.txt
作為蜘蛛訪問(wèn)網(wǎng)站的第一個(gè)文件,,一旦搜索引擎要是找不到這個(gè)文件,,也會(huì)在他的索引服務(wù)器上記錄下一條404信息。 雖然在百度的幫助文件中,,有這樣的一句話“請(qǐng)注意,,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件,。如果您希望搜索 引擎收錄網(wǎng)站上所有內(nèi)容,,請(qǐng)勿建立robots.txt文件?!钡俏覀€(gè)人還是認(rèn)為建立robots.txt還是必須的,,哪怕這個(gè)robots.txt文 件是一個(gè)空白的文本文檔都可以。因?yàn)槲覀兊木W(wǎng)站畢竟不是僅僅會(huì)被百度收錄,,同時(shí)也會(huì)被其他搜索引擎收錄的,,所以,上傳一個(gè)robots.txt文件還是沒 有什么壞處的,。 如何寫一個(gè)合理的robots.txt文件,? 首先我們需要了解robots.txt文件的一些基本語(yǔ)法,。 語(yǔ)法作用 寫法允許所有搜索引擎訪問(wèn)網(wǎng)站的所有部分 或者建立一個(gè)空白的文本文檔,,命名為robots.txt User-agent: * Disallow: 或者 User-agent: * Allow: / 禁止所有搜索引擎訪問(wèn)網(wǎng)站的所有部分 User-agent: * Disallow: / 禁止百度索引你的網(wǎng)站 User-agent: Baiduspider Disallow: / 禁止Google索引你的網(wǎng)站 User-agent: Googlebot Disallow: / 禁止除Google外的一切搜索引擎索引你的網(wǎng)站 User-agent: Googlebot Disallow: User-agent: * Disallow: /
禁止除百度外的一切搜索引擎索引你的網(wǎng)站 禁止蜘蛛訪問(wèn)某個(gè)目錄 允許訪問(wèn)某個(gè)目錄中的某些特定網(wǎng)址 使用“*”,限制訪問(wèn)某個(gè)后綴的域名,,例如索引訪問(wèn)admin目錄下所有ASP的文件 使用“$”僅允許訪問(wèn)某目錄下某個(gè)后綴的文件 禁止索引網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面(這里限制的是有“?”的域名,,例如index.asp?id=1) 禁止Google搜索引擎抓取你網(wǎng)站上的所有圖片(如果你的網(wǎng)站使用其他后綴的圖片名稱,,在這里也可以直接添加) 禁止百度搜索引擎抓取你網(wǎng)站上的所有圖片 除了百度之外和Google之外,禁止其他搜索引擎抓取你網(wǎng)站的圖片(注意,,在這里為了讓各位看的更明白,,因此使用一個(gè)比較笨的辦法——對(duì)于單個(gè)搜索引擎單獨(dú)定義。) 僅僅允許百度抓取網(wǎng)站上的“JPG”格式文件(其他搜索引擎的辦法也和這個(gè)一樣,,只是修改一下搜索引擎的蜘蛛名稱即可) 僅僅禁止百度抓取網(wǎng)站上的“JPG”格式文件 |
|