robots寫法大全,，教你巧妙運(yùn)用robots文件

顧于思文摘館 2012-07-08

展開全文

robots.txt文件的運(yùn)用，在SEO技術(shù)里面是比較不易懂的知識(shí),，但是SEOER的我們又必須要去了解,，因?yàn)樗鼱砍兜揭恍┐a、URL在內(nèi),，也許稍微偏差一字,，對(duì)網(wǎng)站的影響就和本身的效果遠(yuǎn)遠(yuǎn)不同了。

robots.txt的功能分很多,，我們?nèi)绻侠磉\(yùn)用好,，對(duì)網(wǎng)站的幫助是起很大作用的,。接下來(lái)我們來(lái)介紹一些比較常用的功能。

一,、利用robots.txt來(lái)限制網(wǎng)頁(yè)快照
很多搜索引擎都提供一個(gè)網(wǎng)頁(yè)快照的功能,。但是網(wǎng)頁(yè)快照功能卻有很多的弊端，例如事實(shí)內(nèi)容在網(wǎng)頁(yè)快照中更新不及時(shí),、索引網(wǎng)頁(yè)快照浪費(fèi)大量的服務(wù)器資源等,。因此，我們有些時(shí)候可能并不需要搜索引擎來(lái)索引我們某個(gè)頁(yè)面的網(wǎng)頁(yè)快照,。
解決這樣問(wèn)題的辦法很簡(jiǎn)單,，只需要在你的網(wǎng)頁(yè)元標(biāo)記中（<head>和</head>之間）放置如下的一段代碼。
<meta name=”robots” content=”noarchive”>
以上的一段代碼限制了所有的搜索引擎建立你的網(wǎng)頁(yè)快照,。如果我們需要僅僅限制一個(gè)搜索引擎建立快照的話,，就可以像如下這樣去寫
<meta name=”Baiduspider” content=”noarchive”>
需要注意的是，這樣的標(biāo)記僅僅是禁止搜索引擎為你的網(wǎng)站建立快照,，如果你要禁止搜索引擎索引你的這個(gè)頁(yè)面的話,，請(qǐng)參照后面的辦法。

二,、禁止搜索引擎抓取網(wǎng)頁(yè)頁(yè)面
在SEO中,，禁止搜索引擎抓取本頁(yè)面或者是允許搜索引擎抓取本頁(yè)面是經(jīng)常會(huì)用到的。因?yàn)榫W(wǎng)頁(yè)有一些是我們不需要用來(lái)參加關(guān)鍵詞排名的,，所以可以屏蔽掉,。為了讓搜索引擎禁止抓取本頁(yè)面,，我們一般的做法是在頁(yè)面的元標(biāo)記中加入如下的代碼：
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<meta content=’***************’ name=deｓｃｒｉｐｔion>
在這里,，META NAME=”ROBOTS”是泛指所有的搜索引擎的，在這里我們也可以特指某個(gè)搜索引擎,，例如 META NAME=”Googlebot”,、META NAME=”Baiduspide”、META NAME=”www.********.com” 等,。content部分有四個(gè)命令：index,、noindex、follow,、nofollow,，命令間以英文的“,”分隔。

INDEX命令：告訴搜索引擎抓取這個(gè)頁(yè)面
FOLLOW命令：告訴搜索引擎可以從這個(gè)頁(yè)面上找到鏈接,，然后繼續(xù)訪問(wèn)抓取下去,。
NOINDEX命令：告訴搜索引擎不允許抓取這個(gè)頁(yè)面
NOFOLLOW命令：告訴搜索引擎不允許從此頁(yè)找到鏈接、拒絕其繼續(xù)訪問(wèn),。

根據(jù)以上的命令,，我們就有了一下的四種組合：
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>：可以抓取本頁(yè),，而且可以順著本頁(yè)繼續(xù)索引別的鏈接
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>：不許抓取本頁(yè)，但是可以順著本頁(yè)抓取索引別的鏈接
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>：可以抓取本頁(yè),，但是不許順著本頁(yè)抓取索引別的鏈接
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>：不許抓取本頁(yè),，也不許順著本頁(yè)抓取索引別的鏈接。
這里需要注意的是,，不可把兩個(gè)對(duì)立的反義詞寫到一起,，例如 www.*********.com
<META NAME=”ROBOTS” CONTENT=”INDEX,NOINDEX”>
或者直接同時(shí)寫上兩句
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
這里有一個(gè)簡(jiǎn)便的寫法，如果是
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>的形式的話,，可以寫成：
<META NAME=”ROBOTS” CONTENT=”ALL”>
如果是
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>的形式的話,，可以寫成：<META NAME=”ROBOTS” CONTENT=”NONE”>

當(dāng)然，我們也可以把禁止建立快照和對(duì)于搜索引擎的命令寫到一個(gè)命令元標(biāo)記中,。從上面的文章中我們得知,，禁止建立網(wǎng)頁(yè)快照的命令是noarchive，那么我們就可以寫成如下的形式：<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW,noarchive”>
如果是對(duì)于單獨(dú)的某個(gè)搜索引擎不允許建立快照,，例如百度,，我們就可以寫成：
<META NAME=” Baiduspider” CONTENT=”INDEX,FOLLOW,noarchive”>
如果在元標(biāo)記中不屑關(guān)于蜘蛛的命令，那么默認(rèn)的命令即為如下
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW, archive”>
因此,，如果我們對(duì)于這一部分把握不準(zhǔn)的話,，可以直接寫上上面的這一行命令，或者是直接留空,。

在SEO中,，對(duì)于蜘蛛的控制是非常重要的一部分內(nèi)容，所以希望各位看官準(zhǔn)確把握這部分的內(nèi)容有些時(shí)候我們會(huì)遇到這樣的困難：我們?cè)静幌氡凰阉饕媸珍浀? 網(wǎng)站后臺(tái)地址卻被搜索引擎“無(wú)情”的收錄,，這樣只要在Google里輸入一個(gè)“后臺(tái),、管理site: http://www.********.com/ ”，自己的后臺(tái)地址就會(huì)顯露無(wú)疑,，因此網(wǎng)站安全性也無(wú)從談起,。遇到這樣的情況時(shí)，我們?nèi)绾巫柚顾阉饕媸珍浳覀儾幌氡皇珍浀奈募兀?/div>

一般在這個(gè)時(shí)候,，我們常用的辦法有兩個(gè),，一個(gè)是編輯robots.txt文件，另外一個(gè)是在不想被收錄的頁(yè)面頭部放置META NAME=”ROBOTS”標(biāo)簽,。

所謂的robots.txt文件,，是每一個(gè)搜索引擎到你的網(wǎng)站之后要尋找和訪問(wèn)的第一個(gè)文件，robots.txt是你對(duì)搜索引擎制定的一個(gè)如何索引你的網(wǎng)站的規(guī)則,。通過(guò)這個(gè)文件,，搜索引擎就可以知道在你的網(wǎng)站中，哪些文件是可以被索引的，哪些文件是被拒絕索引的,。
在很多網(wǎng)站中,，站長(zhǎng)們都忽略了使用robots.txt文件。因?yàn)楹芏嗾鹃L(zhǎng)都認(rèn)為,，自己的網(wǎng)站沒有什么秘密可言,，而且自己也不太會(huì)使用robots.txt的語(yǔ)法，因此一旦寫錯(cuò)了會(huì)帶來(lái)更多的麻煩,，還不如干脆不用,。

其實(shí)這樣的做法是不對(duì)的。在前面的文章中我們知道,，如果一個(gè)網(wǎng)站有大量文件找不到的時(shí)候（404）,，搜索引擎就會(huì)降低網(wǎng)站的權(quán)重。而robots.txt 作為蜘蛛訪問(wèn)網(wǎng)站的第一個(gè)文件,，一旦搜索引擎要是找不到這個(gè)文件,，也會(huì)在他的索引服務(wù)器上記錄下一條404信息。

     雖然在百度的幫助文件中,，有這樣的一句話“請(qǐng)注意,，僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí)，才需要使用robots.txt文件,。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,，請(qǐng)勿建立robots.txt文件?！钡俏覀€(gè)人還是認(rèn)為建立robots.txt還是必須的,，哪怕這個(gè)robots.txt文件是一個(gè)空白的文本文檔都可以。因?yàn)槲覀兊木W(wǎng)站畢竟不是僅僅會(huì)被百度收錄,，同時(shí)也會(huì)被其他搜索引擎收錄的,，所以，上傳一個(gè)robots.txt文件還是沒有什么壞處的,。
     如何寫一個(gè)合理的robots.txt文件,？
     首先我們需要了解robots.txt文件的一些基本語(yǔ)法,。
語(yǔ)法作用

寫法允許所有搜索引擎訪問(wèn)網(wǎng)站的所有部分
或者建立一個(gè)空白的文本文檔,，命名為robots.txt

User-agent: *
Disallow:
或者
User-agent: *
Allow: /
禁止所有搜索引擎訪問(wèn)網(wǎng)站的所有部分

User-agent: *
Disallow: /
禁止百度索引你的網(wǎng)站

User-agent: Baiduspider
Disallow: /
禁止Google索引你的網(wǎng)站

User-agent: Googlebot
Disallow: /
禁止除Google外的一切搜索引擎索引你的網(wǎng)站

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

禁止除百度外的一切搜索引擎索引你的網(wǎng)站

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

禁止蜘蛛訪問(wèn)某個(gè)目錄
（例如禁止admin\css\images被索引）

User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

允許訪問(wèn)某個(gè)目錄中的某些特定網(wǎng)址

User-agent: *
Allow: /css/my
Allow: /adminml
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/

使用“*”，限制訪問(wèn)某個(gè)后綴的域名,，例如索引訪問(wèn)admin目錄下所有ASP的文件

User-agent: *
Disallow: /admin/*.htm

使用“$”僅允許訪問(wèn)某目錄下某個(gè)后綴的文件

User-agent: *
Allow: .asp$
Disallow: /

禁止索引網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面（這里限制的是有“?”的域名,，例如index.asp?id=1）

User-agent: *
Disallow: /*?*

有些時(shí)候，我們?yōu)榱斯?jié)省服務(wù)器資源,，需要禁止各類搜索引擎來(lái)索引我們網(wǎng)站上的圖片,，這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外，還可以采取直接屏蔽圖片后綴名的方式,。具體辦法如下,。

語(yǔ)法作用

寫法

禁止Google搜索引擎抓取你網(wǎng)站上的所有圖片(如果你的網(wǎng)站使用其他后綴的圖片名稱,，在這里也可以直接添加)

User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

禁止百度搜索引擎抓取你網(wǎng)站上的所有圖片

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

除了百度之外和Google之外，禁止其他搜索引擎抓取你網(wǎng)站的圖片(注意,，在這里為了讓各位看的更明白,，因此使用一個(gè)比較笨的辦法——對(duì)于單個(gè)搜索引擎單獨(dú)定義。)

User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

僅僅允許百度抓取網(wǎng)站上的“JPG”格式文件（其他搜索引擎的辦法也和這個(gè)一樣,，只是修改一下搜索引擎的蜘蛛名稱即可）

User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

僅僅禁止百度抓取網(wǎng)站上的“JPG”格式文件

User-agent: Baiduspider
Disallow: .jpg$

如果你看完以上這些,，并記下，相信你對(duì)robots.txt已經(jīng)有基本了解和認(rèn)識(shí),。光知道還不是你的,，要能在網(wǎng)站上運(yùn)用出來(lái)，知識(shí)才是你的,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：顧于思文摘館 > 《技術(shù)》

舉報(bào)/認(rèn)領(lǐng)