SEO之搜索引擎爬蟲時(shí)間:2009-08-31 來源:優(yōu)友網(wǎng) 作者:佚名 影響:43人 網(wǎng)絡(luò)營銷論壇 我要投稿
一,、什么是搜索引擎爬蟲程序 網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,,更經(jīng)常的稱為網(wǎng)頁追逐者),,是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本,。另外一些不常使用的名字還有螞蟻,,自動(dòng)索引,模擬程序或者蠕蟲,。
這些處理被稱為網(wǎng)絡(luò)抓取或者蜘蛛爬行,。很多站點(diǎn),尤其是搜索引擎,,都使用爬蟲提供最新的數(shù)據(jù),,它主要用于提供它訪問過頁面的一個(gè)副本,然后,,搜索引 擎就可以對(duì)得到的頁面進(jìn)行索引,,以提供快速的訪問。蜘蛛也可以在web上用來自動(dòng)執(zhí)行一些任務(wù),,例如檢查鏈接,,確認(rèn)html代碼; 也可以用來抓取網(wǎng)頁上某 種特定類型信息,例如抓取電子郵件地址(通常用于垃圾郵件),。
一個(gè)網(wǎng)絡(luò)蜘蛛就是一種機(jī)器人,,或者軟件代理。大體上,,它從一組要訪問的URL鏈接開始,,可以稱這些URL為種子。爬蟲訪問這些鏈接,,它辨認(rèn)出這些頁面的所有超鏈接,,然后添加到這個(gè)URL列表,可以稱作檢索前沿,。這些URL按照一定的策略反復(fù)訪問,。
二,、爬蟲程序的種類以及分辨
搜索引擎派出他們的爬蟲程序去訪問、索引網(wǎng)站內(nèi)容,,但是由于搜索引擎派爬蟲程序來訪會(huì)在一定程度上影響網(wǎng)站性能,。在你的服務(wù)器日志文件中,可見每次 訪問的路徑和相應(yīng)的 IP 地址,,如果是爬蟲程序來訪,, 則user-agent 會(huì)顯示 Googlebot 或MSNBot 等搜索引擎爬蟲程序名稱,每個(gè)搜索引擎都有自己的user-agent,。
三,、國內(nèi)主要的爬蟲程序
百度 baidu.com--Baiduspider
谷歌 google.com--Googlebot
雅虎 yahoo.com--Yahoo
有道 --YodaoBot
搜搜 soso.com--Sosospider/Sosoimagespider
搜狗 sogou.com--sogou
微軟 --msnbot
優(yōu)友網(wǎng)網(wǎng)絡(luò)營銷精讀.原文鏈接:http://www./seo/js/200908/314355.html |
|