全面了解SEO搜索引擎知識有助于做好SEO(新手必看)

軍休強軍路 2016-01-20

展開全文

全面了解SEO搜索引擎知識有助于做好SEO(新手必看)

作者：佚名字體：[增加減小] 來源：互聯(lián)網(wǎng) 時間：11-02 16:57:46 我要評論

搜索引擎的工作的過程非常復雜,，而簡單的講搜索引擎的工過程大體可以分成三個階段,，爬行和抓取，預處理,，排名,，本文給大家介紹全面了解搜索引擎知識有助于做好SEO(新手必看),，感興趣的朋友一起學習吧

搜索引擎的工作的過程非常復雜，而簡單的講搜索引擎的工過程大體可以分成三個階段,。爬行和抓取：搜索引擎蜘蛛通過跟蹤鏈接訪問頁面,，獲取頁面HTML代碼存入數(shù)據(jù)庫。預處理：搜索贏球?qū)ψト淼捻撁鏀?shù)據(jù)文字進行文字提取,、中文分詞,、索引等處理，以備排名程序調(diào)用,。排名：用戶輸入關(guān)鍵字后,，排名調(diào)用索引庫數(shù)據(jù),，計算相關(guān)性,，然后按一定格式生成搜索結(jié)果頁面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,，完成數(shù)據(jù)收集任務,。

蜘蛛

搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider)，也稱為機器人(bot),。

蜘蛛代理名稱：

百度蜘蛛：Baiduspider+(+http://www.baidu.com/search/spider.htm) ·

雅虎中國蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc./help.html) ·

英文雅虎蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

Google 蜘蛛：Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) ·

微軟 Bing 蜘蛛：msnbot/1.1 (+http://search./msnbot.htm)·

搜狗蜘蛛： Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) ·

搜搜蜘蛛：Sosospider+(+http://help.soso.com/webspider.htm) ·

有道蜘蛛：Mozilla/5.0 (compatible; YodaoBot/1.0; http://www./help/webmaster/spider/; )

跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面,，搜索引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬到下一個頁面,，就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,，這也就是搜索引擎蜘蛛這個名稱的由來。最簡單的爬行遍歷策略分為兩種,，一是深度優(yōu)先,，二是廣度優(yōu)先。

深度優(yōu)先搜索

深度優(yōu)先搜索就是在搜索樹的每一層始終先只擴展一個子節(jié)點,，不斷地向縱深前進直到不能再前進(到達葉子節(jié)點或受到深度限制)時,，才從當前節(jié)點返回到上一級節(jié)點，沿另一方向又繼續(xù)前進,。這種方法的搜索樹是從樹根開始一枝一枝逐漸形成的,。

深度優(yōu)先搜索亦稱為縱向搜索。由于一個有解的問題樹可能含有無窮分枝,，深度優(yōu)先搜索如果誤入無窮分枝(即深度無限),，則不可能找到目標節(jié)點。所以,，深度優(yōu)先搜索策略是不完備的,。另外，應用此策略得到的解不一定是最佳解(最短路徑),。

廣度優(yōu)先搜索

在深度優(yōu)先搜索算法中,，是深度越大的結(jié)點越先得到擴展,。如果在搜索中把算法改為按結(jié)點的層次進行搜索，本層的結(jié)點沒有搜索處理完時,，不能對下層結(jié)點進行處理,，即深度越小的結(jié)點越先得到擴展，也就是說先產(chǎn)生的結(jié)點先得以擴展處理,，這種搜索算法稱為廣度優(yōu)先搜索法,。

在深度優(yōu)先搜索算法中，是深度越大的結(jié)點越先得到擴展,。如果在搜索中把算法改為按結(jié)點的層次進行搜索,，本層的結(jié)點沒有搜索處理完時，不能對下層結(jié)點進行處理,，即深度越小的結(jié)點越先得到擴展,，也就是說先產(chǎn)生的結(jié)點先得以擴展處理，這種搜索算法稱為廣度優(yōu)先搜索法,。

吸引蜘蛛

哪些頁面被認為比較重要呢?有幾方面影響因素：

· 網(wǎng)站和頁面權(quán)重,。質(zhì)量高、資格老的網(wǎng)站被認為權(quán)重比較高,，這種網(wǎng)站上的頁面被爬行的深度也會比較高,，所以會有更多內(nèi)頁被收錄。

· 頁面更新度,。蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來,。如果第二次爬行發(fā)現(xiàn)頁面與第一次收錄的完全一樣，說明頁面沒有更新,，蜘蛛也就沒有必要經(jīng)常抓取,。如果頁面內(nèi)容經(jīng)常更新，蜘蛛就會更加頻繁地訪問這種頁面,，頁面上出現(xiàn)的新鏈接,，也自然會被蜘蛛更快跟蹤，抓取新頁面,。

· 導入鏈接,。無論是外部鏈接還是同一個網(wǎng)站的內(nèi)部鏈接，要被蜘蛛抓取就必須有導入鏈接進入頁面,，否則蜘蛛根本沒有機會知道頁面的存在,。高質(zhì)量的導入鏈接也經(jīng)常使頁面上的導出鏈接被爬行深度增加。一般來說網(wǎng)站上權(quán)重最高的是首頁,，大部分外部鏈接是指向首頁,，蜘蛛訪問最頻繁的也是首頁。離首頁點擊距離越近,，頁面權(quán)重越高,，被蜘蛛爬行的機會也越大,。

地址庫

為了避免重復爬行和抓取網(wǎng)址，搜索引擎會建立一個地址庫,，記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,，以及已經(jīng)被抓取的頁面。地址庫中的uRL有幾個來源：

(1)人工錄入的種子網(wǎng)站,。

(2)蜘蛛抓取頁面后,，從HTML中解析出新的鏈接uRL，與地址庫中的數(shù)據(jù)進行對比,，如果是地址庫中沒有的網(wǎng)址,，就存入待訪問地址庫。

(3)站長通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)址,。

蜘蛛按重要性從待訪問地址庫中提取uRL,，訪問并抓取頁面，然后把這個uRL從待訪問地址庫中刪除,，放進已訪問地址庫中,。

大部分主流搜索引擎都提供一個表格，讓站長提交網(wǎng)址,。不過這些提交來的網(wǎng)址都只是存入地址庫而已，是否收錄還要看頁面重要性如何,。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的,。可以說提交頁面基本t是毫無用處的,，搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面,。

文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的,。每個uRI,，都有一個獨特的文件編號。

爬行時的復制內(nèi)容檢測

檢測并刪除復制內(nèi)容通常是在下面介紹的預處理過程中進行的,，但現(xiàn)在的蜘蛛在爬行和抓取文件時也會進行定程度的復制內(nèi)容檢測,。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時，很可能不再繼續(xù)爬行,。這也就是有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,，但頁面從來沒有被真正收錄過的原因。

預處理

在一些SEO材料中,，“預處理”也被簡稱為“索引”,，因為索引是預處理最主要的步驟。

搜索引擎蜘蛛抓取的原始頁面,，并不能直接用于查詢排名處理,。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,，用戶輸入搜索詞后，靠排名程序?qū)崟r對這么多頁面分析相關(guān)性,，計算量太大,，不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來的頁面必須經(jīng)過預處理,，為最后的查詢排名做好準備,。

和爬行抓取一樣，預處理也是在后臺提前完成的,，用戶搜索時感覺不到這個過程,。

1.提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎。蜘蛛抓取到的頁面中的HTML代碼,，除了用戶在瀏覽器上可以看到的可見文字外,，還包含了大量的HTML格式標簽、 JavaScript程序等無法用于排名的內(nèi)容,。搜索引擎預處理首先要做的就是從HTML文件中去除標簽,、程序，提取出可以用于排名處理的網(wǎng)頁面文字內(nèi) 容,。

今天愚人節(jié)哈

除去HTML代碼后,，剩下的用于排名的文字只是這一行：

今天愚人節(jié)哈

除了可見文字，搜索引擎也會提取出一些特殊的包含文字信息的代碼,，如Meta標簽中的文字,、圖片替代文字、Flash文件的替代文字,、鏈接錨文字等,。

2.中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎的,。英文等語言單詞與單詞之間有空格分隔,，搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,，一個句子中的所有字和詞都是連在一起的,。搜索引擎必須首先分辨哪幾個字組成一個詞，哪些字本身就是一個詞,。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞,。

中文分詞方法基本上有兩種，一種是基于詞典匹配,，另一種是基于統(tǒng)計,。

基于詞典匹配的方法是指，將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,，或者說切分出一個單詞,。

按照掃描方向，基于詞典的匹配法可以分為正向匹配和逆向匹配,。按照匹配長度優(yōu)先級的不同,，又可以分為最大匹配和最小匹配。將掃描方向和長度優(yōu)先混合,，又可以產(chǎn)生正向最大匹配,、逆向最大匹配等不同方法。

詞典匹配方法計算簡單,，其準確度在很大程度上取決于詞典的完整性和更新情況,。

基于統(tǒng)計的分詞方法指的是分析大量文字樣本，計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,，幾個字相鄰出現(xiàn)越多,，就越可能形成一個單詞?；诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應更快速,，也有利于消除歧義。

基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,，實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,，快速高效，又能識別生詞,、新詞,，消除歧義。

中文分詞的準確性往往影響搜索引擎排名的相關(guān)性,。比如在百度搜索“搜索引擎優(yōu)化”，從快照中可以看到,，百度把“搜索引擎優(yōu)化”這六個字當成一個詞,。

而在Google搜索同樣的詞，快照顯示Google將其分切為“搜索引擎”和“優(yōu)化”兩個詞,。顯然百度切分得更為合理,，搜索引擎優(yōu)化是一個完整的概念。Google分詞時傾向于更為細碎,。

這種分詞上的不同很可能是一些關(guān)鍵詞排名在不同搜索引擎有不同表現(xiàn)的原因之一,。比如百度更喜歡將搜索詞完整匹配地出現(xiàn)在頁面上，也就是說搜索“夠戲博客” 時,，這四個字連續(xù)完整出現(xiàn)更容易在百度獲得好的排名,。Google就與此不同，不太要求完整匹配,。一些頁面出現(xiàn)“夠戲”和“博客”兩個詞,，但不必完整匹配地出現(xiàn),，“夠戲”出現(xiàn)在前面，“博客”出現(xiàn)在頁面的其他地方,，這樣的頁面在Google搜索“夠戲博客”時,，也可以獲得不錯的排名。

搜索引擎對頁面的分詞取決于詞庫的規(guī)模,、準確性和分詞算法的好壞,，而不是取決于頁面本身如何，所以SEO人員對分詞所能做的很少,。唯一能做的是在頁面上用某種形式提示搜索引擎,，某幾個字應該被當做一個詞處理，尤其是可能產(chǎn)生歧義的時候,，比如在頁面標題,、h1標簽及黑體中出現(xiàn)關(guān)鍵詞。如果頁面是關(guān)于“和服”的內(nèi) 容,，那么可以把“和服”這兩個字特意標為黑體,。如果頁面是關(guān)于“化妝和服裝”，可以把“服裝”兩個字標為黑體,。這樣,，搜索引擎對頁面進行分析時就知道標為黑體的應該是一個詞。

3.去停止詞

無論是英文還是中文,，頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,，卻對內(nèi)容沒有任何影響的詞，如“的”,、“地”,、“得”之類的助詞，“啊”,、“哈”,、“呀”之類的感嘆詞，“從而”,、“以”,、“卻”之類的副詞或介詞。這些詞被稱為停止詞,，因為它們對頁面的主要意思沒什么影響,。英文中的常見停止詞有the，a,，an,，to，of等。

搜索引擎在索引頁面之前會去掉這些停止詞,，使索引數(shù)據(jù)主題更為突出,，減少無謂的計算量。

4.消除噪聲

絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,，比如版權(quán)聲明文字,、導航條、廣告等,。以常見的博客導航為例,，幾乎每個博客頁面上都會出現(xiàn)文章分類、歷史存檔等導航內(nèi)容,，但是這些頁面本身與“分類”,、“歷史”這些詞都沒有任何關(guān)系。用戶搜索“歷史”,、“分類”這些關(guān)鍵詞時僅僅因為頁面上有這些詞出現(xiàn)而返回博客帖子是毫無意義的,，完全不相關(guān)。所以這些區(qū)塊都屬于噪聲,，對頁面主題只能起到分散作用,。

搜索引擎需要識別并消除這些噪聲，排名時不使用噪聲內(nèi)容,。消噪的基本方法是根據(jù)HTML標簽對頁面分塊,，區(qū)分出頁頭、導航,、正文,、頁腳、廣告等區(qū)域,，在網(wǎng)站上大量重復出現(xiàn)的區(qū)塊往往屬于噪聲,。對頁面進行消噪后，剩下的才是頁面主體內(nèi)容,。

5.去重

搜索引擎還需要對頁面進行去重處理,。

同一篇文章經(jīng)常會重復出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上，搜索引擎并不喜歡這種重復性的內(nèi)容,。用戶搜索時，如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,，用戶體驗就太差了,，雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,，所以在進行索引前還需要識別和刪除重復內(nèi)容,，這個過程就稱為“去重”。

去重的基本方法是對頁面特征關(guān)鍵詞計算指紋，也就是說從頁面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞),，然后計算這些關(guān)鍵詞的數(shù)字指紋,。這里的關(guān)鍵詞選取是在分詞、去停止詞,、消噪之后,。實驗表明，通常選取10個特征關(guān)鍵詞就可以達到比較高的計算準確性,，再選取更多詞對去重準確性提高的貢獻也就不大了,。

典型的指紋計算方法如MD5算法(信息摘要算法第五版)。這類指紋算法的特點是,，輸入(特征關(guān)鍵詞)有任何微小的變化,，都會導致計算出的指紋有很大差距。

了解了搜索引擎的去重算法,，SEO人員就應該知道簡單地增加“的”,、“地”、“得”,、調(diào)換段落順序這種所謂偽原創(chuàng),，并不能逃過搜索引擎的去重算法，因為這樣的操作無法改變文章的特征關(guān)鍵詞,。而且搜索引擎的去重算法很可能不止于頁面級別,，而是進行到段落級別，混合不同文章,、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng),。

6.正向索引

正向索引也可以簡稱為索引。

經(jīng)過文字提取,、分詞,、消噪、去重后,，搜索引擎得到的就是獨特的,、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容,。接下來搜索引擎索引程序就可以提取關(guān)鍵詞,，按照分詞程序劃分好的詞，把頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,，同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率,、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標題標簽,、黑體,、H標簽、錨文字等)、位置(如頁面第一段文字等),。這樣,，每一個頁面都可以記錄為一串關(guān)鍵詞集合，其中每個關(guān)鍵詞的詞頻,、格式,、位置等權(quán)重信息也都記錄在案。

搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進索引庫,。簡化的索引詞表形式如表2-1所示,。

每個文件都對應一個文件ID，文件內(nèi)容被表示為一串關(guān)鍵詞的集合,。實際上在搜索引擎索引庫中,，關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID.這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

7.倒排索引

正向索引還不能直接用于排名,。假設用戶搜索關(guān)鍵詞2,，如果只存在正向索引，排名程序需要掃描所有索引庫中的文件,，找出包含關(guān)鍵詞2的文件,，再進行相關(guān)性計算。這樣的計算量無法滿足實時返回排名結(jié)果的要求,。

所以搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,，把文件對應到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射，如表2-2所示,。

在倒排索引中關(guān)鍵詞是主鍵,，每個關(guān)鍵詞都對應著一系列文件，這些文件中都出現(xiàn)了這個關(guān)鍵詞,。這樣當用戶搜索某個關(guān)鍵詞時,，排序程序在倒排索引中定位到這個關(guān)鍵詞，就可以馬上找出所有包含這個關(guān)鍵詞的文件,。

8.鏈接關(guān)系計算

鏈接關(guān)系計算也是預處理中很重要的一部分?，F(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。搜索引擎在抓取頁面內(nèi)容后,，必須事前計算出：頁面上有哪些鏈接指向哪些其他頁面,，每個頁面有哪些導入鏈接，鏈接使用了什么錨文字,，這些復雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重,。

Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。其他搜索引擎也都進行類似計算,，雖然它們并不稱為PR.

由于頁面和鏈接數(shù)量巨大，網(wǎng)上的鏈接關(guān)系又時時處在更新中，因此鏈接關(guān)系及PR的計算要耗費很長時間,。關(guān)于PR和鏈接分析,，后面還有專門的章節(jié)介紹。

9.特殊文件處理

除了HTML文件外,，搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,，如PDF、Word,、WPS,、XLS、PPT,、TXT文件等,。我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片,、視頻,、Flash這類非文字內(nèi)容，也不能執(zhí)行腳本和程序,。

雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進步,，不過距離直接靠讀取圖片、視頻,、Flash內(nèi)容返回結(jié)果的目標還很遠,。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,，詳細情況可以參考后面的整合搜索部分,。

排名

經(jīng)過搜索引擎蜘蛛抓取的界面，搜索引擎程序計算得到倒排索引后,，收索引擎就準備好可以隨時處理用戶搜索了,。用戶在搜索框填入關(guān)鍵字后，排名程序調(diào)用索引庫數(shù)據(jù),，計算排名顯示給客戶,，排名過程是與客戶直接互動的。

Tag：搜索引擎 SEO

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

全面了解SEO搜索引擎知識有助于做好SEO(新手必看)

全面了解SEO搜索引擎知識有助于做好SEO(新手必看)

相關(guān)文章