隨著Internet的飛速發(fā)展,,WWW網(wǎng)上用戶和網(wǎng)上資源均呈爆炸性的增長(zhǎng),,要想從網(wǎng)上快速、高效,、全面地獲取自己所需要的中文信息資料,,沒有搜索引擎的幫助,,將是十分困難的。下面筆者就搜索引擎的一些檢索技巧,,談?wù)勛约涸趯?shí)際應(yīng)用中的體會(huì),,以幫助讀者更好地使用中文搜索引擎來查找信息資料。
1 搜索引擎分類特點(diǎn)
網(wǎng)絡(luò)搜索引擎又稱網(wǎng)絡(luò)檢索引擎,,是一些在web中主動(dòng)搜索信息并將其自動(dòng)索引的web網(wǎng)點(diǎn),。廣義上是指一種基于Internet的信息查詢系統(tǒng),,包括信息存取、信息管理和信息檢索,;狹義上指一種為搜索Internet上的網(wǎng)頁(yè)而設(shè)計(jì)的檢索軟件,,其索引內(nèi)容存儲(chǔ)于可供查詢的大型數(shù)據(jù)庫(kù)中。
根據(jù)搜索方式的不同,,搜索引擎可分為二類:
(1)全文(網(wǎng)頁(yè)級(jí))搜索(Full Text Search)引擎,,例如天網(wǎng)。它通過運(yùn)行一軟件“Robot”或“Spider”,,沿著WWW文件間的鏈接自動(dòng)在網(wǎng)上漫游,,不斷搜集各類新網(wǎng)址及網(wǎng)頁(yè),記錄URL文件的簡(jiǎn)明概要,、關(guān)鍵字或索引,,形成成千上萬(wàn)記錄的數(shù)據(jù)庫(kù)。只要用戶輸入查詢的關(guān)鍵字在數(shù)據(jù)庫(kù)中某主頁(yè)出現(xiàn),,則這主頁(yè)就會(huì)作為匹配結(jié)果返回給用戶,。全文搜索引擎有許多優(yōu)點(diǎn)①全文搜索;②檢索功能強(qiáng),。③信息更新速度快,。但同時(shí)也有其不足之處:提供的信息雖然多而全,但可供選擇的信息太多反而降低相應(yīng)的命中率,,并且提供的查詢結(jié)果重復(fù)鏈接較多,,層次結(jié)構(gòu)不清晰,給人一種繁多雜亂的感覺,。
(2)目錄(Directory)分類式(網(wǎng)站級(jí))搜索引擎,,如Yahoo!。它與全文搜索引擎的區(qū)別在于它是由人工建立的,,通過“人工方式”將站點(diǎn)進(jìn)行了分類,,不像全文搜索引擎那樣,將網(wǎng)站上的所有文章和信息都收錄進(jìn)去,,而是首先將該網(wǎng)站劃分到某個(gè)分類下,,再記錄一些摘要信息,,對(duì)該網(wǎng)站進(jìn)行概述性的簡(jiǎn)要介紹,,用戶提出搜索要求時(shí),搜索引擎只在網(wǎng)站的簡(jiǎn)介中搜索,。其優(yōu)點(diǎn):①層次,、結(jié)構(gòu)清晰,易于查找,;②多級(jí)類目,,便于查詢到具體明確的主題,;③內(nèi)容提要、分類目錄下,,有簡(jiǎn)明扼要的內(nèi)容,,可以使用戶一目了然。其缺點(diǎn)是搜索范圍較??;更新速度慢;查詢交叉類目時(shí)容易遺漏,。
目前,,這二類搜索引擎之間的界限越來越模糊,具體使用何種搜索引擎,,要根據(jù)不同的檢索目的來確定,。
2 介紹幾種WWW上重要的中文搜索引擎
2.1 天網(wǎng)中文搜索引擎(http://pccms.pku.edu.cn:8000/gbindex.htm):目前收集了約100萬(wàn)個(gè)網(wǎng)頁(yè)(國(guó)內(nèi))和14萬(wàn)篇新聞組文章(香港),主要是中國(guó)教育和科研計(jì)算機(jī)網(wǎng)上的Web資源,。用戶可以選擇查詢匹配程度(精確匹配,、模糊匹配)、查詢范圍(Web,、Newsgroup),、顯示模式(標(biāo)準(zhǔn)、簡(jiǎn)要),。天網(wǎng)檢索命中率高,,但重復(fù)網(wǎng)頁(yè)較多。
2.2 中文雅虎搜索引擎(http://www.yahoo.com):是最常用的搜索引擎之一,,提供三種信息查詢方式:歸類信息瀏覽,、主題查詢和關(guān)鍵詞搜索。它以分類目錄的形式將標(biāo)引內(nèi)容分為藝術(shù),、商業(yè)與經(jīng)濟(jì),、計(jì)算機(jī)和Internet、教育等14大類,,用戶可以關(guān)鍵詞的方式查詢它的目錄,。雅虎目錄最大特點(diǎn)是信息的分類工作由十幾位專家手工制作,更具科學(xué)性,。與其他中文搜索引擎相比,,中文Yahoo!在搜索速度方面占有優(yōu)勢(shì)。
2.3 悠游中文搜索引擎(http://www.):其界面和搜索方式與雅虎相似,,有超智能的Robot系統(tǒng),,收集至少70萬(wàn)個(gè)中文網(wǎng)頁(yè),自動(dòng)轉(zhuǎn)換中文繁、簡(jiǎn)體,。它有三種搜索方式:(1)“鍵入”,,即“智慧型搜索、匹配型搜索”,;(2)“選項(xiàng)”——如果用戶不懂任何中文輸入法,,可以使用此項(xiàng)分類檢索。它提供14類選項(xiàng),,每一選項(xiàng)包羅數(shù)個(gè)分類項(xiàng)目供用戶選擇,;(3)“其它”——收錄了6個(gè)英文搜索引擎,當(dāng)用它查不出中文時(shí),,就去查英文,。
2.4 網(wǎng)典搜索引擎(http:/www.wander.com.cn):是一個(gè)基于漢語(yǔ)語(yǔ)法、詞的上下文和語(yǔ)義等中文信息處理技術(shù),,自動(dòng)收集,、識(shí)別Internet網(wǎng)上的www和News信息,智能化地提取摘要和關(guān)鍵詞,、建立索引,、提供查詢和對(duì)不良信息的監(jiān)控、報(bào)警功能的網(wǎng)絡(luò)信息自動(dòng)發(fā)現(xiàn)和查詢系統(tǒng),,采用可伸縮的分布式結(jié)構(gòu),,提供多功能、智能化的用戶檢索接口,,既可以使用www瀏覽器交互式的訪問,,也可以發(fā)E-mail來檢索。
2.5 搜狐網(wǎng)絡(luò)搜索引擎(http://www.):提供一個(gè)分類詳盡的Web目錄,,須用樹型結(jié)構(gòu)對(duì)站點(diǎn)進(jìn)行層次性分類,。相對(duì)于其它的搜索引擎,搜狐中文檢索系統(tǒng)具有以下的強(qiáng)勁優(yōu)勢(shì):獨(dú)特的中文分詞功能,;完美的分?jǐn)?shù)評(píng)估體系,;似人的思維包含模式,可以實(shí)現(xiàn)“專題搜索”,,自行定義搜索專題,。
2.6 司南中文網(wǎng)上信息檢索(htpp://www.yippee.com.cn):結(jié)構(gòu)模仿著名的搜索引擎雅虎,采用關(guān)鍵詞檢索機(jī)制,,但是在內(nèi)容上只收錄以中國(guó)大陸為主,,包括世界各個(gè)國(guó)家和地區(qū)在內(nèi)的中文WWW網(wǎng)頁(yè)的網(wǎng)址的中文信息,并將所有的信息分為自然科學(xué),、社會(huì)與文化,、娛樂與休閑等14個(gè)大類。
2.7 搜索客全中文搜索引擎(http:/www.cseek.com):采用分類檢索,,將智能檢索與人工分類相結(jié)合,。特點(diǎn)是全中文檢索;支持多種組合邏輯查詢,;有中國(guó)最大的站點(diǎn)數(shù)據(jù)庫(kù),,每日更新1.5GB數(shù)據(jù);能自動(dòng)識(shí)別GB碼和BIG5碼,。
現(xiàn)將上述幾種搜索引擎的異同點(diǎn)做如下比較(見表1),。
3 提高檢索技巧,有效利用搜索引擎
3.1 確定使用哪一類搜索引擎,,這是信息檢索關(guān)鍵的一步,。因?yàn)槊總€(gè)搜索引擎有各自的優(yōu)缺點(diǎn),在索引資源,、用戶界面,、功能設(shè)置、檢索速度,、檢索數(shù)量,、收錄范圍、查詢理論,、查詢技術(shù),、查詢方法等方面都不盡相同,導(dǎo)致每個(gè)搜索引擎在信息查全率,、查準(zhǔn)率和易用上的差別也很大,。
一般地,如果用戶查詢的主題不太明確,,不能準(zhǔn)確地確定搜索的是什么或搜索的主題范圍很廣,、概念很泛時(shí),或只是對(duì)一般性的新聞事件進(jìn)行搜索時(shí)采用目錄式搜索引擎,。例如:要了解澳門的一些情況,,不妨使用Yahoo!目錄分類式搜索引擎,選用“澳門現(xiàn)狀”作為關(guān)鍵詞進(jìn)行查詢,,結(jié)果有1個(gè)網(wǎng)站,、40個(gè)網(wǎng)頁(yè)和20條有關(guān)的新聞符合檢索字串要求。
如果主題范圍較狹小,,有特定主題,,或者是要獲取有關(guān)交叉性、細(xì)節(jié)性問題的信息,,檢索時(shí)采用全文搜索引擎,。例如想了解澳門大學(xué)的情況,用天網(wǎng)搜索引擎,選用“澳門大學(xué)”為關(guān)鍵詞,,返回結(jié)果有28條,。如果用Yahoo!搜索引擎,查詢結(jié)果只有1個(gè)網(wǎng)站和2條新聞符合檢索字串,,而且其中有好多信息是與主題詞毫無關(guān)聯(lián)的,。
3.2 仔細(xì)研究一下所選搜索引擎主頁(yè)上的說明,能夠極大地提高搜索效率,,節(jié)省時(shí)間,。曾經(jīng)有人做過一項(xiàng)調(diào)查,結(jié)果僅有20%的人仔細(xì)研究過各大搜索引擎的說明,。其實(shí)花上一點(diǎn)時(shí)間,,了解各種搜索引擎的功能、使用方面的特點(diǎn)和技巧,,有助于快速高效地查找所需的信息資料,。
3.3 使用操作符改善檢索過程。許多站點(diǎn)允許使用布爾操作符,,其基本操作是And,、Or、Not,。我們可以通過查看,、分析搜索結(jié)果,再利用布爾操作符來擴(kuò)大或縮小檢索范圍,。
如果返回的結(jié)果極少,,可以檢查一下你的關(guān)鍵字中有沒有錯(cuò)別字或語(yǔ)法錯(cuò)誤,也可能是搜索表達(dá)式所設(shè)定的范圍太窄了,,比如把一大串詞都用“And”或者“+”連起來,,結(jié)果當(dāng)然很少了。為了盡可能全面檢索到所需信息,,有時(shí)需要適當(dāng)擴(kuò)大檢索范圍,,去掉一些諸如“And”、“+”之類的連接符號(hào),,多加上一些同義詞,、近義詞,用“Or”連接,,以提高查全率,。值得注意的是,用同義詞進(jìn)行查找,,例如用“電腦”,、“計(jì)算機(jī)”或“COMPUTER”進(jìn)行搜索時(shí),,三者的查詢結(jié)果是不同的。
如果返回的結(jié)果成千上萬(wàn),,而且許多信息對(duì)用戶來講毫無意義,,這時(shí)縮小檢索范圍是提高查準(zhǔn)率的關(guān)鍵。構(gòu)造恰當(dāng)?shù)臋z索表達(dá)式,,輸入盡可能多而精確的詞或詞組,。對(duì)于所有的搜索引擎來說,,在搜索框內(nèi)輸入的描述單詞越多,,查得的相關(guān)結(jié)果越少,提供的詞組越精確,,檢索結(jié)果就越好,。也可使用特定的詞匯來縮小搜索范圍,比如不用“動(dòng)物”而用“熊貓”,。使用固定詞組,,也就是具有固定搭配的詞。利用進(jìn)隊(duì)檢索功能,,即利用前一次檢索的結(jié)果作為后一次檢索的范圍,,逐步縮小檢索范圍。例如中文雅虎搜索引擎有一些特定的進(jìn)階檢索格式用來獲得更精確的檢索結(jié)果,,其中之一是利用雙引號(hào)查詢完全符合關(guān)鍵字串的網(wǎng)站,,當(dāng)鍵入“電子音樂”時(shí),會(huì)找出包含中文輸入的網(wǎng)站,,但是會(huì)忽略包含“電子爵士音樂”的網(wǎng)站,。
再比如要了解澳門一些大學(xué)的情況,選用“澳門”,、“大學(xué)”為主題詞,,用邏輯“與”的關(guān)系,運(yùn)用天網(wǎng)搜索引擎進(jìn)行查詢,,返回結(jié)果有687條,,查看其中有許多信息是毫無意義的。若以“澳門的大學(xué)”為主題詞,,命中0條,。重新確定主題詞,以“澳門”,、’高等院校”作為關(guān)鍵詞,,用邏輯“與”的關(guān)系,查詢結(jié)果有68條符合要求,,從中就可以找到澳門的三所院校“澳門大學(xué)”,、“澳門理工學(xué)院”,、“澳門高等校際學(xué)院”。
3.4 打開多個(gè)窗口,,進(jìn)行多種嘗試,。同時(shí)打開多個(gè)窗口進(jìn)行搜索,極大地減少等待時(shí)間,,提高搜索效率,。特別要注意的是,由于各種搜索引擎所覆蓋的網(wǎng)頁(yè)范圍,、數(shù)量以及側(cè)重點(diǎn)是不一樣的,,所以當(dāng)你第一次搜索失敗時(shí),不要輕易放棄,,可用多種搜索引擎進(jìn)行嘗試,。
3.5 要經(jīng)常監(jiān)控站點(diǎn)的各個(gè)主要搜索引擎的排名情況。要經(jīng)常分析訪問記錄中通過查詢搜索引擎而來的訪問者,,看看哪個(gè)引擎更有效,、為什么,人們搜索了一些什么詞等,。