Blog搜索在應(yīng)用層與傳統(tǒng)的baidu為代表的圖書館搜索有所不同,。后者以精準(zhǔn)資料獲取為目標(biāo),。根據(jù)blog posts的內(nèi)容與結(jié)構(gòu)特征,blog搜索更側(cè)重信息的時效特征,,以發(fā)掘群體正在談?wù)摰?、關(guān)注的主題為手段,力圖反映社會生活正在發(fā)生的變化與趨勢,。 目前blog搜索可分為四類,,一,、以國內(nèi)的8fang、feedsearch,、奇波搜索 為代表,,手工設(shè)定基于BSP列表的搜索范圍,輔助以用戶提交RSS或blog地址,,除體現(xiàn)時效與相關(guān)度外在搜索結(jié)果上與百度等圖書館搜索并無實質(zhì)差別,。 二、利用搜索技術(shù)搭建的內(nèi)容門戶,,例如:bolaa.com 解決blog信息分散,,抽取精華信息滿足漫無目的之讀者瀏覽習(xí)慣。三,、對posts的內(nèi)容與結(jié)構(gòu)進(jìn)行深入分析,,以國外的Technorati和 IceRocket為代表。通過對links,、Tag的分析,,將blogging作為群體思想、行為的風(fēng)向標(biāo),,反映現(xiàn)實社會的變化趨勢,。四、日報模式,,以megite,,memeorandum為代表,這是相關(guān)性搜索引擎,,對特定的blog列表進(jìn)行實時監(jiān)測,,通過追蹤posts內(nèi)的鏈接,挖掘blogger之間的交流脈絡(luò),,并以對話的形式呈現(xiàn),。 絕大部分blog分散在BSP中,大量相同主題的個人posts沒能以集中的方式形成社會性的影響力,。blogging作為個體行為不以媒體為目的,。但聚合后的blogging具有社會化的媒體效應(yīng),這與社會化網(wǎng)摘的實現(xiàn)過程有相似之處,。 基于搜索技術(shù)搭建博客社區(qū)是解決問題的方法之一,,并為blogger在加強(qiáng)與讀者間互動、形成廣泛人際關(guān)系圈等方面提供幫助,。 而從另一角度觀察,,blog搜索是以用戶產(chǎn)生的內(nèi)容為目標(biāo)的眾多垂直搜索技術(shù)應(yīng)用的分支。blog,、社會化相冊(flickr),、大眾點(diǎn)評,、分類廣告等是用戶產(chǎn)生內(nèi)容的代 大部分blogger并不想通過寫blog使自己成名人,但更多的關(guān)注與交流是能夠促進(jìn)作者的原創(chuàng),。 用戶內(nèi)容產(chǎn)生于以交流為導(dǎo)向的創(chuàng)作過程中,,這有可能聚合出社會化效應(yīng),這與傳統(tǒng)門戶所提供的內(nèi)容具有明顯區(qū)別,。用戶產(chǎn)生的內(nèi)容是自給自足,,是人們目的與需 求的主動描述,獲致用戶需求與滿足用戶需求同步發(fā)生,,這比傳統(tǒng)門戶在觀測用戶需求后,,進(jìn)而提供內(nèi)容滿足需求更具優(yōu)勢。 blog同論壇一樣蘊(yùn)藏著數(shù)量巨大,、分散的優(yōu)質(zhì)內(nèi)容,,高效集中的閱讀方式能夠幫助用戶便捷的獲取信息,利用內(nèi)容吸引流量這是“入口”的作用,。 內(nèi)容廣泛 Blog所記錄的內(nèi)容廣泛,,bolaa擁有16個大類(社會 軍事 科技 商業(yè) 思想 情感 生活 文化 圖片 互聯(lián)網(wǎng) 旅游 體育 教育 娛樂 隨筆 播客),,每個大類還包含若干小類。幾乎涵蓋了傳統(tǒng)新聞網(wǎng)站的所有信息類別,。 link是blog的靈魂 blogger在posts中廣泛應(yīng)用超鏈接,,超鏈接串連分散的posts形成不易察覺的脈絡(luò),,跟蹤反向鏈接幫助blogger發(fā)現(xiàn)與自己有關(guān)的blogs。構(gòu)成posts評價體系基礎(chǔ),。Technorati計算的方式被稱為Net Attention,,就是看有多少人鏈接了某用戶的blog。 blog系統(tǒng) 以MSN Space 為例,,包含的模塊有:1、網(wǎng)絡(luò)日志,;2、照片,;3,、列表,;4,、音樂;5,、檔案文件,;可能包含的內(nèi)容有:1、個人描述,;2,、日記、評論,;3、存檔,、分類;4,、回復(fù),、trackback;5,、好友列表,;6、相冊,;7,、mediaplay 播放列表;8,、網(wǎng)摘收藏,;9、文章轉(zhuǎn)貼;10,、Podcast,;11、其他聚合內(nèi)容,。 主文章列表自動生成RSS,,在其他blog系統(tǒng)中還會為分類文章、讀者回復(fù)提供RSS輸出,,使讀者能夠以更細(xì)化的方式訂閱內(nèi)容,。訂閱某用戶的RSS通常是指針對該RSS完成的。所以在某種程度上,,blogger用戶與缺省的RSS之間形成一一對應(yīng)的關(guān)系,,在第三方系統(tǒng)中例如:gougou,feedburner 中將用戶之間的訂閱關(guān)系作為人與人之間的社會關(guān)系描述出來,。 目前越來越的互聯(lián)網(wǎng)公司正通過各種服務(wù)(blog,,點(diǎn)評,,digg)或手段(搜索,,建立用戶關(guān)系與目的導(dǎo)向)獲取用戶產(chǎn)生的,具備足夠規(guī)模效應(yīng)的,,不同數(shù)據(jù)類型(評論,,blogposts,url,,圖片,,書名,音樂),。用戶產(chǎn)生的數(shù)據(jù)和網(wǎng)絡(luò)行為包含更豐富和明確的用戶需求描述與注意力趨向,,但這些數(shù)據(jù)并沒有以可直接利用的流量方式呈現(xiàn),并且隱蔽在不可見的blog圈中,。這有別于傳統(tǒng)搜索與門戶的廣告模式,。 對用戶產(chǎn)生內(nèi)容的利用,以tag,,link,,rss訂閱關(guān)系,trackback回復(fù)關(guān)系,,收藏行為,,digg行為等的分析為基礎(chǔ),使blogger的社會關(guān)系網(wǎng)清晰可見,,反映人們的注意力導(dǎo)向與需求趨勢是進(jìn)一步的應(yīng)用,。體現(xiàn)在以彌補(bǔ)個體注意力有限的日報模式(megite,memeorandum)與市場跟蹤咨詢模式(technorati)和集中閱讀的信息入口模式(bolaa),。 在bolaa的服務(wù)介紹中,強(qiáng)調(diào)為blog作者帶去流量并認(rèn)為進(jìn)而會產(chǎn)生更多的交流,,但從排行的結(jié)果看,,流量大的文章往往是轉(zhuǎn)貼新聞,誘導(dǎo)blogger 過分關(guān)注流量,,并不能促進(jìn)原創(chuàng),,卻會使轉(zhuǎn)載文章數(shù)量增加,。而轉(zhuǎn)載文章只能引發(fā)讀者評論,并不能促進(jìn)blogger之間的交流,,因為blogger之間是交 流是通過撰寫blog實現(xiàn)的,。 三、對posts內(nèi)容中的鏈接,,posts結(jié)構(gòu),,tag進(jìn)行分析,以Technorati和IceRocket為代表,。通過對links,、Tag的分析,獲得群體思想,、行為的風(fēng)向標(biāo),,反映現(xiàn)實社會的變化趨勢。 technorati沿用了傳統(tǒng)的page rank方式,。作為統(tǒng)計方式,。 在technorati中通過分析特定鏈接被作者引用的次數(shù)作為信息熱門的評議標(biāo)準(zhǔn)。以此為基礎(chǔ)在Popular中提供了新聞,,書籍,,電影的熱門排行以及blog排行。 用戶可自定義 watchlist 對自己感興趣的關(guān)鍵字進(jìn)行跟蹤,,而在tailrank中則是對個人訂閱列表(opml)的熱門排列,,這樣更實用,能夠提高讀者訂閱的rss閱讀效率,。 technorati是即時性搜索引擎并發(fā)揮到極至,,他的實時跟蹤,可每1分鐘刷新一次結(jié)果,,與其將technorati歸入搜索引擎,,不如說他是一個實時跟蹤引擎。 四,、meme引擎,,作為搜索一個活力十足的發(fā)展分支,這種日報模式,,反映某個領(lǐng)域(技術(shù),、政治)的最新熱門動態(tài),類似google的新聞搜索,。這類服務(wù)側(cè)重將分散的blog輿論凝聚成媒體力量,,當(dāng)有突發(fā)事件出現(xiàn)時,這類服務(wù)會成為人們獲取新聞的重要渠道,。 問題 2,、單純搜索能夠作為滿足目的明確用戶獲取信息的需求,,但不適應(yīng)漫無目標(biāo)的瀏覽。同時人們運(yùn)用blog搜索的目的并不是為了獲取精準(zhǔn)資料,,blog的寫作 特點(diǎn)也決定不允許人們這樣做,。人們利用blog搜索更是想跟蹤某一個主題的動態(tài),實時了解正在發(fā)生的交流或事件,。technorati的tag輸出被廣泛 訂閱也說明了這點(diǎn),。 3、大多數(shù)blog搜索依然局限于滿足精準(zhǔn)資料獲取,,輕視搜索用戶作為讀者之間的交流,,同時雖然搜索能夠為blog帶去流量,但無法將這種作用放大,。 3,、垃圾信息。technorati最新公布的調(diào)查數(shù)據(jù)顯示,,大約有9%的blog為spam,。其中一些是由軟件創(chuàng)建的blog或由軟件自動發(fā)布posts。 4,、一些支持多BSP的posts發(fā)布客戶端提供嵌入式廣告,,廣告鏈接是搜索分析link的干擾因素。 話題 2,、為blog搜索引入用戶系統(tǒng) 3,、當(dāng)blog圈能夠清晰可見,,職業(yè)流動、項目合作等能夠在blog圈中展開,。 4,、搜索結(jié)果可提交主流網(wǎng)摘系統(tǒng)或顯示該結(jié)果在主流網(wǎng)摘系統(tǒng)的收藏數(shù)量并作為結(jié)果排序的依據(jù) 5、關(guān)鍵字或Tag與blogger之間的對應(yīng)關(guān)系,,關(guān)鍵字或Tag對應(yīng)的作者群或作者數(shù) 6、為主題提供backtrack地址,,blogger可將自己的創(chuàng)作,,發(fā)送到主題的創(chuàng)作區(qū)。 7,、搜索時用戶輸入的關(guān)鍵字反映出人們的需求,,也從另一個角度反映人們的注意力,關(guān)注趨向,。 3,、blog搜索與digg類服務(wù)之間的利益關(guān)系 目標(biāo) 2、通過關(guān)鍵字或tag,,link,,將隱形的blog圈描述成清晰可見,,并以圈為單位反映其中的相關(guān)主題(tag,關(guān)鍵字),,圈中的作者,。讓讀者送入自己關(guān)注的圈中,發(fā)現(xiàn)其喜歡的blog,,或是以主題(關(guān)鍵字或tag)組織自己的閱讀圈,,創(chuàng)作圈,共享用戶數(shù)據(jù)(為搜索結(jié)果提交的鏈接),。 3,、聯(lián)合其他網(wǎng)站為搜索結(jié)果的后續(xù)處理提供方便服務(wù)譬如網(wǎng)摘,digg,,通過提供輔助服務(wù),,利用用戶行為優(yōu)化搜索結(jié)果排列。 4,、將blog搜索引擎作為讀者于blogger,,blogger之間互動的橋梁 5、滿足獲知“誰談?wù)撌裁础钡男枨蟆?1,、某個圈中,,某個主題的脈絡(luò)跟蹤(RSS輸出);2,、以某個搜索結(jié)果出發(fā)反向追蹤作者所屬于的圈子,,以及該文章的相關(guān)主題 6、反映人們的注意力趨向,,掌握人們潛在需求,。為其他行業(yè)提供社會需求數(shù)據(jù)。 附:有趣的服務(wù) |
|
來自: 鷹擊長空 > 《blog搜索引擎》