久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

百度算法中的中文切詞分詞系統(tǒng)

 一粒微塵1988 2016-07-31

百度作為中文搜索引擎的先驅(qū),,它的核心地位可以說在短時(shí)期是沒有任何搜索引擎可以超越的,百度的卓越成就在于它對博大精深的中國文化的領(lǐng)悟和對中文分詞的的超強(qiáng)功底,。百度受歡迎的主要原因除了用戶習(xí)慣的原因,,在較大程度上得益于百度算法的精準(zhǔn)率,搜索結(jié)果值更貼近用戶的想獲得的資訊。用一句廣告詞 “正是我想要的”來形容百度最恰當(dāng)不過了,。

正因?yàn)榘俣葘χ袊阉饕媸袌龅慕y(tǒng)治地位,,企業(yè)想在網(wǎng)上賺取大量的鈔票,就不得不依靠百度,。所以做搜索引擎的優(yōu)化實(shí)際上就是百度優(yōu)化,。但百度強(qiáng)大的反優(yōu)化能力和人工干預(yù)機(jī)制,使得眾多的優(yōu)化者以失敗以失敗告終,。對于大多數(shù)優(yōu)化者來說,,百度成了洪水猛獸。果真如此嗎,?網(wǎng)絡(luò)行銷大師鄧友成認(rèn)為不盡然,。只要是搜索引擎就離不開算法,任何算法都是有規(guī)律可循的,。下面我們深入淺出的探討一下百度的算法吧,。

. 搜索信息響應(yīng)

當(dāng)用戶向百度提出搜索請求后百度會迅速根據(jù)用戶的請求提供比較精準(zhǔn)的結(jié)果值。

1. 比喻當(dāng)用戶提交“搜索引擎 優(yōu)化技術(shù)”這個(gè)查詢文字串.百度會將文字串分割成若干子文字串,用空格,,標(biāo)點(diǎn)符等做細(xì)分處理,。那么這個(gè)文字串就可以分成“搜索引擎,優(yōu)化,,技術(shù)”,。

2. 如果用戶提交的請求有重復(fù)的文字符,例如”優(yōu)化 技術(shù)優(yōu)化”,百度會將重復(fù)的文字符看成一個(gè)。而字符的出現(xiàn)順序就忽略,。

3. 當(dāng)用戶提交請求中出現(xiàn)英文字符,百度一般會將英文字符當(dāng)作一個(gè)整體來看,并和中文詞分割開來,如果中文出現(xiàn)數(shù)字也是這樣處理的,。

百度通過切割,、重組、歸并,、減負(fù)等手段對用戶請求進(jìn)行精準(zhǔn)響應(yīng),,使搜索結(jié)果符合用戶的想法,以節(jié)省用戶的查詢時(shí)間,,提高查詢效率,。

. 中文核心分詞

中文分詞是百度算法的核心要素。按中文語法習(xí)慣,,三個(gè)字(含三個(gè)字)以下的文字符是獨(dú)立精準(zhǔn)的詞匯,,沒有重組的必要,所以百度對三個(gè)字(含三個(gè)字)以下的文字符不考慮細(xì)分,。這也是百度核心算法的第一層,,也是響應(yīng)數(shù)量最多的部分。一般這些文字符更新的時(shí)間比較慢一些,一周或兩周的時(shí)間,。屬于大更新的范疇,。

四個(gè)字符的百度就會毫不客氣的大卸十八塊比如,網(wǎng)絡(luò)工具這個(gè)文字串,,當(dāng)用戶發(fā)出搜索請求后,,會發(fā)現(xiàn)在搜索結(jié)果里面出現(xiàn)了紅色的標(biāo)記,已經(jīng)把這個(gè)文字符分成了“網(wǎng)絡(luò),,工具”,。當(dāng)然如果是四個(gè)字以上的文字串就更不用說了。會分成更多的分詞,。

三,、字詞匹配

大概了解了百度的分詞原理后,我們要了解的一個(gè)重要方面就是字詞的匹配問題,。如果不知道字詞的匹配,,做優(yōu)化就是空談了。

最大匹配法

最大匹配法亦稱MM法,。假設(shè)自動(dòng)分詞詞典(或詞庫)中的最長詞條是y個(gè)字,,則取被處理材料當(dāng)前字符串序列中的前y個(gè)字作為匹配字段,查找詞典,,若詞典中存在這樣的一個(gè)y字詞,,則匹配成功,匹配字段被作為一個(gè)詞切分出來,;如果在詞典中找不到這樣一個(gè)y字詞,,則匹配失敗,匹配字段去掉最后一個(gè)字,,剩下的字段重新進(jìn)行匹配,,如此進(jìn)行下去,直到匹配成功,,也就是完成一輪匹配,,切分出一個(gè)詞為止。

正向最大匹配算法

正向最大匹配法(由左到右的方向),。首先粗分,,按照句子把文本切成一個(gè)一個(gè)句子。然后把每個(gè)句子切成單字,。字典按照樹形結(jié)構(gòu)存儲,,比如這句話“春天還會遠(yuǎn)嗎”首先查找“春”字開頭的詞,然后按照字典樹形結(jié)構(gòu)往下走一個(gè)節(jié)點(diǎn),,查找“春”后面一個(gè)字是“天”的詞,,然后又下沉一個(gè)節(jié)點(diǎn),,找“還”下面是“會”的詞,找不到了,,查找就結(jié)束,。

反向最大匹配算法

逆向最大匹配法(由右到左的方向);就是朝相反的方向發(fā)掘可以匹配的文字,,比如網(wǎng)上商城這個(gè)文字串,,那么會向左延伸在王上的前面會出現(xiàn)的結(jié)果是區(qū)域性的文字,不如上?;蛘弑本┑?,在商城的前面會出現(xiàn)更精準(zhǔn)的定義文字符,不如愛家,,女人等專屬性強(qiáng)的文字符,。

雙向最大匹配算法

正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。就是向左右縱深挖掘比較匹配的結(jié)果值,。

熟悉了百度分詞的方法后,,我們就要在優(yōu)化的過程充分的考慮相關(guān)聯(lián)的因素,合理的對你所要向用戶推薦的文字串做合理的規(guī)范和謀劃,。軟優(yōu)化歡迎優(yōu)化者們和我們一道加強(qiáng)交流共同進(jìn)步,。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多