Boyer

心不留意外塵 2016-04-21

展開全文

http://blog.csdn.net/sealyao/article/details/4568167

1,、概述

在用于查找子字符串的算法當中,，BM（Boyer-Moore）算法是目前相當有效又容易理解的一種,，一般情況下,，比KMP算法快3-5倍。

BM算法在移動模式串的時候是從左到右,，而進行比較的時候是從右到左的,。

常規(guī)的匹配算法移動模式串的時候是從左到右，而進行比較的時候也是是從左到右的,，基本框架是：

[cpp] view plain copy

j = 0,；
while（j <= strlen(主串)- strlen(模式串)）{
for (i = 0;i < strlen(模式串) && 模式串[i] == 主串[i + j]; ++i)
；
if (i == strlen(模式串))
Match,；
else
++j,；
}

而BM算法在移動模式串的時候是從左到右，而進行比較的時候是從右到左的,，基本框架是：

[cpp] view plain copy

j = 0,；
while (j <= strlen(主串) - strlen(模式串)) {
for (i = strlen(模式串) - 1; i >= 0 && 模式串[i] ==主串[i + j]; --i)
if (i < 0)
match；
else
++j,；
}

顯然BM算法并不是上面那個樣子,，BM算法的精華就在于++j

2、BM算法思想

BM算法實際上包含兩個并行的算法,，壞字符算法和好后綴算法,。這兩種算法的目的就是讓模式串每次向右移動盡可能大的距離（j+=x,，x盡可能的大）,。

幾個定義：

例主串和模式串如下：

主串 : mahtavaatalomaisema omalomailuun

模式串: maisemaomaloma

好后綴：模式串中的aloma為“好后綴”。

壞字符：主串中的“t”為壞字符,。

好后綴算法

如果程序匹配了一個好后綴, 并且在模式中還有另外一個相同的后綴, 那

把下一個后綴移動到當前后綴位置,。好后綴算法有兩種情況：

Case1：模式串中有子串和好后綴安全匹配,，則將最靠右的那個子串移動到好后綴的位置。繼續(xù)進行匹配,。

Case2：如果不存在和好后綴完全匹配的子串,，則在好后綴中找到具有如下特征的最長子串,使得P[m-s…m]=P[0…s]。說不清楚的看圖,。

壞字符算法

當出現(xiàn)一個壞字符時, BM算法向右移動模式串, 讓模式串中最靠右的對應(yīng)字符與壞字符相對,，然后繼續(xù)匹配。壞字符算法也有兩種情況,。

Case1：模式串中有對應(yīng)的壞字符時,，見圖。

Case2：模式串中不存在壞字符,。見圖,。

移動規(guī)則

BM算法的移動規(guī)則是：

將概述中的++j，換成j+=MAX（shift（好后綴）,，shift（壞字符））,，即

BM算法是每次向右移動模式串的距離是，按照好后綴算法和壞字符算法計算得到的最大值,。

shift（好后綴）和shift（壞字符）通過模式串的預(yù)處理數(shù)組的簡單計算得到,。好后綴算法的預(yù)處理數(shù)組是bmGs[]，壞字符算法的預(yù)處理數(shù)組是BmBc[],。

3,、代碼分析

定義

BM算法子串比較失配時，按壞字符算法計算模式串需要向右移動的距離,，要借助BmBc數(shù)組,。

注意BmBc數(shù)組的下標是字符，而不是數(shù)字,。

BmBc數(shù)組的定義,，分兩種情況。

1,、字符在模式串中有出現(xiàn),。如下圖，BmBc[‘k’]表示字符k在模式串中最后一次出現(xiàn)的位置,，距離模式串串尾的長度,。

2、字符在模式串中沒有出現(xiàn)：,，如模式串中沒有字符p,，則BmBc[‘p’] = strlen(模式串)。

BM算法子串比較失配時，按好后綴算法計算模式串需要向右移動的距離,，要借助BmGs數(shù)組,。

BmGs數(shù)組的下標是數(shù)字，表示字符在模式串中位置,。

BmGs數(shù)組的定義,，分三種情況。

1,、對應(yīng)好后綴算法case1：如下圖：i是好后綴之前的那個位置,。

2、對應(yīng)好后綴算法case2：如下圖所示：

3,、當都不匹配時,，BmGs[i] = strlen（模式串）

在計算BmGc數(shù)組時，為提高效率,，先計算輔助數(shù)組Suff,。

Suff數(shù)組的定義：suff[i] = 以i為邊界, 與模式串后綴匹配的最大長度，即P[i-s...i]=P[m-s…m]如下圖：

舉例如下：

分析

用Suff[]計算BmGs的方法,。

1） BmGs[0…m-1] = m,；（第三種情況）

2）計算第二種情況下的BmGs[]值：

for（i=0；i

if（-1==i || Suff[i] == i+1）

for（,；j < m-1-i,；++j）

if（suff[j] == m）

BmGs[j] = m-1-i；

3）計算第三種情況下BmGs[]值,，可以覆蓋前兩種情況下的BmGs[]值：

for（i=0,；i

BmGs[m-1-suff[i]] = m-1-i；

如下圖所示：

Suff[]數(shù)組的計算方法,。

常規(guī)的方法：如下,，很裸很暴力。

Suff[m-1]=m,；

for（i=m-2,；i>=0；--i）{

q=i,；

while（q>=0&&P[q]==P[m-1-i+q]）

--q,；

Suff[i]=i-q；

}

有聰明人想出一種方法,，對常規(guī)方法進行改進,。基本的掃描都是從右向左,。改進的地方就是利用了已經(jīng)計算得到的suff[]值,，計算現(xiàn)在正在計算的suff[]值,。

如下圖所示：

i是當前正準備計算的suff[]值得那個位置。

f是上一個成功進行匹配的起始位置（不是每個位置都能進行成功匹配的,，實際上能夠進行成功匹配的位置并不多）。

q是上一次進行成功匹配的失配位置,。

如果i在q和f之間,，那么一定有P[i]=P[m-1-f+i]；并且如果suff[m-1-f+i]=i-q, suff[i]和suff[m-1-f+i]就沒有直接關(guān)系了,。

代碼

[cpp] view plain copy

void preBmBc(char x, int m, int bmBc[]) {

   int i;

   for (i = 0; i < ASIZE; ++i)

      bmBc[i] = m;

   for (i = 0; i < m - 1; ++i)

      bmBc[x[i]] = m - i - 1;

}

void suffixes(char x, int m, int suff) {

   int f, g, i;

  f = 0,；

   suff[m - 1] = m;

   g = m - 1;

   for (i = m - 2; i >= 0; --i) {

      if (i > g && suff[i + m - 1 - f] < i - g)

         suff[i] = suff[i + m - 1 - f];

      else {

         if (i < g)

            g = i;

         f = i;

         while (g >= 0 && x[g] == x[g + m - 1 - f])

            --g;

         suff[i] = f - g;

      }

   }

}

void preBmGs(char x, int m, int bmGs[]) {

   int i, j, suff[XSIZE];

   suffixes(x, m, suff);

   for (i = 0; i < m; ++i)

      bmGs[i] = m;

   j = 0;

   for (i = m - 1; i >= 0; --i)

      if (suff[i] == i + 1)

         for (; j < m - 1 - i; ++j)

            if (bmGs[j] == m)

               bmGs[j] = m - 1 - i;

   for (i = 0; i <= m - 2; ++i)

      bmGs[m - 1 - suff[i]] = m - 1 - i;

}

void BM(char x, int m, char y, int n) {

   int i, j, bmGs[XSIZE], bmBc[ASIZE];

   /* Preprocessing /

   preBmGs(x, m, bmGs);

   preBmBc(x, m, bmBc);

   / Searching */

   j = 0;

   while (j <= n - m) {

      for (i = m - 1; i >= 0 && x[i] == y[i + j]; --i);

      if (i < 0) {

         OUTPUT(j);

         j += bmGs[0];

      }

      else

         j += MAX(bmGs[i], bmBc[y[i + j]] - m + 1 + i);

   }

}

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：心不留意外塵 > 《文本處理》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

心不留意外塵

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 一文包你學(xué)會網(wǎng)絡(luò)數(shù)據(jù)抓包
[轉(zhuǎn)] 如何搞定恒流電源電路設(shè)計,，看懂六個提示,！
[轉(zhuǎn)] Zigbee RF4CE
[轉(zhuǎn)] 提醒同志們不要加班過頭了(加班趕工,，得不償失——歷史給你上六課)
[轉(zhuǎn)] 寅時凌晨3：00～5：00-五更時候醒來是怎么回事
C語言中，static的作用

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久