正文

字符串模式匹配kmp算法

2016java  2016java  2022-09-22  722

关键词：

字符串模式匹配指的是，找出特定的模式串在一个较长的字符串中出现的位置。

朴素的模式匹配算法

很直观的可以写出下面的代码，来找出模式串在一个长字符串中出现的位置。

   /*
        朴素的模式匹配算法
        功能：字符串的模式匹配
        参数：
             s：目标串
            p：模式串
             pos：开发匹配的位置
         返回值：
            匹配成功，返回模式串在目标串的其实位置
            匹配不成功，返回-1
    */
    int match(const char * s ,const  char * p,int pos){
        int i = pos ;
       int j= 0 ;
        while(s[i] != '\0' && p[j] != '\0') {
         if(s[i] == p[j]) {
                 i ++ ;
                j ++ ;
           }else {
               i = i - j + 1;
                j = 0 ;
            }
       }
     
        if(p[j] == '\0')
            return i - j ;
        else 
           return -1 ;
    }

上面的代码，s就是目标串，p是模式串，pos指定从s的什么位置开始匹配p。其实现思想也很简单：

当s[i] == p[j]时，目标串和模式串的指针都向后移动一位，进行匹配。而当s[i] != p[j]时，即匹配不成功时，将目标串和模式串的指针同时回溯，j = 0 而目标串的指针i则回溯到这轮开始的下一个位置。

朴素的模式匹配的算法复杂度是O( (n-m+1) * m) n为目标串的长度，m为模式串长度。

从其实现思想上可以很容易的看出，造成该算法低效的地方是在，匹配不成功时主串和模式串的指针回溯上。

有没有一种算法，当模式串和主串的匹配不成功时，不用进行指针的回溯，直接进行下一轮的匹配？

ＫＭＰ算法理解

在朴素的字符串模式匹配算法上，当遇到主串和模式串的字符不能匹配成功时，不论已经匹配了多少字符都要进行指针回溯，再开始下一轮的匹配。

这样效率是十分的低下的。ＫＭＰ算法，是在朴素的模式匹配算法的基础上，实现了匹配不成功时，不对主串指针进行回溯，使模式匹配的时间复杂度

降低为：O(n + m)。

对KMP算法的理解，在网上查找了不少资料，也看了算法导论上的描述，一直是一知半解。有次闲暇之余，想像着将模式串、主串都看着是条直线，进行了下推导，才恍然大悟。

KMP算法的核心思想是，在s[i] 和 p[j]不匹配时，不对主串进行指针回溯，而是在模式串中p中寻找k，用s[i] 和 p[k]进行下一轮的匹配。

在这里，将主串 S 和模式串 P 都看成是一条直线，故而在S[i] 和 P[j] 匹配不成共时，有如下情形：

图1 s[i] 和 p[j] 匹配不成功

即是：p[1…j-1] == s[i-j+1,…,i-1].

p[j] 和 s[i] 不匹配，现在要在模式串p[1,…,j-1]确定一个位置k（1<= k < j-1)，用p[k]和s[i]进行下一轮匹配，那么k必须要满足以下条件：

p[1,..,k-1] == s[i-k+1, … , i-1] .

将模式串和主串都看着一条直线，那么就有下图：

图2 使用p[k]和s[i]进行下一轮匹配

由于 1<= k < j-1，那么将两图合并起来会有什么效果呢？

从上图可以看出，当s[i]和p[j]匹配不成功时，假如能用p[k]和s[i]进行下一轮匹配，则有：

s[i-k+1], … , i-1] == p[j-k+1,…,j-1] == p[1,…,k-1] 。

就是说，当s[i] 和 p[j] 匹配不成功时，最对主串不进行指针回溯，而是用p[k]和s[i]进行匹配时，k必须满足以下条件：

p[1,…,k-1] == p[j-k+1, … , j-1]。

KMP算法的实现

KMP算法的是对匹配的模式匹配算法的改进，在s[i]和p[j]匹配不成功时，不是对主串进行指针的回溯，而是在p[1,…,j-1]中，寻找一个p[k],

用s[i]和p[k]进行下一轮的匹配。其实现的最大问题就是如何的根据p[1,…,j-1]来求出p[k]。

在KMP算法的实现中，使用一个辅助数组next[],使用该数组保存p[j]匹配不成功时，要进行下一轮匹配的k的值.即是当s[i] 和 p[j]匹配不成功时，

用p[ next[j] ]来和s[i]进行下一轮匹配，k = next[j] .

对数组next[] 的求解，可以goolge到不少的方法，这里使用最简单的递推的方法：

首先假定next[0] = –1,那么当next[j] = k时，就有：p[0,…,j-1] == p[j-k+1,…,j-1]。

这时，若有p[k] = p[j] ，则p[0,….,k] = p[j-k+1,..,j-1,j]，从而就有next[j+1] = next[j] + 1 = k +1 .

若p[k] != p[j] ,可以看着模式串对自身进行匹配的问题，即当匹配失败的时候，k值如何确定，k = next [k] .

求数组next[ ]的实现如下：

/*
    KMP进行模式匹配的辅助函数
    模式串和主串匹配不成功时，下次和主串进行匹配的模式串的位置
*/
void continue_prefix_function(const char * p , int * next) {
    int j ;
    int k ;
    next[0] = -1 ;
    j = 0 ;
    k = -1 ;

    while(j < strlen(p) - 1) {
        if( k == -1 || p[k] == p[j]) {
            j ++ ;
            k ++ ;
            next[j] = k ;
        }else {
            k =next[k] ;
        }
    }
}

知道了当模式串和主串匹配不成功时，下一个和主串匹配的字符在模式串中的位置，在朴素的模式匹配的基础上很容易的写出KMP算法的代码如下：

/*
    运用KMP算法的字符串模式匹配
    在主串和模式串匹配不成功时，不对主串指针进行回溯，
    例如用next[j],来指定下一次和主串进行匹配的模式串的位置
*/
int match_kmp(const char * s ,const char * p,int pos) {
    int next[11] ;
    int i = pos ;
    int j = 0 ;
    continue_prefix_function(p,next) ;
    while(s[i] != '\0' && p[j] != '\0') {
        if(s[i] == p[j]) {
            i ++ ;
            j ++ ;
        }else {
            if(next[j] == -1) {
                i ++ ;
                j = 0 ;
            }
            else {
                j = next[j] ;
            }
        }
    }
    if(p[j] == '\0')
        return i - j ;
    else
        return -1 ;
}

总结

字符串的模式匹配：kmp算法

　　KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt同时发现，因此人们称它为克努特——莫里斯——普拉特操作（简称KMP算法）。KMP算法的关键是利用匹配失败后的信息，尽量减少模... 查看详情

kmp--字符串匹配

现在计算机处理涉及到大量的字符串操作，字符串的匹配是使用频率最高的字符串操作之一，大学数据结构与算法中字符串一章，也专门介绍了字符串匹配。字符串的单模式匹配中最基础的算法是朴素的模式串匹配算法，比这更... 查看详情

字符串匹配：kmp算法

一、原理：　　KMP算法是由Knuth，Morris，Pratt共同提出的模式匹配算法，其对于任何模式和目标序列，都可以在线性时间内完成匹配查找，而不会发生退化，是一个非常优秀的模式匹配算法。朴素算法（即暴力循环）的效率太差... 查看详情

kmp字符串匹配算法

一、概要：　　KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的(先了解BF算法)。具体实现就是实现一个next()函数，函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。二... 查看详情

kmp算法小结

...个非常优秀的模式匹配算法。1.kmp算法的原理：1.首先，字符串"BBCABCDABABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。2.因为B与A不匹配，搜索词再往查看详情

常用算法3-字符串查找/模式匹配算法（bf&kmp算法）

...linux是如何在浩如烟海的文本中正确匹配到我们所需要的字符串呢？这就牵扯到了模式匹配算法！1.模式匹配什么是模式匹配呢？模式匹配，即子串P(模式串)在主串T(目标串)中的定位运算，也称串匹配假设我们有两个字符串：T(Tar... 查看详情

什么是kmp算法？kmp算法推导

...看到的人带来帮助！！1.什么是KMP算法？在主串Str中查找模式串Pattern的方法中，有一种方式叫KMP算法KMP算法是在模式串字符与主串字符匹配失配时，利用已经匹配的模式串字符子集的最大块对称性，让模式串尽量后移的算法。&nb... 查看详情

kmp算法(代码片段)

KMP算法KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达... 查看详情

kmp算法字符串匹配算法(代码片段)

简介字符串的模式匹配是对字符串的基本操作之一，广泛应用于生物信息学、信息检索、拼写检查、语言翻译、数据压缩、网络入侵检测等领域，如何简化其复杂性一直是算法研究中的经典问题。字符串的模式匹配实质上就是寻... 查看详情

kmp算法

KMP算法KMP算法的简介　　KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt同时发现，简称KMP算法。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现... 查看详情

kmp算法详解及其java实现(代码片段)

KMP算法，又称作“看猫片”算法（误），是一种改进的字符串模式匹配算法，可以在O(n+m)的时间复杂度以内完成字符串的匹配操作，其核心思想在于：当一趟匹配过程中出现字符不匹配时，不需要回溯主串的指针，而是利用已经... 查看详情

模式匹配算法kmp

1.kmp算法要解决什么问题有两个字符串str1和str2，现在要求查找str1中是否包含和str2相同的子串，如果存在，返回str1中子串的起始索引，如果没有，返回-1。2.暴力的解法比如str1为abcabcqwertystr2为abcq暴力解法为：首先，将str1和str2... 查看详情

字符串模式匹配中的bf算法与kmp算法(代码片段)

博客园的编辑器太难用了。。。。。。。。。。。BF算法即暴力算法，很简单，随便举个栗子：#include<iostream>#include<cstring>usingnamespacestd;//S[]:要匹配的链//T[]:模式串intBFsearch(intstart,charS[],charT[])intslen=strlen(S);inttlen=strlen(T 查看详情

kmp算法详解

参考技术AKMP模式匹配算法KMP算法是一种改进的字符串匹配算法,其关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的明[4]。求得模式的特征向量之后，基于特征分析的快速模式匹配算法(KMP模... 查看详情

kmp算法

KMP算法是字符串模式匹配当中最经典的算法，原来大二学数据结构的有讲，但是当时只是记住了原理，但不知道代码实现，今天终于是完成了KMP的代码实现。原理KMP的原理其实很简单，给定一个字符串和一个模式串，然后找模式... 查看详情

字符串的模式匹配——brute-force算法和kmp算法

　　子串的定位操作是要在主串S中找出一个与子串T相同的子串，通常把主串S称为目标，把子串T称为模式把从目标S中查找模式为T的子串的过程称为“模式匹配”。1.Brute-Force算法的设计思想　　Brute-Force是普通的模式匹配... 查看详情

kmp算法证明及实现

KMP算法一、普通的字符串匹配平时我们在写普通的字符串匹配算法的时候，是拿着要匹配的串去匹配被匹配的串，字符逐个比较，当发现字符失配时，被匹配的字符串的指针要回到前一次开始匹配的指... 查看详情

kmp匹配算法

...(n+m)的时间数量上完成串的模式匹配操作。　　n指的是主字符串的长度，m指的是模式字符串的长度。　　求next数组的算法：voidget_next(charT[],intnext[]){i=1;next[1]=0;j=0;while(i<=T[0]){if(j==0||T[i]==T[j]){++i;++j;next[i]=j;}elsej=next[j] 查看详情