关键词:
串的朴素模式匹配算法
什么是字串匹配:
在主串中找到与模式串相同的字串并返回其位置,如主串google、模式串gle,则结果为3
算法思路:
相当于拿着模式串和主串对齐,对比其第一个字符。不相等则模式串往右移一位,相等则匹配剩下的字符,计算方式如下:
1
2
3
4
5
6
7
S
w
a
n
g
d
a
o
T
g
d
a
\\beginarray|c|c|c|c|c|c|c|c| \\hline &1&2&3&4&5&6&7\\\\ \\hline S&w&a&n&g&d&a&o\\\\ \\hline T&g&d&a\\\\ \\hline \\endarray
ST1wg2ad3na4g5d6a7o
k
1
2
3
4
4
4
4
i
1
2
3
4
5
6
7
j
1
1
1
1
2
3
4
\\beginarray|c|c|c|c|c|c|c|c| \\hline k&1&2&3&4&4&4&4\\\\ \\hline i&1&2&3&4&5&6&7\\\\ \\hline j&1&1&1&1&2&3&4\\\\ \\hline \\endarray
kij111221331441452463474
缺点:
当某些字串与模式串能部分匹配时,主串的扫描指针i经常回溯,导致时间开销增加
朴素模式匹配算法代码:
// S为主串,T为模式串
int Index(String S, String T)
// i用来遍历主串
// k用来标记当前匹配串的第一个字符
// j用来遍历模式串
int i = k = j = 1;
while (i <= S.length && j <= T.length)
if (S[i] == T[j])
i++;
j++;
else
k++;
i = k;
j = 1;
// 用j是否超出边界作为成功标志
if (j > T.length)
return k;
else
return 0;
KMP算法
优点:
在上述朴素模式匹配算法中,当模式串第一个字符匹配时,j和i都继续++去匹配剩下的字符,但一旦当模式串第j个字符不匹配时,i和j都回溯,即模式串往右移动一格。但是其实大部分时候可以通过计算不回溯这么多(某些模式串中回溯到特点值就可保证最短不匹配)。例如:模式串google当j=5时不匹配,此时可发现只要i不变,j回溯到1即可满足最短不匹配,即模式串往右移了4格。KMP算法就是在i不回溯的情况下给出一个next数组用于表示当不匹配时j应该回溯到哪里,这样在模式匹配算法的基础上进一步优化了性能,解决了i经常回溯的问题。
求next数组:
n
e
x
t
[
j
]
=
0
,
当j=1时
1
,
当j=2时
前
j
−
1
个
字
串
的
最
长
相
等
前
后
缀
长
度
+
1
,
当j>2时
next[j] = \\begincases 0, & \\text当j=1时 \\\\ 1, & \\text当j=2时 \\\\ 前j-1个字串的最长相等前后缀长度+1, & \\text当j>2时 \\endcases
next[j]=⎩⎪⎨⎪⎧0,1,前j−1个字串的最长相等前后缀长度+1,当j=1时当j=2时当j>2时
前j-1个字串的最长相等前后缀长度:当前j-1个字串为abcab时,ab为前缀和后缀最长相等部分,结果为2;当前j-1个子串为abc时,没有前后缀相等部分,结果为0。
序
号
j
1
2
3
4
5
6
模
式
串
a
b
a
b
a
a
n
e
x
t
[
j
]
0
1
1
2
3
4
\\beginarray|c|c|c|c|c|c|c| \\hline 序号j&1&2&3&4&5&6\\\\ \\hline 模式串&a&b&a&b&a&a\\\\ \\hline next[j]&0&1&1&2&3&4\\\\ \\hline \\endarray
序号j模式串next[j]1a02b13a14b25a36a4
KMP算法代码:
int Index_KMP(String S, String T, int next[])
int i = j = 1;
while (i <= S.length && j <= T.length)
if (j==0 || S[i] == T[j])
i++;
j++;
else
j = next[j]; // i不回溯,j查找next数组回溯
if (j > T.length)
return i - T.length; // 匹配成功
else
return 0;
KMP算法的优化:
当模式串为google,j=4时。原KMP算法的next[4]=1,但是其实此处不需要再重新匹配第一位,所以应该优化为next[4]=0。因此引入next的优化数组nextVal。
n
e
x
t
V
a
l
[
j
]
=
0
,
当j=1时
n
e
x
t
[
j
]
,
当j>1 且 T[next[j]]!=T[j]时
n
e
x
t
V
a
l
[
n
e
x
t
[
j
]
]
,
当j>1 且 T[next[j]]==T[j]时
nextVal[j] = \\begincases 0, & \\text当j=1时 \\\\ next[j], & \\text当j>1 且 T[next[j]]!=T[j]时 \\\\ nextVal[next[j]], & \\text当j>1 且 T[next[j]]==T[j]时 \\\\ \\endcases
nextVal[j]=⎩⎪⎨⎪⎧0,next[j],nextVal[next[j]],当j=1时当j>1 且 T[next[j]]!=T[j]时当j>1 且 T[next[j]]==T[j]时
序
号
j
1
2
3
4
5
6
模
式
串
a
b
a
b
a
a
n
e
x
t
[
j
]
0
1
1
2
3
4
n
e
x
t
V
a
l
[
j
]
0
1
0
1
0
4
\\beginarray|c|c|c|c|c|c|c| \\hline 序号j&1&2&3&4&5&6\\\\ \\hline 模式串&a&b&a&b&a&a\\\\ \\hline next[j]&0&1&1&2&3&4\\\\ \\hline nextVal[j]&0&1&0&1&0&4\\\\ \\hline \\endarray
序号j模式串next[j]nextVal[j]1a002b113a104b215a306a44查看详情
kmp算法(代码片段)
KMP算法给定文本串A、模式串B,求模式串B在文本串A中出现的次数。设文本串A的长度为n,模式串B的长度为m暴力:二重循环+回溯复杂度O(n*m)KMP:将复杂度优化到O(n+m)本篇文章是我初学KMP算法所写,如果有错误欢迎指出另外本文的KM... 查看详情
kmp算法(代码片段)
关于KMP入门,可以参考:KMP入门。 另外附上我自己的KMP代码: #include<cstring>#include<iostream>#include<cstdio>usingnamespacestd;constintMAXL=1000001;chars1[MAXL],s2[MAXL];intla,lb;intnext[MAXL];voidclcN 查看详情
kmp算法实现(代码片段)
KMP算法实现packagecom.wwz.kmp;importjava.util.Arrays;publicclassKmpDeom publicstaticvoidmain(String[]args) //TODO自动生成的方法存根 Stringstr1="aabcdabd"; Stringstr2="abcdabd"; int[]a& 查看详情
kmp算法(代码片段)
1.KMP算法介绍在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个字符串S内查找一个词W的出现位置。一个词在不匹配时本身就包含足够的信息来确定下一个匹配可能的开始位置,此算法利用... 查看详情
kmp算法(代码片段)
1.KMP算法介绍在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个字符串S内查找一个词W的出现位置。一个词在不匹配时本身就包含足够的信息来确定下一个匹配可能的开始位置,此算法利用... 查看详情
kmp算法(代码片段)
字符串KMP算法前言KMP,作为字符串的入门算法,还是比较有难度的。起码当初我尝试理解KMP的时候,就花了整整一个上午去翻阅各种博客。虽然每一篇博客在理解之后再去看会发现说得都挺有道理,但是在云里雾里的时候,并不... 查看详情
kmp算法详解(代码片段)
文章目录前言例题引入简单算法BF经典算法KMPkmp理解难点1kmp理解难点2kmp最难理解点3kmp代码前言对于kmp的鼎鼎大名,不只是博主自己,想必还有更多小伙子们听说过,也相信都去了解过,博主亦是这样,但是真正去理解这个过程,确是异... 查看详情
kmp算法(代码片段)
KMP算法避免从头匹配:最长相同前缀后缀next[]:实现最长相同前缀后缀的思路递推分析:最长相同前缀后缀,从哪里来实现KMP算法 避免从头匹配:最长相同前缀后缀KMP第一个线性的字符串匹配算法。算法的优... 查看详情
javajava实现的kmp算法(代码片段)
扩展kmp算法学习扩展kmp算法学习(粗)(代码片段)
参考:扩展KMP算法问题定义:给定两个字符串S和T(长度分别为n和m),下标从0开始,定义extend[i]等于S[i]...S[n-1]与T的最长相同前缀的长度,求出所有的extend[i]。如下表所示:i0123456SaaaaabbTaaaaacextend[i]5432100#include<iostream>#include... 查看详情
kmp算法的两种实现(代码片段)
前言朴素子字符串查找算法KMP算法的基本思想基于DFA的KMP实现基于PMT的KMP实现历史渊源&DFA&PMT结语参考链接前言KMP算法在LeetCode刷题的过程中看见过好几次,这几天终于去学习了一下,然后,我就发现,Google出来的KMP和我书... 查看详情
kmp算法(代码片段)
基本介绍KMP算法是一种用于字符串匹配的算法,网上关于kmp的介绍很多,也十分复杂,(其实我也没怎么搞懂)。首先我们还是考虑朴素的匹配,暴力枚举匹配起点,遇到不匹配的点,就直接退出,进行下一个起始点开始的一轮... 查看详情
kmp算法(代码片段)
什么是KMP?KMP算法要解决的问题就是在字符串(也叫主串)中的模式(pattern)定位问题。说简单点就是我们平时常说的关键字搜索。 1publicclassKMP23publicstaticintKMP(Stringstr1,Stringstr2)4intlen1=str1.length();//str1的长度主串5intlen2=str2.len... 查看详情
kmp算法(代码片段)
http://acm.zjnu.edu.cn/DataStruct/showproblem?problem_id=1005题解:kmp模板题。如何理解kmp? 背下来就好了#define_CRT_SECURE_NO_WARNINGS#include<stdio.h>#include<stdlib.h>#include<string>#include&l 查看详情
bf与kmp算法的初步认知(代码片段)
算法介绍BF(暴力匹配算法)代码实现KMP(模式匹配算法)举例分析(逻辑分析)next数组代码实现next组KMP算法的实现时间复杂度分析总结算法介绍BF(暴力匹配算法)BF算法,即暴力(BruteForce)算... 查看详情
kmp算法(代码片段)
数据结构_串对于串,今天就总结了一个算法,关于字符串的模式匹配问题(重点在于kmp算法).普通的模式匹配算法,当匹配不成功时需要将主串的下标恢复到之前匹配的下一个字符,子串下标置为串首;而kmp算法则不需要重置主串的下标... 查看详情
kmp算法(代码片段)
目录KMP算法基本思想计算next数组前缀和后缀公共部分的最大长度next数组匹配字符串KMP算法基本思想算法由两部分组成计算ptr每一位及之前的字符串中,前缀和后缀公共部分的最大长度的next数组匹配ptr和str,当ptr失配时,利用nex... 查看详情