词法分析(NFA与DFA)
编者注:本文为历史博文归档;涉及 JDK、框架与工具链版本请以当前官方文档为准。引用外链图片可能失效,阅读时请注意时效性。
词法分析 (1):概念与转换图
词法分析是编译过程的第一个阶段。正如前文简介所述,词法分析器的主要任务是将字符流转换为词法记号流(Token Stream)。
在实际编译过程中,词法分析与语法分析通常是交错进行的。词法分析器不会一次性读取所有词法记号再交给语法分析器,而是每识别出一个词法记号,就立即送入语法分析器进行处理。流程图解如下:
词法分析器是编译器中直接与源程序接触的部分,因此它可以承担以下任务:
- 去掉注释:某些情况下可自动生成文档(如 C# 中的
///注释)。 - 提供错误位置:通过记录行号来定位错误。一旦字符流变成词法记号流,行的概念就会消失。
- 完成预处理:例如处理宏定义。
1. 词法记号、词法单元与模式
- 模式(Pattern):一种规则,规定了什么样的字符串属于某个词法记号。
- 词法单元(Lexeme):源代码中匹配某个模式的具体字符串。
- 词法记号(Token):每个词法单元所属的类别。
例如,对于代码 int a=3:
int、a、=、3都是词法单元。- 每个词法单元都属于某个词法记号。例如,
3是记号num的一个词法单元。 - 模式规定了什么样的字符串对应什么样的记号。
某一特定模式规定了某个词法记号下的一类词法单元。例如:
- 模式:用字母开头的、包含字母和数字的串。
- 词法记号:
id(所有符合上述模式的字符串的记号都是id)。 - 词法单元:
a123或者aabc等。
词法记号举例(简称记号):
- 每个关键字都有属于自己的记号。例如关键字
for使用记号for,关键字int使用记号int。 - 所有的关系运算符只有一个记号。例如
>=、<=都用记号relation。 - 所有的标识符只有一个记号。例如
a123、aab使用记号id。 - 所有的常数只有一个记号。例如
123、22、32.3、23E10使用记号num。 - 所有的字符串只有一个记号。例如
"123"、"ab1"使用记号literal。
在实际的编译器设计中,词法记号一般用一个整型数字表示。
词法记号的属性:
我们通常用 <词法记号,属性> 这个二元组来描述一个词法单元。
- 对于源代码
position := initial + rate * 60中的+,可以使用<add_op, '+'>来表示。 - 对于
position,表示为<id, 指向符号表中 position 元素的指针>。具体来说,假定属性是一个字符串,那么id将指向字符串"position\0",存放这个字符串的地方叫做符号表。 - 有些时候属性是不必要的。例如
:=表示赋值,我们可以使用<assign_op, 257>来表示。但这显得有些多余,因为assign_op和词法单元是一对一的,额外信息(属性)显得冗余。
词法错误:
词法分析器很难检测所有错误(有些错误还是可以检测的)。因为词法分析器的目的是产生词法记号流,它没有能力分析程序结构,因此无法检测到与程序结构有关的错误。
- 例如:
fi(a == b)。词法分析器不会发现这个错误,它认为fi是一个标识符而不是关键字if。只有在后续阶段,这个错误才会被发现。 - 词法分析器只能检测到词法单元上的问题。例如
12.ab作为一个词法单元,没有对应的模式,就会产生错误。
2. 正规式(Regular Expression)
前面说过模式是一种规则,为了使用,我们需要一种规范的方式来表达模式,这就是正规式。
1) 串和语言
- 字符类(字母表):关于字符的有限集合。
- 串:字符类上字符的有穷序列。具体来说,是某个字符类上的串。
- 串的长度:串中字符的个数。例如串
s = abc,长度为 3,用|s|表示。 - 空串:用
ε表示。 语言:某字符类上的串的集合。属于语言的串,称为语言的句子或字。
- 例如:
{abc, a}就是一个语言,abc和a就是句子。另外空集也属于语言。
- 例如:
连接:x 是串,y 是串,x 和 y 连接,结果就是 xy 这个串。假如 x 是串,x^3 为 xxx。对于 x^n (n>=0),x^0 = ε。
语言的运算(假定 L 和 M 是语言):
L U M = {s | s 属于 L 或者 M}。例如:L={1,2},M={3,4},那么L U M = {1,2,3,4}。LM = {st | s 属于 L 且 t 属于 M}。例如:L={a,b},M={1,2},那么LM = {a1,a2,b1,b2},ML={1a,1b,2a,2b}。L^n = LLL...LLL(n 个 L)。例如:L={a,b},那么L^3 = {aaa,aab,aba,abb,baa,bab,bbb,bba}。- 注意
n可以为 0,L^0 = {ε}。
- 注意
L* = L^0 U L^1 U L^2 U L^3 U ...L*表示语言L中,所有的句子(串)以任意数目任意顺序组成的句子的集合,包括ε。- 例如:
{a,b}* = {ε,a,b,ab,ba,aab,aba,baa,bba,bab,abb,aaa,bbb...}。 L*叫做L的闭包。
L+ = L^1 U L^2 U L^3 U...L+表示语言L中,所有的句子(串)以任意数目任意顺序组成的句子的集合,但是不包括ε。L+中的句子和L*中的句子相比少一个ε。
通过上面的知识就可以表示一个标识符了。一般语言规定标识符是由字母开头,后接若干个字母或数字。我们可以这样表示:L={a-z A-Z}, N={0-9},那么标识符就是 L(L U N)*。
2) 正规式
正规式又叫正规表达式,是模式的一种规范表达形式。正规式描述了一个集合,这个集合是由串组成的,其实这个集合就是我们前面说过的语言,不过这里大家喜欢使用正规集这个术语。正规式 r 表示正规集 L(r)。
正规式的运算:
- 闭包运算:运算优先级最高,
(r)*表示(L(r))*。 - 连接运算:运算优先级低于闭包,
(r)(s)表示(L(r))(L(s))。 - 或运算:运算优先级最低,
(r) | (s)表示(L(r)) U (L(s))。
例如:
a | b表示集合(语言/正规集){a,b}。(a | b)(a | b)表示集合{aa,ab,ba,bb}。a*表示由一切a字符组成的集合,包括ε。(a | b)*表示由a,b组成的集合,包括ε。- 等价的正规式:
(a | b) = (b | a)。
正规式的代数性质:
r|s = s|rr|(s|t) = (r|s)|t(rs)t = r(st)r(s|t) = rs|rtεr = rr** = r*r* = (r|ε)*
注意,rs != sr,因为连接运算是有顺序的。记住并理解 2 个最基本的运算:a|b 表示 {a,b},ab 表示 {ab}。
3. 正规定义
我们可以使用 名字 -> 正规式 这种表示,来说明一个等价的代替。例如:digit -> 0|1|2|3|4|5|6|7|8|9
这里,我们就可以使用名字 digit 来代替后面的正规表达式。
我们可以对某个串集进行正规定义,比如对标识符集合进行正规定义:
letter -> A|B|...|Z|a|b|...|z
digit -> 0|1|2|3|4|5|6|7|8|9
id -> letter(letter|digit)*请通过上面的例子理解正规定义。
在表达正规表达式的时候,可以使用一些符号使得表达简化:
+:表示一个或者多个实例。例如a+表示{a,aa,aaa,aaaa,...}。区别一下*,他们的关系是r+ = r r*或r+ = r* r(原文此处表述有误,通常r+等价于r r*,即至少一次,而r*包含零次。原文写r+ = r* | ε有误,应为r* = r+ | ε。此处修正为通用定义:r+表示至少一次重复)。- 字符组:
[abc]表示a|b|c,还可以这样表示[a-zA-Z]表示字母表中的字符。
4. 状态转换图
状态转换图是对词法分析器进行分析过程的描述。我们看一个判断关系运算的状态转化图:
- 图中圆圈表示状态。
- 箭头叫做边。X 状态的边,一般指的是由 X 状态出发,指向其他状态的边。
- 边上的符号叫做标记。
如何使用这个图?
假定输入字符串是 <=。识别开始时,发现 < 和状态 0 与状态 1 间的边上的标记一样,那么就进入状态 1。下一个输入字符为 =,将进入状态 2,识别结束,返回二元组 <relop, LE>。
上图中 2、3、4、5、7、8 状态,它们表示识别了一个关系运算符,这个状态叫做接受状态。
状态 4 上面有一个 *,表示说,输入指针需要回移。所谓的输入指针,就是指向输入字符串中现在被读入的字符的位置。状态 4 会多读取一个字符,所以需要回移。也就是要注意的是,识别完成之后,输入指针指向的是被识别对象的最后一个字符,而不是待识别对象的第一个字符。这样的规定在实现词法分析器时,是有一定的意义。
举例说明:
输入字符串为:a>b
识别的时候,从 > 开始,读入下一个字符 b 时,进入状态 4。这个时候,输入指针指向 b,这时候需要回移。
我们在需要回移的状态上加一个 *。
每个状态后面有一个 return(relop, XX),这个是状态的行为。这里具体来说就是返回一个二元组的行为。词法分析器分析的结果就是得到二元组(词法记号和属性的二元组),这个二元组可以表示一个特定的字符串。其实上面的 * 也是表示行为,也就是输入指针回移的行为。我们可以看见,只有在接受状态才会有行为出现。
对一门典型的语言来说,状态可能有几百个。
5. 如何编写一个词法分析器
- 根据需要写出正规定义。
- 根据正规定义画出转换图。
- 根据转换图写出词法分析器。
这里详细讨论面向过程的语言(比如 C 语言)来实现一个词法分析器,并且主要讨论的是第 3 步。
我们需要一个
nextchar()函数,取得缓存中下一个等待分析的字符。这个函数完成 2 个任务:- 让输入指针向前移动一位。
- 返回输入指针指向的字符。
- 定义一个变量
token_beginning,在每个状态转换图开始的时候,记录输入指针的位置。定义forward变量作为输入指针。 状态转换图被实现成为代码之后,每个状态都有属于自己的一块代码,这些代码按顺序完成以下工作:
- 读取一个字符,通过
nextchar()函数。 - 读取的字符(标记),如果它和当前状态的边上的标记相同,那么状态将转换到边所指向的状态。具体实现只需要一个语句就是
state = xxx(xxx 为目标状态);如果当前状态的所有边的标记和这个读取字符不一样,那么表示没有找到 Token(词法记号),这时候需要调用fail()函数。 fail()函数完成这样的功能:- a. 指针回移,完成
forward = token_beginning的操作。 - b. 找到适当的开始状态(也就是寻找另外一个转换图的开始状态)。
- 假定所有的转换图都被尝试过,并且无法匹配,这时候会调用一个发现错误的小程序,来报告错误。
- a. 指针回移,完成
- 请不要随意添加行为到各个状态所持有的代码中,应该以转换图中表示的行为为准。
- 读取一个字符,通过
- 定义一个全局变量
lexical_value,用于保存一个指针。这个指针由install_id()和install_num()两个函数中的一个返回。 - 定义两个整型变量
start,state,分别表示一个转换图的开始状态和当前的状态。 nexttoken():这是词法分析器的主程序。可以说,我们通过调用nexttoken()就完成了词法分析。这个函数一定是这样的格式:while(1){ switch(state){ case xx: ... case yy: ... default: ... } }
关于详细的设计这里就不说了,举例说明一个转换图如何转换成为程序:
这是一个识别浮点数的例子,看下面的代码:
#include <stdio.h>
#include <ctype.h>
#include <string.h>
char *nexttoken();
char nextchar();
void next();
void back();
char* gettoken();
char cbuf[] = "12.3********klj12.2e2jj778";
int forward = -1;
int main(){
while(1){
printf("%s\n", nexttoken());
if(forward >= strlen(cbuf)-1){
getchar();
return 0;
}
}
}
int state;
int start;
char* nexttoken(){
char c;
state = 12;
while(1){
switch(state){
case 12:
c = nextchar();
start = forward;
if(isdigit(c)){
state = 13;
} else {
next();
}
break;
case 13:
c = nextchar();
if(isdigit(c))
state = 13;
else if(c == 'e' || c == 'E')
state = 16;
else if(c == '.')
state = 14;
else
state = 19;
break;
case 14:
c = nextchar();
if(isdigit(c))
state = 15;
break;
case 15:
c = nextchar();
if(isdigit(c))
state = 15;
else if(c == 'e' || c == 'E')
state = 16;
else
state = 19;
break;
case 16:
c = nextchar();
if(isdigit(c))
state = 18;
else if(c == '+' || c == '-')
state = 17;
break;
case 17:
c = nextchar();
if(isdigit(c))
state = 18;
break;
case 18:
c = nextchar();
if(isdigit(c))
state = 18;
else
state = 19;
break;
case 19:
back();
return gettoken();
}
}
}
char nextchar(){
forward ++;
return cbuf[forward];
}
void back(){
forward --;
}
void next(){
forward ++;
}
char token_buf[128];
char* gettoken(){
int i, j = 0;
for(i = start; i <= forward; i ++){
token_buf[j++] = cbuf[i];
}
token_buf[j] = '\0';
return token_buf;
}词法分析 (2):NFA
假定一个输入符号(Symbol),可以得到 2 个或者 2 个以上的可能状态,那么这个 Finite Automaton(有限自动机) 就是不确定的,反之就是确定的。例如:
这就是一个不确定的有限自动机。在 Symbol a 输入的时候,无法确定状态应该转向 0 还是 1。
不论是确定的 Finite Automaton 还是非确定的 Finite Automaton,它们都可以精确地描述正规集(Regular Sets)。我们可以很方便地把正规表达式(Regular Expressions)转换成为不确定 Finite Automaton。
1. NFA (Nondeterministic Finite Automaton)
非确定的有限自动机,我们用 NFA 这个术语表示。它是一个数学模型(Model):
- 一个关于状态的集合
S。 - 一个关于输入符号(Input Symbols)的集合
Σ。 - 函数
move : (状态,符号) -> P(S)。 - 一个开始状态
s0,是一个唯一的状态。 - 一个结束(接受)状态集合
F。
注意,P(S) 表示 S 的幂集。在 NFA 中,Input Symbol 可以为 ε。
转换函数(Transition Function)的含义:
一个确定的状态已经从这个状态出发的一条边的标签(符号 Symbol),可以确定它的下一个状态组成的集合。比如上图(这个转换图就是 NFA 的一种表示方式),0 状态,a 符号,确定了一个状态的集合 {0,1}。
2. 转换图(Transition Graph)的表示
我们知道,计算机是无法直接表示一个图,我们应该如何来表示一个转换图?使用表格就是一个最简单的方法。每行表示一个状态,每列表示一个 Input Symbol。这种表格被叫做 Transition Table(转换表)。
可以说使用表格是最简单的表示方式。但是我们可以注意到,在这个图中状态 1 和 Input Symbol a 是没有下一个状态的(空集合)。也就是说,对于一个大的状态图,我们可能花费大量的空间,而其中空集合会消耗不少空间,但是这种消耗又不是必须的。所以,作为最简单的一种实现方式,却不是最优的。
语言(Language)被 NFA 定义:
成为一个 Input String 的集合,而这个集合中的元素则是被 NFA 所接受的所有字符串(那些可以从开始状态到某接受状态的 Input String)。
至于存储的方式,可以试试邻接表。注意,使用什么样的数据结构来保存 NFA 按情况不同而不同。在一些特殊情况下,某些数据结构会变得很方便使用,而换入其他情况,则不可以使用了。
词法分析 (3):DFA
1. DFA (Deterministic Finite Automaton)
DFA 就是确定的有限自动机。因为 DFA 和 NFA 关系密切,我们经常需要把他们拿到一起来讲。NFA 可以转化成为一个 DFA。DFA 依然是一个数学 Model,它和 NFA 有以下区别:
- 不存在
ε-transition。也就是说,不存在ε为 Input Symbol 的边。 - 对于
move函数,move : (state, symbol) -> S。具体来说就是,一个状态和一个特定的 Input Symbol,不会映射到 2 个不同的状态。这样的结果是,每个状态,关于每个特定的 Input Symbol,只有一条出边。
下图就是一个 DFA:
接受语言 (a|b)*ab。注意一下,接受语言 (a|b)*ab 的 DFA 我们前面见过,就是这张图:
2. DFA 的行为
我们用一个算法来模拟 DFA 的行为:
s = s0;
c = nextchar();
while(c != EOF){
s = move(s, c);
c = nextchar();
}
if(s 属于 F)
return "yes"
else
return "no"词法分析 (4):NFA 与 DFA 的转化
1. 子集构造 (Subset Construction)
这是一个转换 NFA 到 DFA 的算法。我们知道 NFA 和 DFA 的区别最主要的就是一个状态和一个 Input Symbol 是否能够确定一个状态的问题。对于 NFA,它将确定一组状态;而 DFA 将确定一个状态。因此,我们有一个很好的办法就是把 NFA 的状态集对应每个 DFA 的状态。这就是 Subset Construction 的思想。不过这只是大概泛泛而论,我们需要更加明确的认识:
- NFA 在任何一个 Input Symbol 下,映射的状态集(通过
move函数,这个集合通常用T字母表示)应该被知道。 - 必须保证 1) 中状态集都对应了 DFA 中的一个状态。
具体算法:
- Input:一个 NFA
N - Output:接受相同语言的 DFA
D - Method:为
D构架一个 Transition Table(转换表)Dtran。每个 DFA 的状态是一个 NFA 的状态集合(这里一定要注意前面说过的 1)、2) 两点)。
我们定义一些操作:
s表示 NFA 的状态。T表示 NFA 的状态集合。a表示一个 Input Symbol。ε-transition(ε转换)就是说 Input Symbol 为ε时的 Transition(转换)。
| 操作 (Operation) | 描述 (Description) | |
|---|---|---|
ε-closure(s) | 从 NFA 的状态 s 出发,只通过 ε-transition 到达的 NFA 的状态集合 | |
ε-closure(T) | NFA 的集合 T 中的状态 p,只通过 ε-transition 到达的 NFA 的状态集合,再求这些集合的并集。用数学表达就是 `{p | p 属于 ε-closure(t), t 属于 T}` |
move(T, a) | NFA 的集合。这个集合在 Input Symbol 为 a,状态为 T 中任意状态情况下,通过一个转换得到的集合 |
注意一下,所有的操作都是针对 NFA 的状态或者状态集合,得到的是 NFA 的状态集合,或者说是 DFA 看为一个状态。
Subset Construction 算法:
初始 Dstates,它仅仅含有状态(D 的状态)ε-closure(s0),并且状态未被标记。s0 表示开始状态。注意,Dstates 放的是 D 的状态。
while ( Dstates 有未标记的状态 T ) { // T 是 D 中的一个状态,也是 N 中一个状态集
标记 T;
for ( input symbol a ) { // 遍历所有的 input symbol
U = ε-closure(move(T, a)); // move 为 NFA 的 move 函数
if ( U 不在 Dstates 中 )
把 U 作为尚未标记的状态加入 Dstates;
Dtran[T, a] = U
}
}注意,状态 s,ε-closure(s) 一定包含 s。
我们先来熟悉上面的操作 Operation,再来看上面的算法。
ε-closure(0) = {0, 1, 2, 4, 7}// 从 0 状态出发的,Input Symbol 为ε的所有状态的集合ε-closure(3) = {1, 2, 3, 4, 6, 7}ε-closure(8) = {8}ε-closure( {3, 8} ) = ε-closure(3) U ε-closure(8) = {1, 2, 3, 4, 6, 7, 8}move(0, a) = 空move(7, a) = {8}move(8, b) = {9}move( {0, 1, 2, 4, 7}, a) = move(0,a) U move(1,a) U move(2,a) U move(4,a) U move(7,a) = {3, 8}
现在可以回去理解一下算法了。
这里再说说求 ε-closure(T) 的算法:
把 T 的所有状态压入 stack(栈);
ε-closure(T) 的初始值为 T 中的所有元素; // 也就是一定包含他们本身
while( 栈非空 ) {
弹出栈顶元素 t;
for( 每个属于 move(t, ε) 的状态 u ) {
if( u 不在 ε-closure(T) 中 ) {
u 加入 ε-closure(T);
把 u 入栈;
}
}
}下面对上图如何使用 Set Construction 算法来构建 DFA 做一个详细的描述:
- 初始化
Dstates,把集合ε-closure(s0) = {0, 1, 2, 4, 7}作为第一个状态,设此状态为A。 现在转化,Input Symbol
{a, b},因此,求:ε-closure(move(A, a))ε-closure(move(A, b))
这里会得到 2 个状态:ε-closure(move(A, a)) = {1, 2, 3, 4, 6, 7, 8},设其为Bε-closure(move(A, b)) = {1, 2, 4, 5, 6, 7},设其为CB,C放入Dstates。
- 改写
Dtrans。
最终得到的 Dtrans 为:
A = {0, 1, 2, 4, 7}B = {1, 2, 3, 4, 6, 7, 8}C = {1, 2, 4, 5, 6, 7}D = {1, 2, 4, 5, 6, 7, 9}
因此,NFA 转化成为 DFA:
词法分析 (5):从正规式到 NFA
在说到这个问题前,先告诉大家,我们可以直接从 Regular Expression 到 DFA,不过这里我们先不讨论这个问题。
关于 RE 到 DFA 的算法有很多,这里学习一个最简单的。
Algorithm Thompson's Construction:
- Input:一个字母表(
Σ)上的 Regular Expressionr。 - Output:一个接受
L(r)的 NFAN。 - Method:把
r解析成为子表达式(Subexpressions),然后使用下面的 1)、2) 规则,为r中的基本符号(Basic Symbols,基本符号就是ε和Σ中的字符)构建 NFA。基本符号符合 1)、2) 关于正规式的定义。注意,假如 Symbola出现多次,那么它每次出现都要构建一个 NFA。之后,我们需要通过r的语法结构,通过规则 3) 组合前面构建的 NFA,直到得到整个 NFA 为止。对于中间产生的 NFA,它只有一个终态,没有进入开始状态的边,也没有离开接受状态的边。
1) 对于 ε 构造如下 NFA:![]()
注意,每次构建时,i, f 的值都不一样。因此可见构造一个识别 ε 的 NFA,会产生 2 个新的状态。
2) 对于 Σ 中的每个字符 a:![]()
同样,对于 aaa,第一个 a 构造的 NFA 中的 i, f 不会和第 2 个 a 构造的 i, f 一样。因此可见构造一个识别 Σ 中的每个字符 a 的 NFA,会产生 2 个新的状态。
3) 先假定 N(t), N(s) 分别是 t, s 的 NFA,则:
- a) 对于表达式
s|t构建 NFAN(s|t)
这里一样会产生 2 个新的状态i,j。我们看其中一个N(s),左边的圆圈表示N(s)的开始状态,右边的圆圈表示N(s)的接受状态,N(t)同理。 - b) 对于表达式
st,构建N(st)
这个时候,不产生新的状态。N(s)的开始状态变为N(st)的开始状态,N(t)的接受状态变成N(st)的接受状态,N(s)的接受状态和N(t)开始状态成为一个状态。这里提醒一下,写程序的时候,这里千万要注意,因为没有新的状态产生,必须考虑状态的部分复制,如果不小心就会出错。 - c) 对于正规式
s*,构造N(s*)
这里一样需要产生 2 个新的状态i,f。注意,产生了一条N(s)接受状态到N(s)开始状态的边,边上的 Symbol 为ε。 - d) 对于
(s),使用N(s)本身作为它的 NFA,也就是不用构造新的 NFA。
注意一下,以上产生的 NFA,有以下性质:
- 只有一个接受状态和一个开始状态。
- 每个状态最多含有 2 个指向其他状态的边。详细的来说,如果状态只有一条指向其他状态的边,那么边上的 Symbol 为
Σ中的任意字符或者ε;如果状态有两条指向其他状态的边,那么边上的 Symbol 一定为 2 个ε。
由以上性质,我们可以很好的选择数据结构来表示 NFA。
词法分析 (6):DFA 的化简
通过 NFA 转化而成的 DFA 不一定是最简的。也就是说,有多余的状态可以被删除。对于每一个正规定义,我们一定可以得到一个唯一的最简的 DFA。
我们回顾一下 Move 函数,DFA 的 Move 函数:move : (state, symbol) -> S
注意,这里 (state, symbol) 表示的是一个集合。这里规范的数学表达应该是:move : { (state, symbol) | 所有属于 DFA 的 state 和 symbol } -> S
或者move : S × Σ -> S
假如一个 DFA 的 Move 函数不是全函数,那么必须引入死状态。假如某个 DFA 的 Move 函数是全函数,那么每个状态在所有 Input Symbol 下都有出边。比如:
这个 DFA 每个状态都可以接受所有的 Input Symbol,这里是 a, b。而下面的 DFA:
先不要看红色部分。那么这个 DFA 的状态 c, d,它们无法通过 Input Symbol b 进入下一个状态。我们可以加上红色的部分,把这个 Move 函数转化成为一个全函数。并且,经过转化操作之后,新的 DFA 与原 DFA 等价。这个红色部分标识的状态,被叫做死状态。
死状态:
假如出现 DFA 的 Move 函数不是全函数,我们可以引入一个死状态 S(仅仅引入一个方可)。这个状态包括所有 Input Symbol 对自身的转换。所有的其他状态假如不接受某个 Input Symbol a,那么,我们建立这个状态到 S 且 Input Symbol 为 a 的边。
状态的区别:
假如一个状态 s,通过 Input String w,可以转换到某个状态;而某个状态 t,通过 w,转化到了一个与 s 通过 w 转化到的状态不同的状态。那么我们就可以通过 w 来区别状态 s, t。如果这样的 w 不存在,那么 s, t 这 2 个状态是无法区别的。
每个接受状态都可以通过 ε 和非接受状态进行区别。
化简算法,极小化 DFA 的思想:
极小化 DFA 算法,它把状态分成一些不相交的子集。每一个子集中的所有状态都是不可区别的,而不同子集中的每个状态两两都是可区别的。最后我们把每个子集中的所有状态合成一个状态。
1) 划分状态集
首先把所有状态划分成为 2 个集合:一个集合是接受状态的集合,一个集合是非接受状态的集合。他们通过 ε 来区别。然后看每个集合中的状态是否还可以区别。例如一个集合通过 Input Symbol a,转换后得到的状态落入当前划分的不同集合,那么说明通过 Input Symbol a,是可以区别这个集合中的状态的(这里要强调的是,对于一个而不是多个 Input Symbol,假如转换到的状态落入不同的划分中,那么这些状态就是可以区别的)。我们假定有一个状态集合 {s1, s2},s1 通过 a 到达状态集合 t1,s2 通过 a 到达状态集合 t2,t1, t2 分别是当前划分的状态集合。那么,集合 {s1, s2} 就可以分成 2 个集合 {s1}, {s2}。
2) 构造最简的 DFA
我们可以重复 1) 的步骤,最后得到一些子集合。我们从每个子集合中取一个状态,通过它们可以得到最简的 DFA。但具体需要按一定规则去构建。
极小化 DFA 状态数的算法:
- Input:一个 DFA
M,它的状态集是S,输入符号集合Σ,move : S × Σ -> S,开始状态为s0,接受状态的集合为F。 - Output:一个 DFA
N,它和 DFAM等价,并为最简。 Method:
- 初始化:假如 Move 函数不是全函数,那么加入死状态。构造划分
X:把S分成 2 个子集合,包括接受状态集合F和非接受状态集合S-F(F集合的补集)。 Xnew是一个划分。for( X 中的每个集合 G ) { G 中状态每次通过 Σ 中的 symbol 转化到的状态如果属于 X 的不同子集,那么把集合 G 分成子集。每个 symbol 都可能划分 G,划分之后,使用下一个 symbol 进行操作,一直到遍历完所有的 input symbol。 更新 Xnew,用 G 的划分代替 G。 }- 如果
Xnew == X,那么定义Xfinal = X,执行 4)。否则进行赋值操作X = Xnew,进行 2)。 Xfinal中每个子集合中选择一个状态来代表这个状态集合。包含s0的状态集合,就是表示开始状态的集合。通过 DFAM来构造 DFAN,规则是这样的:假如某状态p通过某 Input Symbola,通过 DFAM的 Move 函数转到另外一个状态q,我们就用q所在的集合的代表状态来表示q,并把这个转换过程的边、Input Symbol、集合的代表状态,加入 DFAN中。我们需要遍历 DFAM,然后按规则构建 DFAN。化简的 DFA 中,可能有多个接受状态。- 如果
N中有死状态(终态不是死状态),去掉它。有开始状态无法到达的状态,也去掉它。注意,在 DFAN中有可能出现死状态,也就是通过所有的 Input Symbol 都回到自己的状态。前面说过,添加一个死状态得到的新的 DFA 与原 DFA 等价,那么我们这里也自然可以删除它。
- 初始化:假如 Move 函数不是全函数,那么加入死状态。构造划分
在真正的实现上面算法的时候,是灵活的。因为出于时间复杂度的考虑,可能并不需要完全照搬上面的算法,把握主要的思想是很重要的。
- 每个 Input Symbol 都可能划分一次集合。
- 每个集合中的状态被看成是不可区别的,即使在计算过程中某些集合中的状态是可以区别的。
- 一定要确保每个集合都无法再分。
补充说明:文法与自动机的关系
参考链接:关于正则表达式、正则文法、NFA、LR(1)
昨天和 Sumtec 谈到自动机和语法分析,一下子脑子有点混乱,把一些概念搞混了。看了半天清华的编译书也没有整明白... 今天早上起来看了《离散数学及其应用》里的自动机一部分,才厘清了头绪。还是外国人的书讲得清楚一点。
昨天主要是把 NFA 和语法分析中的 LL(1)、LR(1) 搞混了。事实上 LL(1) 分析也好 LR(1) 分析也好,使用的是一个基于下推自动机的计算模型,而不是有限自动机。下推自动机的计算能力要比有限自动机强。
其次就是 NFA 和 DFA 的计算能力确实是等价的。也就是对于任意一个 NFA 都可以找到一个与之等价的 DFA(可以使用子集法来构造这样一个 DFA)。
为了说明有限自动机与 LL(1)、LR(1) 等分析法的关系,先概述一下文法的分类。
文法分为四类:
- 短语文法(0 型文法)
- 上下文相关文法(1 型文法)
- 上下文无关文法(2 型文法)
- 正规(则)文法(3 型文法)
上面四种文法有包含的关系。1 型文法是 0 型文法的一个子集,2 型文法是 1 型文法的一个子集,3 型文法是 2 型文法的一个子集。我们主要研究 2 型和 3 型文法。
3 型文法(正则文法)与正则表达式(Regular Expression)是等价的。任意一个正则文法总是可以转化成一个等价的正则表达式。同时正则表达式与有限自动机是等价的。一个能由有限自动机识别的语言,必然可以用正则表达式来表示;而一个用正则表达式表示的语言一定可以用一个有限自动机来识别。
但是正则文法不足以描述程序设计语言(比如,不能用正则表达式定义带有括号的数学表达式)。现在流行的程序设计语言如 C#、Java 等都是用 2 型文法,也就是上下文无关文法来定义的。因此有限自动机没有能力来识别程序设计语言(最后我会举个例子)。因此提出来下推自动机的模型。下推自动机具有有限自动机的所有部件,如状态、状态转移表等,同时它比有限自动机多一个堆栈,常称为计算栈。下推自动机可以根据情况将终结符或者非终结符压入栈,或者弹出栈。
而 LL(1)、LR(1) 等分析法就是用来分析上下文无关文法的,基于下推自动机的模型。这也是为什么介绍语法分析时,所有的书都会说一个基于 LR(1) 分析法的预测分析器,都会有三部分组成:状态转移表、控制器和计算栈。而所谓的移进与归约就是入栈与出栈的问题。
最后,举一个例子:
先给出一个文法:S -> 0S1 | 01
其中 0、1 是终结符。
这样一个文法描述的语言其实就是 n 个 0 加上相等数量的 n 个 1,这里 n 是某个整数。
这个文法是一个上下文无关文法,但不是一个正则文法。所以说我们没办法写出一个正则表达式来描述这样一个语言。等于一个能识别这个文法中的任意句子的 NFA,我们总能找到这样一个句子,它不是由该文法所定义的,却能被这个 NFA 接受。换句话说,任意 NFA 都不能用来判断某个句子是不是由以上这个文法所定义。
说得实际一点,如果要求写一个着色程序,输入的文件是一串 0、1 组成的序列,要求把其中 n 个 0 加 n 个 1 的序列用红色着色,而其它用黑色的话,我们就不能光用正则表达式匹配来完成这一任务了。
如果上面这个例子还比较抽象的话,那么对于“带有括号的数学表达式”这样一个语言,也是没有办法用正则表达式来进行匹配的。因为描述“带有括号的数学表达式”的文法,也不是一个正则文法,因为其中带有类似:F -> (E)
这样的部分。
而正则文法要求所有的产生式都必须是 A -> aB 或者 A -> a 这样的形式的(其中 A、B 是非终结符,a 是终结符)。
说明:本文内容基于编译原理经典理论整理,部分示例代码为 C 语言风格,链接资源可能因年代久远失效,请以最新官方文档及教材为准。
版权声明:本文为原创文章,版权归 戴老师的博客 所有,转载请联系博主获得授权。
本文地址:https://1diff.fun/archives/ci-fa-fen-xi-nfa-yu-dfa.html
如果对本文有什么问题或疑问都可以在评论区留言,我看到后会尽量解答。