在进行XML文法分析之前,首先有必要懂得XML语法的基础规矩:
词法特点:1)XML区分大小写,如元素名在打开和封闭标记中应保持大小写一致
2)XML保留标记字符为:<> &,保留字符不答应呈现在元素名、元素文本、属性名、属性值中,<用户打开标记,>用于封闭标记,&用于转意,常见的转意为 <天生<,>天生>,&天生&,&apos天生’,"天生”
3)元素名以下划线或字母开端,可包含字母、数字、句点、连字符、下划线、冒号和用于其他语言的扩大字符,元素名中不能有空格符(分格符、跳格符、换行符、回车符),元素名可以由名域前缀。如:
4)属性名的规矩同元素名,属性值由单引号或双引号括约其中,可由除XML保留字符以外的字符串组成,如:
句法特点:1)XML文档由一个XML阐明、多个可选的文档阐明、多个可选的XML指令、多个可选的XML注释和一个根元素的数据体组成,此外还可以有嵌进语句中的CDATA段,如:
以下为引用的内容:
2)XML阐明由标封闭,其中包含版本、编码等可选阐明,如:
3)XML文档阐明由封闭,如:
4)XML指令由封闭,如:
5)XML注释由封闭,如:
6)XML元素由<元素名>打开,由/>,或元素名>封闭,元素的打开和封闭标记相互匹配,如
7)CDTATA段由打开,由]]>封闭,用于使居于其中的语句规避XML解析规矩。如:
根据以上的XML文法特点,可以结构出用于词法分析的正则式和用于句法分析的下推主动机结构。
XML词法正则式:
#define digit [1,2,…,9] /*数字字符*/
#define letter [a,b,…,z,A,B,…,Z] /*字母字符*/
#define signs [~, ! , @, #, %, ^, &,*,(, ), ?, :, ;, “, ‘, ,, ., /,-, _, , =, |, \] /*符号字符*/
#define ascii2 [0x80,…,0xFF] /*ASCII chart2 扩大字符*/
#define space [0x20, \t, \r, \n] /*空格符,跳格符,回车符,换行符*/
#define reserve [<, >, &] /*XML保留字符*/
1) 元素名的正则式:
element_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
2) 元素文本的正则式:
element_text -> (ε| not reserve)*
3) 属性名的正则式:
proper_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
4) 属性文本的正则式:
proper_value -> (ε| not reserve)*