微机上常用的字符集是标准ASCII码,由 7 位二进制数 表示一个字符,总共可以表示 128 个字符。扩展ASCII 码由 8 位二进制数表示一个字符,总共可以表示 256 个 字符,足够表示英语和一些特殊符号,但无法满足国际需要。 Unicode码由 16 位二进制数表示一个字符,总共可以表示2的16次方个字符,即6万5千多个字符,能够表示世界上所有语言的所有字符,包括亚洲国家的表意字符。为了保持兼容性,Unicode字符集中的前256个字符与扩展ASCII码完全相同。
ADT String {数据对象:D={ ai |ai∈CharacterSet, i=1,2,...,n, n≥0 } 数据关系:R1={ | ai-1, ai ∈D, i=2,...,n }基本操作:} ADT String
StrInsert (&S, pos, T) (插入)
初始条件:串 S 和 T 均存在,1≤pos≤StrLength(S)+1。
操作结果:在串 S 的第 pos 个字符之前插入串T。
例如:S = "chater",T = "rac", 则执行 StrInsert (S, 4, T) 得到 S = "character"
StrDelete (&S, pos, len) (删除)
初始条件:串 S 存在,且1≤pos≤StrLength(S)-len+1。
操作结果:从串 S 中删除第 pos 个字符起长度为len的子串。
StrAssign (&T, chars) (串赋值)
初始条件:chars 是字符串常量。
操作结果:把 chars 赋为 T 的值。
StrCopy (&T, S) (串复制)
初始条件:串 S 存在。
操作结果:由串 S 复制得串 T。
Concat (&T, S1, S2) (串联接)
初始条件:串 S1 和 S2 存在。
操作结果:T 为由串 S1 和串 S2 联接所得的串。
例如: Concat( T, "man", "kind") 求得 T = "mankind" Concat( T, "kind", "man") 求得 T = "kindman"
StrCompare (S, T) (串比较)
初始条件:串 S 和 T 都存在。
操作结果&#xff1a;若串 S > T, 则返回值>0&#xff1b;若S&#61;T, 则返回值&#61;0&#xff1b;若串 S < T, 则返回值<0.
例如&#xff1a;StrCompare("data", "state") < 0 StrCompare("compute", "case") > 0
Replace ( S, T, V) (串置换)
初始条件&#xff1a;串 S, T 和 V 均已存在&#xff0c;且 T 是非空串。
操作结果&#xff1a;用 V 替换主串 S 中出现的所有与&#xff08;模式串&#xff09;T 相等的不重叠的子串。
例如&#xff1a;假设 S &#61; "abcaabcaaabca", T &#61; "bca"若 V &#61; "x", 则经置换后得到 S &#61; "axaxaax"若 V &#61; "bc", 则经置换后得到 S &#61; "abcabcaabc"
SubString (&Sub, S, pos, len) (求子串)
初始条件&#xff1a;串 S 存在&#xff0c;1≤pos≤StrLength(S) 且 0≤len≤StrLength(S)-pos&#43;1。
操作结果: 以 Sub 返回串 S 中第 pos 个字符起长度为 len 的子串。
例如&#xff1a;SubString ( sub, "commander", 4, 3) 求得 sub &#61; "man"
SubString( sub, "commander", 1, 9) 求得 sub &#61; "commander"
SubString( sub, "commander", 9, 1) 求得 sub &#61; "r"
Index ( S, T, pos) (定位函数)
初始条件&#xff1a;串 S 和 T 存在&#xff0c;且 T 是非空串&#xff0c; 1≤pos≤StrLength(S)。
操作结果&#xff1a;若主串 S 中存在和串 T 值相同的子串&#xff0c;则返回它在主串 S 中第 pos个字符起第一次出现的位置; 否则函数值为0。
假设 S &#61; "abcaabcaaebc", T &#61; "abc" Index(S, T, 1) &#61; 1; Index(S, T, 3) &#61; 5; Index(S, T, 8) &#61; 0;
串和线性表的区别
串的逻辑结构和线性表极为相似&#xff0c;区别仅在于串的数据对象约束为字符集。
串的基本操作和线性表有很大差别。
在线性表的基本操作中&#xff0c;大多以“单个元素”作为操作对象&#xff1b;
而在串的基本操作中&#xff0c;通常以“串的整体”作为操作对象。
串的表示和实现
定长顺序存储特点&#xff1a;
用一组连续的存储单元来存放串&#xff0c;直接使用定长的字符数组来定义&#xff0c;数组的上界预先给出&#xff0c;故称为静态存储分配。
例如&#xff1a;
#define Maxstrlen 255 //用户可用的最大串长
typedef unsigned char SString[ Maxstrlen&#xff0b;1 ] ;
SString s; //s是一个可容纳255个字符的顺序串。
注&#xff1a; 一般用SString[0]来存放串长信息&#xff1b;
C语言约定在串尾加结束符 ‘ \0’&#xff0c;以利操作加速&#xff0c;但不计入串长&#xff1b;
若字符串超过Maxstrlen 则自动截断&#xff08;因为静态数组存不 进去&#xff09;。
如果想要存放超长的字符串&#xff0c;静态数组有缺陷&#xff0c;改用动态分配的一维数组----------堆
堆分配存储特点&#xff1a;
仍用一组连续的存储单元来存放串&#xff0c;但存储空间是在程序执行过程中动态分配而得。
思路&#xff1a;利用malloc函数合理预设串长空间。
特点&#xff1a; 若在操作中串值改变&#xff0c;还可以利用realloc函数按新串长度增加(堆砌)空间。
约定&#xff1a;所有按堆存储的串&#xff0c;其关键信息放置在&#xff1a;
Typedef struct {
char *ch; // 若非空串,按串长分配空间; 否则 ch &#61; NULL
int length; //串长度
}HString
用“堆”实现串插入操作
Status StrInsert ( HString &S, int pos, HString T ) { //在串S的第pos个字符之前&#xff08;包括尾部&#xff09;插入串T if (pos<1||pos>S.length&#43;1) return ERROR; //pos不合法则告警 if(T.length){ //只要串T不空&#xff0c;就需要重新分配S空间&#xff0c;以便插入T if (!&#xff08;S.ch&#61;(char*)realloc (S.ch, (S.length&#43;T.length)* sizeof(char)) )) exit(OVERFLOW); for ( i&#61;S.length-1; i>&#61;pos-1; --i ) //为插入T而腾出pos之后的位置 S.ch [i&#43;T.length] &#61; S.ch [i]; //从S的pos位置起全部字符均后移 S.ch[pos-1…pos&#43;T.length-2] &#61; T.ch[0…T.length-1]; //插入T&#xff0c;略/0 S.length &#43; &#61; T.length; //刷新S串长度 } return OK;
}//StrInsert
堆分配存储表示
比较字符串是否相同
Int Strcompare ( Hstring S, Hstring T ) { for ( i &#61; 0; i } // StrCompare
清空字符串
Status ClearString ( Hstring &S) { if ( S.ch ) { free(S.ch); S.ch &#61; NULL; } S.length &#61; 0; return OK;
} // ClearString
联接两个串成新串
Status Concat ( HString &T, Hstring S1, Hstring S2 ) { //用T返回由S1和S2联接而成的新串。 if (T.ch) free(T.ch); // 释放旧空间 if ( !(T.ch &#61; (char *) malloc ((S1.length&#43;S2.length) *sizeof (char) ) ) ) exit ( OVERFLOW); T.ch[0 .. S1.length-1] &#61; S1.ch[0 .. S1.length-1]; T.length &#61; S1.length &#43; S2.length ; T.ch [S1.length .. T.length-1] &#61; S2.ch [0 .. S2.length-1]; return OK;
} // Concat
求子串
Status SubString ( Hstring &Sub, Hstring S, int pos, int len ) { //用Sub返回串S的第pos个字符起长度为len的子串。 // 其中,1<&#61;pos<&#61; StrLength (S) 且 0<&#61;len<&#61;StrLength(S)-pos&#43;1。 if ( pos <1 || pos>S.length || len<0 || len>S.length-pos&#43;1) return ERROR; // 参数不合法 if ( Sub.ch) free ( Sub.ch); // 释放旧空间 if (!len) { Sub.ch &#61; NULL; Sub.length &#61; 0; } // 空子串 else {// 完整子串 Sub.ch &#61; ( char *) malloc ( len *sizeof ( char )); Sub.ch[0..len-1] &#61; S.ch [ pos-1.. Pos&#43;len-2] ; Sub.length &#61; len; } return OK;}
块链类型定义&#xff1a;
#define CHUNKSIZE 80 //可由用户定义的块大小 typedef struct Chunk { //首先定义结点类型 char ch [ CHUNKSIZE ]; //结点中的数据域 struct Chunk * next ; //结点中的指针域 }Chunk;typedef struct { //其次定义用链式存储的串类型 Chunk *head; //头指针 Chunk *tail; //尾指针 int curLen; //结点个数 } LString; //串类型只用一次&#xff0c;前面可以不加Lstring
注&#xff1a;
串与线性表的运算有所不同&#xff0c;是以“串的整体”作为操作对象&#xff0c;例如查找某子串&#xff0c;在主串某位置上插入一个子串等。
这类操作中均涉及到定位问题&#xff0c;称为串的模式匹配。它是串处理系统中最重要的操作之一。
关于串的模式匹配敬请期待。
申明&#xff1a;备考期末&#xff0c;如果不到之处&#xff0c;敬请指出&#xff0c;感激不尽。