热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

五、数据结构笔记:串[一](定义朴素的模式匹配算法)

串的定义:是由零个或多个字符组成的有限序列,又叫字符串。一般记为s“a1a2a3an(n0),其中,s是字符串的名

串的定义:是由零个或多个字符组成的有限序列,又叫字符串。

 

一般记为 s=“a1a2a3...an"(n>=0),其中,s是字符串的名称,用双引号括起来的字符序列是串的值,注意引号不属于串的内容。ai可以是字母、数字或者其他字符,i是该字符在串中的位置。串中的字符数目n称为串的长度,定义中谈到的有限是指长度n是一个有限的数值。零个字符的串称为空串,它的长度为0,可以直接用两个双引号表示,所谓序列,说明串的相邻字符之间具有前驱和后继的关系。

还有一些概念需要注意:

  • 空格串,是只包含空格的串,注意它与空串的区别,空格串是有内容有长度的,而且枯眼不止一个空格。
  • 子串与主串,串中任意个数的连续字符组成的子序列称为该串的子串,相应地,包含子串的串称为主串。
  • 子串在主串中的位置就是该子串的第一个字符在主串中的位置。

串的比较

两个数字进行比较,2比1大,这完全正确,可是两个字符串如何比较呢?

事实上,串的比较是通过组成串的字符之间的编码来进行的,而字符的编码指的是字符在对应字符集中的序号。

计算机中的常用字符是用标准的ASCII编码,更准确一点,由8位二进制数表示一个字符,一共可以表示256字符,这些只够以英文为主的语言和特殊符号,但全世界文字千千万万,显然这是不够用的,于是提出了Unicode编码,采用16位的二进制数表示一个字符,一共可以表示6.5万多个,而前256个字符与ASCII完全一致。

如果我们在C语言中比较两个串是否相等,必须是他们串的长度以及他们各个对应位置的字符都相等,才算是相等。

那么当两个字符串不想等时,如何比较他们的大小呢?

给定两个串:s=“a1a2a3...an”,t=“b1b2b3...bm”,当满足以下条件之一时s

  1. n
  2. 存在某个k <&#61; min(m,n)&#xff0c;使得ai&#61;bi&#xff0c;(i从1到k-1)&#xff0c;ak

换句话说&#xff0c;当两个字符串相等&#xff0c;对应位置的字符也都相等&#xff0c;则两个串是相等的。

串的存储结构

1、顺序存储结构

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小&#xff0c;为每个定义的串变量分配一个固定长度的存储区。一般是用定常数组来定义。

既然是定长数组&#xff0c;就存在一个预定义的最大串长度&#xff0c;一般可以将实际的串长度值保存在数组的0下标位置&#xff0c;有的语言加在数组最后&#xff1a;

 

 

 

上面说的串的顺序存储其实是有问题的&#xff0c;因为字符串的操作&#xff0c;比如两个串的连接&#xff0c;新串的插入等&#xff0c;都有可能造成串长度超过数组长度。

于是对于顺序存储&#xff0c;有一些优化&#xff0c;串值的存储空间可在程序执行过程中动态分配而得。

2、链式存储结构

对于串的链式存储结构&#xff0c;与线性表是相似的&#xff0c;但由于传结构的特殊性&#xff0c;结构中的每个元素数据是一个字符&#xff0c;如果也简单的应用链表存储串值&#xff0c;一个结点对应一个字符&#xff0c;就存在很大的内存浪费。因此一个结点可以存放一个字符&#xff0c;也可以考虑存放多个字符&#xff0c;最后一个结点若是未被占满&#xff0c;可以用井号或其他值将其填满。

 

 

 

总的来说&#xff0c;不如顺序存储灵活&#xff0c;性能也不如顺序存储结构好。

朴素的模式匹配算法

子串的定位操作&#xff0c;通常称作串的模式匹配

通常的模式匹配&#xff0c;是对主串的每一个字符作为子串的开头&#xff0c;与要匹配的字符串进行匹配&#xff0c;不匹配则整体后移一位&#xff0c;直到完全匹配。

其时间复杂度为O(n&#43;m)&#xff0c;n是主串的长度&#xff0c;m是子串的长度。

 

示例&#xff1a;

主串&#xff1a; “goodgoogle”找到   “google” 这个子串的位置

 

后续会有 KMP算法的实现&#xff0c;因为比较复杂&#xff0c;单独拿出一个章节进行讲解。。。。

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


推荐阅读
  • 本文基于《Linux命令行与Shell脚本编程大全》第三版的第十一章内容,探讨了如何构建基本的Shell脚本,包括命令组合、脚本创建、消息显示、变量使用、输入输出重定向、管道、数学运算及脚本退出等方面的知识。 ... [详细]
  • 本文档汇总了Python编程的基础与高级面试题目,涵盖语言特性、数据结构、算法以及Web开发等多个方面,旨在帮助开发者全面掌握Python核心知识。 ... [详细]
  • KMP算法是一种高效的字符串模式匹配算法,能够在不进行回溯的情况下完成匹配,其时间复杂度为O(m+n),其中m和n分别为文本串和模式串的长度。本文将详细介绍KMP算法的工作原理,并提供C语言实现。 ... [详细]
  • 本文详细探讨了Java命令行参数的概念、使用方法及在实际编程中的应用,包括如何通过命令行传递参数给Java程序,以及如何在Java程序中解析这些参数。 ... [详细]
  • 掌握Mosek矩阵运算,轻松应对优化挑战
    本篇文章继续深入探讨Mosek学习笔记系列,特别是矩阵运算部分,这对于优化问题的解决至关重要。通过本文,您将了解到如何高效地使用Mosek进行矩阵初始化、线性代数运算及约束域的设定。 ... [详细]
  • C语言入门精选教程与书籍推荐
    本文精选了几本适合不同水平学习者的C语言书籍,从基础入门到进阶提高,帮助读者全面掌握C语言的核心知识和技术。 ... [详细]
  • 精通C++并非易事,为何它比其他语言更难掌握?这主要归因于C++的设计理念,即不强迫用户接受特定的编程风格或限制创新思维。本文探讨了如何有效学习C++,并介绍了几本权威的学习资源。 ... [详细]
  • addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]
  • 序列化与反序列化是数据处理中的重要技术,特别是在网络通信和数据存储中。它们允许将复杂的数据结构转换为可传输或存储的格式,再从这些格式恢复原始数据。本文探讨了序列化与反序列化的基本概念,以及它们在不同协议模型中的角色。 ... [详细]
  • 本文详细解析了Java中throw和throws的关键区别,同时涵盖了JDK的定义、Java虚拟机的关键约定、Java的跨平台性、自动垃圾回收机制、源文件结构、包的概念及作用等多个核心知识点,旨在帮助学生更好地准备Java期末考试。 ... [详细]
  • 第十一章 Python基本数据类型及内置方法
    一、概述数据类型是用来记录事物状态的,而事物的状态是不断变化的(如:一个人年龄的增长(操作int类型),单个人名的修改(操作str类型),学生列表中增加学生(操作list类型)等) ... [详细]
  • 本文深入探讨网页游戏的开发流程,涵盖从程序框架设计到具体实现的技术细节,旨在为开发者提供全面的指导。 ... [详细]
  • 题目描述了一个病毒检测问题,要求使用AC自动机算法统计目标文本中多个模式串的出现次数。 ... [详细]
  • 原作者:小甲鱼(注:最左边是文件头的偏移量。)IMAGE_DOS_HEADERSTRUCT{+0hWORDe_magicMagi ... [详细]
  • nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
author-avatar
用户0a8xoj91q0
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有