热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

正则表达式与文本处理三剑客深入解析

本文深入解析了正则表达式及其在文本处理中的应用,详细介绍了常用的正则表达式模式,如`[0-9]`用于匹配任意一个数字字符,`[^0-9]`匹配任意一个非数字字符,`^[0-9]`表示以数字开头,`[a-z]`匹配任意一个小写字母,而`[a-zA-Z]`则匹配任意一个字母,并强调了正则表达式中大小写的区分。此外,文章还探讨了正则表达式在文本处理中的高级用法,包括模式匹配、字符串替换和数据提取等技术,为读者提供了丰富的实战案例和应用场景。

1.正则表达式

  [0-9]             任意一个数字字符

  [^0-9]           任意一个非数字,取非

  ^[0-9]           表示以数字开头   

  [a-z]              任意一个小写字母

  [a-zA-Z]        任意一个字母,正则表达式中区分大小写

    .                  表示任意一个字符

   *                   表示匹配*号前面的字符任意次,包含0次        

  .*                   表示任意个任意字符                   

  \+                   表示匹配+号前面的字符1次或多次,至少1次

                        技术分享图片

 \?                   表示匹配?号前面的字符0次或1次

{n}                    表示其前面字符出现的次数

\{n,m\}             表示匹配其前面的字符至少n次,最多m次

                       技术分享图片

 |                      表示匹配|号左面或右面

 2.  grep/egrep命令

   grep  [-cinvABC]  ‘word‘  filename1  filename1…..

  选项

 -c           count,统计匹配的行数

 -n           number,匹配的行显示在原文件中的行号

 -v            取反,显示不匹配的行

 -r            递归遍历子目录下的所有文件

 -A     过滤显示出匹配行的上面的n行,不包括匹配行

 -B     过滤显示出匹配行的下面的n行,不包括匹配行

 -C     context(上下文),过滤出匹配行的上面和下面n行,不包括匹配行

      技术分享图片

注意:grep  -E   等价于  egrep

3. sed命令

 1)选项

   -n                    取消默认输出,仅输出匹配的行

   -r                     类似grep的-E选项,特殊符号不需要脱义

           

   -i                     sed命令处理文件,仅输出处理的结果,文件的内容不会更改保存;

                  -i选项,文件的内容会更改保存。

   -e                    多次处理匹配行

                            技术分享图片

 2)打印输出匹配行,类似grep,但匹配的关健字不带颜色显示

      技术分享图片

 

 3)打印指定行

  1)sed  -n  ‘2’p   file               打印第2行

  2)sed  -n  ‘2,5’p  file              打印第2到第5行

       sed  -n  ‘2,$’p  file              打印第2到最后(尾)行

       sed  -n  ‘1,$’p  file              打印所有行

 4)查找替换字符

    针对字符

        技术分享图片

   针对正则表达式

      技术分享图片

 5)删除某些字符,即把某些字符替换成空

    技术分享图片

  6)在行首新增字符

   技术分享图片

  7)引用()内的内容;贪婪匹配

   test.txt的内容,把第一个冒号前的内容和最后一个冒号后的内容调换

     技术分享图片

 


推荐阅读
  • 本文介绍了SIP(Session Initiation Protocol,会话发起协议)的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • 本文介绍了如何通过C#语言调用动态链接库(DLL)中的函数来实现IC卡的基本操作,包括初始化设备、设置密码模式、获取设备状态等,并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]
  • 本文详细介绍了C++中的构造函数,包括其定义、特点以及如何通过构造函数进行对象的初始化。此外,还探讨了转换构造函数的概念及其在不同情境下的应用,以及如何避免不必要的隐式类型转换。 ... [详细]
  • 本文将从基础概念入手,详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发,以及其背后的源码实现细节。 ... [详细]
  • 回顾两年前春节期间的一个个人项目,该项目原本计划参加竞赛,但最终作为练习项目完成。独自完成了从编码到UI设计的全部工作,尽管代码量不大,但仍有一定的参考价值。本文将详细介绍该项目的背景、功能及技术实现。 ... [详细]
  • 在处理大数据量的SQL分页查询时,通常需要执行两次查询来分别获取数据和总记录数。本文介绍了一种优化方法,通过单次查询同时返回分页数据和总记录数,从而提高查询效率。 ... [详细]
  • 本文详细探讨了BCTF竞赛中窃密木马题目的解题策略,重点分析了该题目在漏洞挖掘与利用方面的技巧。 ... [详细]
  • 本文详细介绍了iOS应用的生命周期,包括各个状态及其转换过程中的关键方法调用。 ... [详细]
  • Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具,特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹,以及加密过程中的注意事项。 ... [详细]
  • 如何在PHP中安装Xdebug扩展
    本文介绍了如何从PECL下载并编译安装Xdebug扩展,以及如何配置PHP和PHPStorm以启用调试功能。 ... [详细]
  • 本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战,包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时,作者结合自身项目经验,分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]
  • importjava.io.*;importjava.util.*;publicclass五子棋游戏{staticintm1;staticintn1;staticfinalintS ... [详细]
  • 解决Visual Studio Code中PHP Intelephense误报问题
    PHP作为一种高度灵活的编程语言,其代码结构可能导致Intelephense插件在某些情况下报告不必要的错误或警告。自1.3.3版本起,Intelephense引入了多个配置选项,允许用户根据具体的工作环境和编程风格调整这些诊断信息的显示。 ... [详细]
  • 本文通过一个具体的实例,介绍如何利用TensorFlow框架来计算神经网络模型在多分类任务中的Top-K准确率。代码中包含了随机种子设置、模拟预测结果生成、真实标签生成以及准确率计算等步骤。 ... [详细]
author-avatar
zhangiloveyou
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有