热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

技术-正则表达式处理读书器的章、节、回问题

原创解决办法一:PatternpatternPattern.compile(第(.|..)章);这里填写的是正则表达式,主要用来分第X章Matchermatcher

原创解决办法一:

Pattern pattern = Pattern.compile("第(.|..)章");//这里填写的是正则表达式,主要用来分第X章

Matcher matcher = null;

matcher = pattern.matcher(searchStr);

if (matcher.find()) {

section = matcher.group();//得到返回的章

}


转载解决办法二:来自http://tieba.baidu.com/p/2256063139 百度贴吧:【伪技术】使用正则表达式在txt小说的章节名称前加##

主要是在百度文库《calibre电子书制作教程》中得到的启发,并参照爱尔兰之狐Txt2ebook中的正则表达式加以修改。正文见2楼。
至于为何要在章节名称前加##,以及如何制作带目录的mobi电子书请参照贴吧精品:
http://tieba.baidu.com/p/2172085169

需要使用到的软件:
1、排版软件:排版助手(GIDOT TYPESETTER) ,功能强大的排版软件
2、文本编辑器,emeditor (其实就是记事本的威力加强版,支持正则表达式)


在网上找一本小说,最好本身是精校的。这里以我下载的一本白鹿原为例。
用emeditor打开小说,可以发现段落之间有空行,首行缩进也不统一。

这里就要用到排版助手了,将小说导入排版助手,点击“执行”,再保存。可以发现,文章的排版已经变化,首行缩进是两个全角空格,段落之间也没空行了。(注:排版助手这个软件博大精深,值得大家研究)


再用emeditor打开排版后的txt,我们开始为每一章标题前加#或者##。
在emeditor当中按CTRL+H


在“查找”栏填入正则表达式:
\s\s第.+[章节回][\s\n]
这是正则表达式的语法,\s表示空格, \s\s表示两个空格,\n表示换行,所以\s\s第.+[章节回][\s\n]表示只要以两个空格开始的第(*)章后面跟空格或者换行的任意文字串在替换栏中输入##\0, ##是h2的表示, \0表示寻找到符合正则表达式的字符串。
点击“替换全部”,所有章节名前面都加入了##标记。

全部替换之后,可以发现章节前面全部加上了##,共替换了34个字符串,经检查本书也确实是34章。
替换之后,另存文本为UTF-8格式,然后就可以用calibre处理了:



我个人总结了两种正则表达式,应该可以适合大部分的网络书籍。
1、第 章/节/回
如第一章、第二节、第3回等等这类的,
使用表达式:\s\s第.+[章节回][\s\n]
2、直接是中文数字或者阿拉伯数字
如一、二十二、1、33这类的,
使用表达式:\s\s(零|一|二|三|四|五|六|七|八|九|十|百|千|[0-9])+[\s\n]+ 

注:必须要经过排版助手处理后才能用,因为\s\s指的是章节前的两个全角空格,而且最好用emeditor编辑,因为不同编辑软件使用的正则表达式语法可能有所不同。


推荐阅读
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • Android系统移植与调试之如何修改Android设备状态条上音量加减键在横竖屏切换的时候的显示于隐藏
    本文介绍了如何修改Android设备状态条上音量加减键在横竖屏切换时的显示与隐藏。通过修改系统文件system_bar.xml实现了该功能,并分享了解决思路和经验。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 延迟注入工具(python)的SQL脚本
    本文介绍了一个延迟注入工具(python)的SQL脚本,包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试,并通过延迟时间来判断注入是否成功。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 本文详细介绍了Python中正则表达式和re模块的使用方法。首先解释了转义符的作用,以及如何在字符串中包含特殊字符。然后介绍了re模块的功能和常用方法。通过学习本文,读者可以掌握正则表达式的基本概念和使用技巧,进一步提高Python编程能力。 ... [详细]
author-avatar
nj擁我自己的天空
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有