PaddleOCR数字仪表识别——2.数据合成及数据集制作

作者：c肀xc86_441 | 来源：互联网 | 2023-09-23 10:13

文章目录1.数据合成工具1.1text_renderer1.1.1尝试使用1.1.1.1配置过程1.1.1.2示例结果1.1.1.3研究提供的example1.1.2自己使用1.1

文章目录

1. 数据合成工具
- 1.1 text_renderer
- - 1.1.1 尝试使用
  - - 1.1.1.1 配置过程
    - 1.1.1.2 示例结果
    - 1.1.1.3 研究提供的example
  - 1.1.2 自己使用
  - - 1.1.2.1 简化文件结构
    - 1.1.2.2 替换自己的内容
    - 1.1.2.3 确定数据集格式
    - 1.1.2.4 产数字图片
- 1.2 text_renderer工具总结
- 1.3 修改labels.json格式
- - 1.3.1 制作测试集和训练集
  - 1.3.2 制作字典
2. 数据收集
- 2.1 常见通用数据集
- - 2.1.1 PaddleOCR整理的
  - 2.1.2 深度实践OCR-基于深度学习的文字识别这个书整理的
- 2.2 专门的数字数据集
3. 数据标注工具
- 3.1 roLabelImg
4. 制作的数据集

1. 数据合成工具

PaddleOCR提供了许多数据合成工具&＃xff1a;
https://github.com/PaddlePaddle/PaddleOCR/blob/develop/README_ch.md
在这里插入图片描述

也就是说这些数据合成工具其实也是百度从别的地方找的&＃xff0c;做了个整合的目录&＃xff0c;第一个应该是最推荐的。

1.1 text_renderer

只能用来产生文字识别&＃xff08;不是文字检测定位&＃xff09;的图片
&＃xff08;产出的是很小很精确的只有文字部分的图片&＃xff0c;灰度图&＃xff09;

text_renderer是最常用的也是目前看起来效果比较好的&＃xff1a;
https://github.com/Sanster/text_renderer&＃xff0c;新的项目地址(它搬家啦&＃xff0c;O(∩_∩)O)https://github.com/oh-my-ocr/text_renderer

相关参考文献&＃xff1a;&＃xff08;2019年才有的项目&＃xff0c;很新&＃xff0c;目前使用的人比较少&＃xff0c;我也算是先驱呀&＃xff0c;哈哈哈&＃xff09;

知乎-CV学习笔记&＃xff08;十八&＃xff09;&＃xff1a;文本数据集生成(text_renderer)
知乎-CV学习笔记&＃xff08;十九&＃xff09;&＃xff1a;数据集拼接生成
github二次开发的-有些示例
官方-Text Renderer文档

github上的介绍&＃xff1a;

生成用于训练深度学习OCR模型&＃xff08;例如CRNN&＃xff09;的文本图像。例

模块化设计。您可以轻松地添加语料库&＃xff0c;效果&＃xff0c;布局。
支持生成与PaddleOCR兼容的lmdb数据集&＃xff0c;请参阅数据集(所以这是paddleOCR团队开发的工具&＃xff1f;)
支持在背景图上渲染有不同字体&＃xff0c;字体大小以及字体颜色的语料&＃xff0c;布局用来调节多个语料之间的布局
暂不支持产生垂直文字
暂不支持语料采样器&＃xff1a;用于进行字符平衡

1.1.1 尝试使用

先随便用一下&＃xff0c;看一下大致效果&＃xff0c;然后再决定要使用什么字体和什么样的背景图。在windows上使用

1.1.1.1 配置过程

git clone https://github.com/oh-my-ocr/text_renderer cd text_renderer # 自己换个文件夹 python3 setup.py develop pip3 install -r docker/requirements.txt # windows下是 docker\requirements.txt(因为发现如果是 / 的话&＃xff0c;按tab键没有提示) # 然后就会开始安装了 # 第一个要安装的就是 opencv-python&＃61;&＃61;3.4.5.20 注意这个多一点&＃xff0c;因为之后很有可能产生版本冲突。python3 main.py \--config example_data/example.py \--dataset img \--num_processes 2 \--log_period 10

1.1.1.2 示例结果

我实际在我的windows环境中执行的是

> python3 main.py --config example_data\example.py --dataset img --num_processes 2 --log_period 10

然后大概显示以下内容
在这里插入图片描述
然后就可以在example_data/output里看到产生的图片了&＃xff0c;大致给几个示例&＃xff1a;
打开后可以看到&＃xff0c;产生了好几个类型的图片语料&＃xff0c;打开后会看到图片及标记文件&＃xff0c;看起来还不错。

1.1.1.3 研究提供的example

text_renderer提供的官方文档里没有一个很具体的例子&＃xff0c;所以还是要稍微研究下的。

文件结构很明晰
调用参数说明&＃xff0c;main.py脚本只有4个参数&＃xff0c;分别是&＃xff1a;
- config&＃xff1a;python配置文件路径
- dataset: 数据集格式 img/imdb
- num_processes: 使用的进程数量
- log_period: 日志打印时间 (0, 100)。&＃xff08;PS&＃xff1a;上面的是10&＃xff0c;意思是进度每完成10%打印一次&＃xff09;

1.1.2 自己使用

1.1.2.1 简化文件结构

配置过程其实有些复杂了&＃xff0c;但是看调用过程&＃xff0c;其实也就是几个.py文件&＃xff0c;找个文件夹存一下&＃xff0c;以后直接调用&＃xff0c;用命令行调用不适合在代码里配置&＃xff0c;想办法改成可以直接代码调用的&＃xff0c;而不是在pycharm里配置参数/命令行运行。&＃xff08;毕竟要做成一个pipeline&＃xff09;
在这里插入图片描述
其实真的使用的时候只用到上面这四个内容&＃xff0c;其中 main.py和example_data可以换成自己的代码以及相关内容&＃xff0c;tools文件夹里放着lmdb2img.py用于转换文件标记类型。

所以真的有用的代码其实就只有 text_renderer这个文件夹&＃xff08;不需要调试的话&＃xff0c;什么文档提示之类的&＃xff0c;就只把这一个文件夹放到根目录就可以了&＃xff09;

1.1.2.2 替换自己的内容

很明显&＃xff0c;给出的示例是针对场景文字识别这种通用场景的&＃xff0c;我的主要需求是数字&＃xff08;电子仪表数字图片的生成&＃xff09;&＃xff0c;所以字体和背景图都要进行替换。

大致自己的需求&＃xff08;通用的工业数字仪表识别模型&＃xff0c;你没见过的不代表人家没有这个需求&＃xff09;&＃xff1a;

字体类型要多一些
背景类型要更多&＃xff1a;灰黑的还是比较多的类型
字体颜色可能也会多样&＃xff1a;灰黑的&＃xff0c;黄色的&＃xff0c;紫色的&＃xff0c;白色的
注意&＃xff1a;
- 比较严重的一个问题是&＃xff1a;有时候不显示字的时候&＃xff0c;本身数字部分的内容就有数字底色。类似下面这个图&＃xff0c;本身数字不显示的时候&＃xff0c;仪表盘本身就有灰色底色的数字显示&＃xff08;这个要怎么分辨。。。&＃xff09;&＃xff0c;不过还好&＃xff0c;这个目前只有这种颜色的底色&＃xff0c;其他倒是没什么
- 另一个问题是&＃xff1a;小数点的问题&＃xff0c;不过我们的场景里小数点的位置是卡死的&＃xff0c;但是如果涉及到通用场景&＃xff0c;这个小数点就比较尴尬&＃xff08;像上面这个图&＃xff0c;这个小数点是每个数字后面都有&＃xff0c;如何识别咧。&＃xff09;

1.1.2.3 确定数据集格式

在这里插入图片描述
可以直接去根据icdar2015 Incidental Scene Text的链接注册个账号下载

在这里插入图片描述
其实文件也不是很大&＃xff0c;下完之后根据官网提示&＃xff1a;

train_data/gen_label.py文件其实挺简单的&＃xff0c;自己也可以照着写一个

这里给出原始的标签文件&＃xff08;第一个图&＃xff09;和转换后的标签文件的样子&＃xff0c;大概看看什么样&＃xff1a;
在这里插入图片描述
注意&＃xff1a;后面的网址可以直接放到浏览器打开&＃xff0c;就可以看到了

# 训练集标签 wget -P ./train_data/ic15_data https://paddleocr.bj.bcebos.com/dataset/rec_gt_train.txt # 测试集标签 wget -P ./train_data/ic15_data https://paddleocr.bj.bcebos.com/dataset/rec_gt_test.txt

其实就是保证
在这里插入图片描述

重新跑一次示例demo&＃xff0c;看一下lmdb格式产出来的标签文件是什么样的&＃xff0c;再决定使用哪个去修改

python main.py --config example_data\example.py --dataset imdb --num_processes 2 --log_period 10 python main.py --config example_data\example.py --dataset img --num_processes 2 --log_period 10

直接报错了&＃xff0c;而且产出的文件很奇怪&＃xff0c;是 .mdb(Access数据库格式&＃xff1f;&＃xff1f;&＃xff1f;)
在这里插入图片描述
放弃&＃xff0c;这样看来只能使用 img格式来产了

1.1.2.4 产数字图片

这里涉及到四个参数中的dataset&＃xff0c;因为是要使用PaddleOCR&＃xff0c;所以要去看PaddleOCR用的是什么格式&＃xff0c;虽然text_render也提供了一个tools->imdg2img的格式来完成这两者之间的转换&＃xff0c;但是毕竟还是一步到位比较好。

config&＃xff1a;python配置文件路径
dataset: 数据集格式 img/imdb
num_processes: 使用的进程数量
log_period: 日志打印时间 (0, 100)。

根据一个已经close的issue&＃xff0c;关于产生图片txt标签下的Q&A&＃xff0c;
可知控制生成数据集标签文件的脚本是&＃xff1a;text_renderer/text_renderer/dataset.py /这个文件&＃xff0c;查看文件内容&＃xff0c;感觉可以自己改改&＃xff0c;生成要的那个 txt格式文件&＃xff1f;&＃xff1f;&＃xff1f;

python main.py --config example_data\example.py --dataset img --num_processes 2 --log_period 10

产出的结果里每种类别都只有50张图&＃xff0c;而且是每个文件夹中的图片独立编号&＃xff0c;所以先试试一个类别产700张试试吧。

查看那个example.py文件&＃xff0c;写得还是比较清晰的&＃xff0c;关键修改的位置对照着文档text_renderer-document看&＃xff0c;其实很容易看懂

PerspectiveTransform 透视变换&＃xff0c;也可以考虑加入其它的变换

这里注意&＃xff1a;在 RenderCfg类中设置的text_color_cfg (TextColorCfg) –如果非空&＃xff0c;则会覆盖CorpusCfg中设置的 text_color_cfg 。可以看到&＃xff0c;CorpusCfg其实是真正操控产生字体形式的类&＃xff0c; EnumCorpusCfg继承自CorpusCfg&＃xff0c;

但是感觉对颜色类的修改很单一啊&＃xff0c;源码里关于颜色部分只有一点点&＃xff0c;

露个口子是让我们自己写吗。。。。可以看到返回值是个元组&＃xff0c;而且只有一个值。。。就是随机使用背景图的平均值&＃xff0c;直接传递(r,g,b,alpha)四元组&＃xff0c; 报错

根据github上issue&＃xff0c;如果想实现反转颜色的功能&＃xff0c;可以直接添加一个Effect并设置为RenderCfg. render_effects 注意&＃xff0c;保存的图片一定是gray&＃xff0c;所以加彩色也白搭。。。
But it&＃39;s easy to do this by adding a Effect and set as RenderCfg. render_effects.
加了之后报错&＃xff0c;算了。

背景还是尽量找亮色的吧&＃xff0c;不然产出来的图字的颜色和背景图有时候区分不开。

1.2 text_renderer工具总结

text-renderer早期的版本是支持很多种effect的&＃xff0c;但是改版后&＃xff0c;作者认为有些操作最好使用数据增强的方式来做&＃xff0c;所以删除了很多effect&＃xff0c;可以看到&＃xff0c;早期版本是支持颜色修改的
在这里插入图片描述
现在的版本&＃xff0c;effect就只有下面这几个。。

虽然issue中回答给了一个说法&＃xff0c;但是不能用&＃xff0c;哈哈哈。

所以下次如果还要用的话&＃xff0c;看自己的需求决定使用老版本还是新版本吧。

1.3 修改labels.json格式

1.3.1 制作测试集和训练集

由于PaddleOCR对使用的预训练数据集的标记格式有要求&＃xff0c;所以这里要重新处理一下。
根据PaddleOCR文档中自定义数据集部分

暂时只使用直接使用text_renderer产生的800张图片来训练&＃xff08;可以考虑使用数据增强&＃xff0c;反正标签不变。。。&＃xff09;

首先请将训练图片放入同一个文件夹&＃xff08;train_images&＃xff09;&＃xff0c;并用一个txt文件&＃xff08;rec_gt_train.txt&＃xff09;记录图片路径和标签。

注意&＃xff1a; 默认请将图片路径和图片标签用 \t 分割&＃xff0c;如用其他方式分割将造成训练报错。&＃xff08;PaddleOCR默认文件目录下有一个 train_data文件夹&＃xff0c;正常刚下载下来&＃xff0c;里面只含有一个叫 gen_label.py的脚本&＃xff09;

" 图像文件名图像标注信息 " train_data/train_0001.jpg 简单可依赖 train_data/train_0002.jpg 用科技让复杂的世界更简单

反正都是独立编号&＃xff0c;完全可以使用text_renderer产两次&＃xff0c;第一次800张训练集&＃xff0c;第二次200张测试集&＃xff0c;都分别进行label转换就好了&＃xff0c;训练集和测试集中的数据路径
在这里插入图片描述
这里其实写路径的时候&＃xff0c;和配置文件相关的&＃xff0c;以官方提供的rec_icdar15_train.yml这个配置文件为例&＃xff0c;里面有一项是&＃xff1a;
reader_yml: ./configs/rec/rec_icdar15_reader.yml
在rec_icdar15_reader.yml文件里&＃xff0c;可以看到以下内容(这里就给出了训练文件的路径&＃xff0c;所以不管上面的数据集里路径怎么弄的&＃xff0c;只要在这个文件里配置相容就可以了。不是死的)

TrainReader:reader_function: ppocr.data.rec.dataset_traversal,SimpleReadernum_workers: 8img_set_dir: ./train_data/ic15_datalabel_file_path: ./train_data/ic15_data/rec_gt_train.txtEvalReader:reader_function: ppocr.data.rec.dataset_traversal,SimpleReaderimg_set_dir: ./train_data/ic15_datalabel_file_path: ./train_data/ic15_data/rec_gt_test.txtTestReader:reader_function: ppocr.data.rec.dataset_traversal,SimpleReader

在这里插入图片描述
从配置文件说明&＃xff1a; PaddleOCR/doc/doc_ch/config.md里面可以知道&＃xff0c;一般XXXX_train.yml文件中会有以下选项&＃xff1a;

XXXX_train.yml中有一项是另一个配置文件的路径。。。。&＃xff08;写在一个里面不好&＃xff1f;单独分出来容易修改&＃xff1f;好像也是&＃xff09;

所以仿照给出的路径&＃xff0c;我最后的文件夹结构应该是&＃xff1a;

不确定本机能不能训练的动&＃xff0c;服务器上没有GPU。。。

1.3.2 制作字典

根据ppocr/utils/ic15_dict.txt 是一个包含36个字符的英文字典&＃xff0c;&＃xff0c;去查看相应的文件&＃xff1a;PaddleOCR/ppocr/utils/ic15_dict.txt&＃xff0c;大致内容&＃xff1a;
在这里插入图片描述
文件内容格式OK&＃xff0c;关于文件存放位置

自定义字典
如需自定义dic文件&＃xff0c;请在 configs/rec/rec_icdar15_train.yml 中添加 character_dict_path 字段, 指向您的字典路径。并将 character_type 设置为 ch。
添加空格类别
如果希望支持识别"空格"类别, 请将yml文件中的 use_space_char 字段设置为 true。
注意&＃xff1a;use_space_char 仅在 character_type&＃61;ch 时生效

其实在我的使用场景里&＃xff0c;无关中英文&＃xff0c;因为只使用数字。

2. 数据收集

由于直接造数字图片训练出来的模型在应用场景图片上的效果不是很好&＃xff0c;所以还是需要收集一些真实场景的数字图片。

其实文本检测已经可以很准确的找到文本/数字的位置了&＃xff0c;所以我只需要找一些有数字的图片&＃xff0c;改进文本识别的效果。

2.1 常见通用数据集

2.1.1 PaddleOCR整理的

PaddleOCR收集了一些通用的数据集&＃xff0c;通用中英文OCR数据集

ICDAR2019-LSVT
ICDAR2017-RCTW-17
中文街景文字识别
中文文档文字识别
ICDAR2019-ArT

其中我觉得最接近我使用的应该是中文文档文字识别&＃xff0c;这个数据集其实来自另一个github上的ocr项目&＃xff0c;https://github.com/YCG09/chinese_ocr&＃xff0c;但是数据集太大了&＃xff0c;共约364万张图片&＃xff0c;图片分辨率统一为280x32&＃xff08;虽然每张图很小&＃xff0c;但是抵不住量多啊&＃xff09;

数据集&＃xff1a;https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw (密码&＃xff1a;lu7m)
在这里插入图片描述

2.1.2 深度实践OCR-基于深度学习的文字识别这个书整理的

https://github.com/ocrbook/ocrinaction/tree/master/chapter-5
在这里插入图片描述

2.2 专门的数字数据集

主要还是互联网搜索&＃xff0c;大致的关键字是 seven segment digital datasets&＃xff1a;

论文的数据集&＃xff08;以前听说过很多论文会公开自己的数据集&＃xff0c;但是毕竟是少数&＃xff0c;所以这个算是意外惊喜吧&＃xff09;&＃xff1a;
- 论文&＃xff1a;Text detection and recognition in raw image dataset of seven segment digital energy meter display
- 数据集地址&＃xff1a;Data for: Text detection and Recognition in Raw Image Dataset of Seven Segment Digital Energy Meter Display&＃xff0c;感谢mendeley
github上的&＃xff1a;https://github.com/SachaIZADI/Seven-Segment-OCR 不是我需要的&＃xff08;给的是多种类型的10个数字的图片&＃xff09;
github上的&＃xff1a;https://github.com/arturaugusto/display_ocr
XXXXX 啥都不是&＃xff0c;竟然是c的代码&＃xff0c;起个这样的名字&＃xff0c;无语。。。LED Display Domain Data Set - UCI Machine Learning .
中文也搜了一波&＃xff0c;没有发现更多了&＃xff0c;就用找到的那个论文里的吧&＃xff0c;做一下数据增强&＃xff0c;也可以用&＃xff0c;哈哈

3. 数据标注工具

3.1 roLabelImg

除了常见的labelme和labelimg&＃xff0c;vott&＃xff0c;以及后来配置服务端的CVAT&＃xff0c;还有一个从PaddleOCR中数据标注工具上看到的
数据标注工具这个文档里提到的&＃xff1a; 支持旋转矩形标注 &＃xff08;这个感觉对标注ocr数字图像识别很有用啊&＃xff09;
在这里插入图片描述

4. 制作的数据集

百度网盘链接&＃xff1a;

链接&＃xff1a;https://pan.baidu.com/s/179X4c6JqAtR1VvQYON71sQ
提取码&＃xff1a;r9b3
复制这段内容后打开百度网盘手机App&＃xff0c;操作更方便哦

里面有两个小的数据集&＃xff0c;都已经分为了测试和训练集&＃xff0c;类似&＃xff1a;
在这里插入图片描述

推荐阅读

main
如何更换Anaconda和pip的国内镜像源

本文详细介绍了如何通过国内多个知名镜像站（如北京外国语大学、中国科学技术大学、阿里巴巴等）更换Anaconda和pip的源，以提高软件包的下载速度和安装效率。 ... [详细]

蜡笔小新 2024-11-26 10:06:26
main
深入解析轻量级数据库 SQL Server Express LocalDB

本文详细介绍了 SQL Server Express LocalDB，这是一种轻量级的本地 T-SQL 数据库解决方案，特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比，并提供了安装和连接 LocalDB 的步骤。 ... [详细]

蜡笔小新 2024-11-25 20:36:01
int
Frida环境搭建与基础使用教程

本文详细介绍了如何在本地环境中安装配置Frida及其服务器组件，以及如何通过Frida进行基本的应用程序动态分析，包括获取应用版本和加载的类信息。 ... [详细]

蜡笔小新 2024-11-25 17:43:00
ip
华为云openEuler环境下的Web应用部署实践

本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤，包括配置yum源、安装Apache、MariaDB、PHP及其相关组件，并完成WordPress的安装与配置过程。 ... [详细]

蜡笔小新 2024-11-25 12:39:31
int
在VSCode中集成Prettier与TypeScript的最佳实践

本文详细介绍了如何在VSCode环境中配置Prettier工具以支持TypeScript项目，同时结合ESLint实现代码风格的一致性和自动化格式化。 ... [详细]

蜡笔小新 2024-11-24 17:50:24
go
Docker基础入门与环境配置指南

本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker，用户能够将应用及其依赖打包进容器内，实现高效、轻量级的虚拟化。容器之间采用沙箱机制，确保彼此隔离且资源消耗低。 ... [详细]

蜡笔小新 2024-11-24 09:54:53
const
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
int
将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)

随着Oracle ADW的推出，数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例，探讨如何高效地将XML数据迁移至ADW。 ... [详细]

蜡笔小新 2024-11-23 20:27:56
ip
阿里云服务器新手指南：六步轻松部署网站

对于初次购买阿里云服务器的新手用户来说，如何高效地利用服务器资源并成功部署网站是一个重要的课题。本文将详细指导您完成从购买服务器到网站上线的六个关键步骤。 ... [详细]

蜡笔小新 2024-11-26 12:31:45
main
在Windows环境下安装FFTW并利用其库函数实现4096点FFT计算

本文介绍了如何在Windows操作系统中安装FFTW库，并详细说明了使用Visual Studio 2010进行4096点快速傅里叶变换（FFT）的步骤。包括下载预编译文件、生成库文件以及配置环境等关键环节。 ... [详细]

蜡笔小新 2024-11-26 09:26:23
int
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
nodejs
CSS模块化命名

CSS模块化命名 ... [详细]

蜡笔小新 2024-11-25 16:58:20
python
CentOS 7 实验记录：解决磁盘故障案例分析

本文详细记录了一次在 CentOS 7 系统上遇到的磁盘故障处理过程，主要探讨了因额外磁盘缺失但 fstab 文件中仍保留其挂载配置而导致的问题，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 16:35:45
main
iOS 小组件开发指南

本文详细介绍了iOS小部件（Widget）的开发流程，从环境搭建、证书配置到业务逻辑实现，提供了一系列实用的技术指导与代码示例。 ... [详细]

蜡笔小新 2024-11-25 08:43:14
int
Python网络编程：深入探讨TCP粘包问题及解决方案

本文详细探讨了TCP协议下的粘包现象及其产生的原因，并提供了通过自定义报头解决粘包问题的具体实现方案。同时，对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]

蜡笔小新 2024-11-23 15:55:15

c肀xc86_441

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章