热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PaddleOCR——训练数据准备

数据生成数据生成代码地址:https:github.comoh-my-ocrtext_renderer垂直数据生成地址:https:github.c
数据生成

数据生成代码地址:
https://github.com/oh-my-ocr/text_renderer

垂直数据生成地址:
https://github.com/zcswdt/Color_OCR_image_generator/blob/c2a7138be2107b3b3736b76badf5c012c6befe0c/OCR_image_generator.py#L340

将竖直生成加入textrender

代码地址:
https://github.com/xmy0916/textrender
在textrender代码基础上加入竖直文本数据的生成:
在这里插入图片描述

中文语料下载

官网下载地址(不建议官网下载,速度太慢了…):

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
链接:https://pan.baidu.com/s/1OovD6F1Awyi8oErH_FY1kQ
提取码:2bfz

文件说明:

  • zh_wiki.py: 繁体字与简体字对应的字典,代码来源:
    https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py
  • langconv.py: 繁体字与简体字转换的方法,代码来源: https://github.com/skydark/nstools/blob/master/zhtools/langconv.py
  • chinese_corpus_preprocessing: 中文语料预处理方法,代码来源: 《python自然语言处理实战核心技术与算法》 涂铭、刘祥、刘树春著
  • data:
    reduce_zhiwiki.txt: 进行了繁体转换为简体以及jieba分词后的语料数据集
    zhwiki-latest-pages-articles.xml.bz2: 未经处理的维基百科中文网页语料库

从csdn资源里下载的,我觉得学习资料这个东西吧,就免费共享就好了,csdn的资源还要积分下载,免费贡献给大家~


推荐阅读
author-avatar
风暴工会
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有