数据生成
数据生成代码地址:
https://github.com/oh-my-ocr/text_renderer
垂直数据生成地址:
https://github.com/zcswdt/Color_OCR_image_generator/blob/c2a7138be2107b3b3736b76badf5c012c6befe0c/OCR_image_generator.py#L340
将竖直生成加入textrender
代码地址:
https://github.com/xmy0916/textrender
在textrender代码基础上加入竖直文本数据的生成:
中文语料下载
官网下载地址(不建议官网下载,速度太慢了…):
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
链接:https://pan.baidu.com/s/1OovD6F1Awyi8oErH_FY1kQ
提取码:2bfz
文件说明:
- zh_wiki.py: 繁体字与简体字对应的字典,代码来源:
https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py - langconv.py: 繁体字与简体字转换的方法,代码来源: https://github.com/skydark/nstools/blob/master/zhtools/langconv.py
- chinese_corpus_preprocessing: 中文语料预处理方法,代码来源: 《python自然语言处理实战核心技术与算法》 涂铭、刘祥、刘树春著
- data:
reduce_zhiwiki.txt: 进行了繁体转换为简体以及jieba分词后的语料数据集
zhwiki-latest-pages-articles.xml.bz2: 未经处理的维基百科中文网页语料库
从csdn资源里下载的,我觉得学习资料这个东西吧,就免费共享就好了,csdn的资源还要积分下载,免费贡献给大家~