【印刷数字识别】基于matlabOCR识别系统【含Matlab源码438期】

作者：瓦尔登湖 | 来源：互联网 | 2023-10-10 11:37

一、OCR简介1什么是OCR技术？OCR英文全称是OpticalCharacterRecognition，中文叫做光学字符识别。它是利用光学技术和计算

一、OCR简介

1 什么是OCR技术&＃xff1f;
OCR英文全称是Optical Character Recognition&＃xff0c;中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来&＃xff0c;并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一&＃xff0c;而且这个课题已经是比较成熟了&＃xff0c;并且在商业中已经有很多落地项目了。

2 OCR技术的分类&＃xff1a;
2.1 按主题划分&＃xff1a;手写体识别和印刷体识别。

(1)印刷体大多都是规则的字体&＃xff0c;技术上的难点是&＃xff0c;在印刷过程中字体很可能变得断裂或者墨水粘连&＃xff0c;使得OCR识别异常困难。当然这些都可以通过一些图像处理的技术帮他尽可能的还原&＃xff0c;进而提高识别率。总的来说&＃xff0c;单纯的印刷体识别在业界已经能做到很不错了&＃xff0c;但说100%识别是肯定不可能的&＃xff0c;但是说识别得不错那是没毛病。

(2)手写体识别一直是OCR界一直想攻克的难关&＃xff0c;但是时至今天&＃xff0c;识别难度还是很大。为什么手写体识别这么难识别&＃xff1f;因为人类手写的字往往带有个人特色&＃xff0c;每个人写字的风格基本不一样&＃xff0c;虽然人类可以读懂你写的文字&＃xff0c;但是机器缺很难。印刷体一般都比较规则&＃xff0c;字体都基本就那几十种&＃xff0c;机器学习这几十种字体并不是一件难事&＃xff0c;但是手写体&＃xff0c;每个人都有一种字体的话&＃xff0c;那机器该学习多少字体啊&＃xff1f;这就是难度所在。

在这里插入图片描述
2.2 按识别的内容来分类
对于我们国人来说主要分成三类&＃xff1a;汉字、英文字母、阿拉伯数字。识别数字是最简单了&＃xff0c;毕竟要识别的字符只有0~9&＃xff0c;而英文字母识别要识别的字符有26个&＃xff08;如果算上大小写的话那就52个&＃xff09;&＃xff0c;而中文识别&＃xff0c;要识别的字符高达数千个因为汉字的字形各不相同&＃xff0c;结构非常复杂&＃xff08;比如带偏旁的汉字&＃xff09;如果要将这些字符都比较准确地识别出来&＃xff0c;是一件相当具有挑战性的事情。但是&＃xff0c;并不是所有应用都需要识别如此庞大的汉字集&＃xff0c;比如车牌识别&＃xff0c;我们的识别目标仅仅是数十个中国各省和直辖市的简称&＃xff0c;难度就大大减少了。当然&＃xff0c;在一些文档自动识别的应用是需要识别整个汉字集的&＃xff0c;所以要保证识别的整体的识别还是很困难的。

2.3 OCR流程
在这里插入图片描述
判断页面上的文本朝向&＃xff0c;因为我们得到的这页文档往往都不是很完美的&＃xff0c;很可能带有倾斜或者污渍&＃xff0c;那么我们要做的第一件事就是进行图像预处理&＃xff0c;做角度矫正和去噪。
对文档版面进行分析&＃xff0c;进每一行进行行分割&＃xff0c;把每一行的文字切割下来&＃xff0c;最后再对每一行文本进行列分割&＃xff0c;切割出每个字符&＃xff0c;将该字符送入训练好的OCR识别模型进行字符识别&＃xff0c;得到结果。
对其进行识别结果的矫正和优化&＃xff0c;比如我们可以设计一个语法检测器&＃xff0c;去检测字符的组合逻辑是否合理。比如&＃xff0c;考虑单词Because&＃xff0c;我们设计的识别模型把它识别为8ecause&＃xff0c;那么我们就可以用语法检测器去纠正这种拼写错误&＃xff0c;并用B代替8并完成识别矫正。这样子&＃xff0c;

整个OCR流程就走完了。从大的模块总结而言&＃xff0c;一套OCR流程可以分为&＃xff1a;
版面分析 -> 预处理-> 行列切割 -> 字符识别 -> 后处理识别矫正
从上面的流程图可以看出&＃xff0c;要做字符识别并不是单纯一个OCR模块就能实现的&＃xff08;如果单纯的OCR模块&＃xff0c;识别率相当低&＃xff09;&＃xff0c;都要各个模块的组合来保证较高的识别率。

二、部分源代码

clc clear all close all Symbols &＃61;[&＃39;0&＃39; &＃39;1&＃39; &＃39;2&＃39; &＃39;3&＃39; &＃39;4&＃39; &＃39;5&＃39; &＃39;6&＃39; &＃39;7&＃39; &＃39;8&＃39; &＃39;9&＃39; &＃39;-&＃39;]; P3 &＃61; []; Result &＃61; []; path &＃61; &＃39;C:\Users\lenovo\Desktop\23149049ocr\&＃39;; % working Path ext &＃61; &＃39;_bold.bmp&＃39;; %Train Data Files Extension name P &＃61; zeros(16,12,11);% Read 0-9 digits data for i &＃61; 0: 9file &＃61; [path,char(48 &＃43; i) , ext]; % char(48) &＃61;> &＃39;0&＃39;P(:,:,i &＃43; 1) &＃61; imread(file);P3 &＃61; [P3,P(:,:,i &＃43; 1)&＃39;]; end% imshow(P(:,:,1));i &＃61; i &＃43; 1; % read other symbolsfile &＃61; [path,&＃39;dash&＃39; , ext];P(:,:,i &＃43; 1) &＃61; imread(file);P3 &＃61; [P3,P(:,:,i &＃43; 1)&＃39;];% figure % for i &＃61; 1:11 % subplot( 11, 1, i ); % imshow( P(:,:,i) ); % endP1 &＃61; reshape(P3, 12 * 16, 11);T &＃61; zeros(11,11); for i &＃61; 1:11T(i,i) &＃61; 1; end[R,Q] &＃61; size(P1); [S2,Q] &＃61; size(T);S1 &＃61; 25;net &＃61; newff(minmax(P1),[S1 S1 S2],{&＃39;logsig&＃39; &＃39;logsig&＃39;,&＃39;logsig&＃39;},&＃39;traingdx&＃39;);net.performFcn &＃61; &＃39;sse&＃39;; net.trainParam.goal &＃61; 0.05; net.trainParam.show &＃61; 100; net.trainParam.epochs &＃61; 5000; net.trainParam.mc &＃61; 0.95;[net,tr] &＃61; train(net,P1,T);sept2 &＃61; []; %character segment start-end pos Test1 &＃61;[]; file &＃61; [path,&＃39;test_bold2.bmp&＃39;]; a &＃61; imread(file); figure; subplot(3,24,1:24); imshow(a);j &＃61;1;seg1 &＃61; a;b &＃61; sum(seg1) ; % character segment, if the vertical projection is zero, means the space between characters.b(find(b < 1) ) &＃61; 0;c &＃61; find(b &＃61;&＃61; 0);d&＃61; find(b > 0);e &＃61; find(c > d(1));sept2 &＃61; [];for k &＃61; 1:size(e,2) -1 % delete repeated zero positionif( c(e(k &＃43; 1)) - c(e(k)) > 1) sept2 &＃61; [sept2, c(e( k ))];sept2 &＃61; [sept2, c(e(k &＃43; 1))];end end%figuresept2 &＃61; [1, sept2];chCount &＃61; size(sept2);for k &＃61; 1: chCount(2) -1Test1 &＃61; [];tmp &＃61; zeros(16,1);z &＃61; a(:,sept2(k)&＃43;1: sept2( k&＃43;1 ));t1 &＃61; size(z);if(t1(2)> 2) tt1 &＃61; size(z); % if( tt1(2) < 11) % z &＃61; [z,tmp]; % endtt1 &＃61; size(z); % if( tt1(2) < 11) % z &＃61; [tmp,z,tmp]; % endz2 &＃61; imresize(z,[16,12],&＃39;bilinear&＃39;); % z2 &＃61; ~z2; % z2 &＃61; ~z2; % z2 &＃61; double(z2); % z2 &＃61; imnoise(z2,&＃39;salt & pepper&＃39;, 0.4);z2 &＃61; ~z2;z2 &＃61; ~z2;subplot(3,24,24&＃43;k);imshow(z2);z2 &＃61;z2&＃39;;z3 &＃61; reshape(z2,16 * 12,1);Test1 &＃61; [Test1,z3];%figure;%imshow(z2);%title(&＃39;TRUE&＃39;);% end

三、运行结果

在这里插入图片描述

四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1] 蔡利梅.MATLAB图像处理——理论、算法与实例分析[M].清华大学出版社&＃xff0c;2020.
[2]杨丹,赵海滨,龙哲.MATLAB图像处理实例详解[M].清华大学出版社&＃xff0c;2013.
[3]周品.MATLAB图像处理与图形用户界面设计[M].清华大学出版社&＃xff0c;2013.
[4]刘成龙.精通MATLAB图像处理[M].清华大学出版社&＃xff0c;2015.

推荐阅读

split
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
io
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
io
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
io
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
string
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
string
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
select
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
string
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
string
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
io
HTML Attribute Naming Conventions for Fast Components

This document outlines the recommended naming conventions for HTML attributes in Fast Components, focusing on readability and consistency with existing standards. ... [详细]

蜡笔小新 2024-12-26 19:13:45
string
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
io
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
io
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
io
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
io
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04

瓦尔登湖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章