热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习第十周之照片光学字符识别

一,照片光学字符识别(PhotoOpticalCharacterRecognition)照片光学字符识别是指让计算机读出图片中的文字信息 二,照片光学字符识别流水线(PhotoOC

一,照片光学字符识别(Photo Optical Character Recognition)

照片光学字符识别是指让计算机读出图片中的文字信息

机器学习第十周之照片光学字符识别

 

二,照片光学字符识别流水线(Photo OCR Pipeline)

1, 文字区域识别(Text Detection)

2,字符切割(Character Recognition)

3,字符分类(Character Classification)

机器学习第十周之照片光学字符识别

 

这三个步骤也叫作机器学习流水线

 机器学习第十周之照片光学字符识别

二,滑动窗(Sliding Windows)分类器

1,行人检测

图片中每个行人虽然大小不同,但是宽高比是差不多的

机器学习第十周之照片光学字符识别

训练行人检测的分类器

机器学习第十周之照片光学字符识别

从图片左上角选定长宽比等于行人大小的矩形,监测是否有行人,检测完然后向右移动Step-Size,移到末尾时,再向下移动Step-Size,再从图片最左端开始

机器学习第十周之照片光学字符识别

接着放大矩形,维持长宽比不变,读取矩形图片也要压缩成符合的行人训练器大小,如82*36

机器学习第十周之照片光学字符识别

2,文字检测

我们也像行人检测一样,找到一些含有文字和不含有文字的图片来训练文字检测分类器

机器学习第十周之照片光学字符识别

 对我们的图片的滑动窗口运行文字分类器,输出一幅是否在该区域检测到文字的灰度图,如果是输出白色,不是黑色,再扩展白色区域的轮廓5-10像素形成文字区域,再抛弃一些长宽比明显不是的文字的区域

机器学习第十周之照片光学字符识别

再对提取出来的文字区域执行字符检测,训练字符检测分类器,分类器判断是否存在分割线,然后用滑动窗口判断图片是否存在分割线

 机器学习第十周之照片光学字符识别

三,人工合成数据和获取数据的成本效益分析

要获得一个比较高效的机器学习系统,其中一个比较可靠的方法就是选择一个低偏差的算法,低偏差的算法需要大量数据,可以通过人工合成已有数据来得到新数据

以之前的照片光学字符识别为例,可以对原有图片更换背景,更换字体,缩放,旋转等等变形

机器学习第十周之照片光学字符识别

扭曲变形,

机器学习第十周之照片光学字符识别

声音数据的叠加,把杂音加到原始数据上

机器学习第十周之照片光学字符识别

人工合成的数据必须是在真实数据中可能出现的,对原始图片增加高斯或者无意义的噪声往往没什么用,当然最后还是以算法的准确值为准

机器学习第十周之照片光学字符识别

在获取更多的数据之前确保自己的算法是随着数据的增多偏差会降低,可以通过绘制学习曲线来观察

估算自己获得更多数据以提高算法性能的时间,看是否值得,还可以雇人搜集数据

机器学习第十周之照片光学字符识别

四,上限分析:流水线的哪一部分值得提升

开发机器学习系统的最宝贵的资源是时间,当开发出的机器学习流水线系统不符合你的要求时,接下来该做什么,可以使用上限分析来决策

以图片光学字符识别为例,

1),机器学习流水线的准确率72%

2),当使用100%准确率文字区域检测(Text Dectetion)时的准确率是89%,说明文字区域检测(Text Dectetion)可以提高的上限是89%-72%=17%

3),当使用100%准确率文字区域检测(Text Dectetion)和100%准确率字符分割(Character Segmentation)是90%时,说明字符分割(Character Segmentation)可以提高的上限是90%-89%=1%

4),当使用100%准确率文字区域检测(Text Dectetion),准确率字符分割(Character Segmentation)和字符识别(Charater Recognition)时,准确率当然是100%,字符识别(Charater Recognition)可以提高的上限是100%-90%=10%

由以上可以看出,文字区域检测有最大的提升空间17%

PS:在以上2),3),4)都是通过人工检测出训练数据,得以保证各模块的100%准确率

机器学习第十周之照片光学字符识别

以下是人脸识别的另一个机器学习流水线的例子

机器学习第十周之照片光学字符识别

 


推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
author-avatar
晋coder
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有