热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

12306验证码为什么那么变态?都是这项深度学习应用给逼的

如果之前没有接触过OCR,光看名字上又光学又识别的,容易产生“听起好像很高端很复杂”的距离感,但实际上,计算机科学的每一项技术都是为了机器具备多一项技能,而OCR要机器具备的,是一

如果之前没有接触过OCR,光看名字上又光学又识别的,容易产生“听起好像很高端很复杂”的距离感,但实际上,计算机科学的每一项技术都是为了机器具备多一项技能,而OCR要机器具备的,是一项对于我们人来说属于最最基本的技能——“看图识字”。


我们可能对这个能力习以为常了,以至于不会觉得这算是一项能力,但仔细想一想就知道,看图识字虽然最最基本,不过同样也最最基础,很多工作都需要首先具备看图识字这项技能才能开展。同样的道理,OCR现在也已经是我们日常生活中应用最为广泛的智能技术之一。
如果一时没想起来,不妨从咱们中国人都很熟悉的春运说起。12306大家应该都知道,是订火车票的官方网站,2015年12306出了一个轰动全国的“大新闻”,12306改变“验证码机制”了。买火车票之前,用户先得要做几道颇为棘手的智力题,譬如要求在几张图片中找出某位名人,据说有些用户因为知识面比较窄最后选择放弃了购买火车票。
这事大家都知道,不过有没有想过一个最基本的问题:12306为什么要改变验证码机制呢?
就是因为OCR。

图片

▲网友恶搞的12306验证码
验证码之所以叫验证“码”,是因为最开始验证码大都是一串保存在图片里的四位数字。验证码的作用自然是区别真人和机器,听起来很厉害,其实原理异常简单:机器擅长处理结构化数据,而对于图像、文本和音频这些生活中很常见但属于非结构化的数据,对机器来说,用传统的算法处理难度非常大。
为什么呢?不妨想象一个最最传统的验证码,白底黑字,上面一共四个阿拉伯数字,我们人自然看一眼就知道是哪四个数字。但是在机器看起来,这张图片是由一个挨一个的像素数值构成的数据矩阵,这就产生一个问题,我们人看起来是“空白”的地方,在机器看起来同样也存在着数字,并没有什么不同,自然无法区分到底上面写了什么。
OCR的研究人员当然也没有偷懒,努力尝试了很多办法,有一种思路是提取图片特征,也研究出两种传统的提取方法,分别是基于结构形态的特征提取,和基于几何分布的特征提取,也取得一些成果。
但总的来说,要求机器准确识别图片中的数字仍然很困难,只要图片中存在一点点杂质干扰,识别的正确率就大幅度下降,这就是为什么后来验证码都会选择采用一些随机线条,对于OCR来说,这都是低成本高收益的防破解手段。但对人来说却轻而易举,只需要看一眼就能识别。
正是因为人和机器在处理非结构化数据存在能力鸿沟,在验证码这里,就是人和机器在识别图片中字符上的能力存在显著差异,因此,只要简单使用验证码,就能相当准确地辨别正在输入的究竟是人还是机器。
那为什么12306在2015年就非得换了很好用的验证码机制呢?是因为就在2012年,发生了一件轰动整个研究界的事件,这个事件影响深远,推动OCR技术发生飞跃,从此机器也能很轻易就准确识别图片上的数字了。
OCR并不是新出现的概念,起步非常早。根据《深度实践OCR:基于深度学习的文字识别》一书介绍,早在1929年,德国科学家就已经提出了OCR的想法,后续又有一些科学家加入进行这方面研究,不过,直到计算机出现以后,想法才慢慢落地。
相比之下,中国对OCR的研究起步稍晚,起步于70年代,算起来也有近50年的历史了。
但是,虽然早就开始了对OCR的研究,科学家们也从各个方面贡献了很多颇有益处的奇思妙想,为后续研究奠定了坚实基础,但总的来说,OCR技术的应用发展迟缓,直到前些年仍然处于学术研究的领域。不过,每一项科研领域的僵局都最终会被一项划时代的技术打破,打破OCR领域僵局的就是鼎鼎大名的深度学习技术。


2012年发生了什么事呢?发生了这么一件事,基于深度学习的卷积网络模型AlexNet,在ImageNet图像分类比赛中拔得头筹。拔得头筹这事本身不算什么,毕竟只要有比赛就一定会有人拔得头筹,问题是在以往的比赛,不同模型之间的差距很小,第一名都是“险胜”,第二名都是“惜败”。
而到了2012年,AlexNet不但赢了第一名,而且在识别准确率方面超过第二名10%,相当于百米短跑我第一名冲线,而且我不但冲线了,我还在终点吃了顿饭,然后第二名才刚刚跑完全程。这种碾压式的胜利让业界对这场赛事的评论纷纷变成了B站的弹幕,概括来说就一句话:大人,时代变了。
当然了,前面这段讲得很戏剧化,也有很多人喜欢用“石破天惊”之类的词来形容,但应该说,深度学习并不是什么凭空出现的新技术,它是由机器学习下面的神经网络模型发展而来的。
人工智能、机器学习和深度学习三者之间千丝万缕的关系,我们在前面的文章已经进行了细致的介绍,不再赘述,但深度学习的崛起,确实给OCR的应用注入了全新的活力。
深度学习很快火遍全球,有意思的是,很多面向初学者的深度学习教程不约而同选择了将使用深度学习模型识别MNIST手写数据集作为深度学习领域的“Hello World”,从前极为困难的验证码识别,在深度学习时代居然变成了初学者的第一堂功课,这是深度学习与OCR结合最为成功的案例。从此,OCR展翅飞出象牙塔,飞入寻常百姓家。
不过,我还是想特别说明一下,OCR是一项通用性非常强的技术,OCR与深度学习的结合逼得12306改验证码机制,这只是OCR技术的能力展示,OCR活跃的天地远比验证码广阔得多,我们的机器距离我们的生活差的最后一公里,可能就有赖OCR来打通。
你可能会问,机器和生活还差最后一公里,我怎么没感觉到,这是什么意思?


回想一下,我们现在的生活其实是有两套并行记录体系,就拿最常见的去银行办理业务来说吧,我们先得用笔手工填写一份纸质的表格,上面包含了各项信息,这是一套记录体系。然后我们给银行柜台的工作人员提交表格,工作人员会让我们先等一会,等什么呢,就是等工作人员通过电脑终端把信息转录到另一套记录体系。
现代银行基本都依靠各类信息系统进行管理,但这些信息系统是不能直接读取纸质表格的信息,那怎么办呢,只好通过人来转录,这个转录的过程免不了需要消耗人的时间和精力,增加了办理业务的成本,甚至成为限制提升业务办理效率的瓶颈之一。
两套并行记录体系对我们的影响当然远不止于银行,从更为宏观的视角来看,消耗了人类社会大量的人力物力,以及对于人来说更为宝贵的时间。
你可能又要说了,这些都是窗口业务,和日常生活关系并不紧密。其实不然,举一个我们很熟悉例子,二维码。
就拿春晚的观众互动来说吧,过去主持人是说想要和春晚互动的观众朋友,可以把信息发到屏幕下方公布的号码。那么,观众如果真要互动,就必须得把在屏幕上看到的这串长长的数字逐个逐个敲进手机,光是想就觉得麻烦,再加上有时候看错或者敲错,感觉就更费劲了。
现在有了二维码,主持人说想要和春晚互动的观众朋友,扫描屏幕下方的二维码就可以了,操作起来就简单太多了。所以,现在满大街都是二维码,就是因为二维码更为便捷。
不过,二维码只能解决两套记录体系并行问题的很小一部分,其它手段譬如内置芯片也只能治标不治本,毕竟我们人类社会几千年来都以纸作为信息的记录介质,已经产生了太多不可能符合机器读取要求的信息,要从根本上解决两套记录体系并行的问题,还是需要机器具备和人一样的“看图识字”的能力,也就是最终还得依靠OCR。

图片


那么,现在的OCR技术发展到什么水平,又解决了什么实际问题了呢?
我认为,一项应用技术最重要的不是听起来有多前沿多高端,而是能解决什么实实在在的问题。我们说OCR突飞猛进,是因为OCR和深度学习结合以后,只需要简单拍照,就可以直接从图片中提取相应的文字,在很多应用场景已经有点“扫码即可”的意思了。
很多纸质的表格,譬如前面说的银行各类业务的表格,现在只需要简单地拍照就可以一下完成信息录入。以前我们拿到纸质名片,还需要手工敲字记录,现在很多APP都提供一项功能,只要对名片进行拍照,就能自动提取上面的文字。
同时,OCR带来的不仅仅是简化录入,很多传统的软件功能,也因为OCR技术的发展,而带来了全新的使用体验。就说我印象最深的翻译软件,翻译软件当然不是什么新产品,大家应该都用过。
但一直以来使用翻译软件都有一个限制,那就是不管软件本身的翻译能力有多强,你得先录入原文然后才能看到译文,这有一个什么问题呢?有一些外语的原文我不知道怎么通过英文键盘输入,譬如日文、德文、法文,相信不是专门学这些语言的朋友都有和我同样的困扰。
现在有了OCR就方便多了,只需要直拍照就能提取文字,不但解决了输入问题,效率还要高得多,有些翻译软件干脆就在原图上P上译文,更加直接明了,让我对翻软件有一种耳目一新的感觉。
除了翻译软件,OCR给我们熟悉的产品带来的改变还有很多,毕竟只要可以从图片中准确提取文字,就有太多的地方等待着我们发挥广阔的想象力。譬如说,通过OCR技术,即使是扫描生成的PDF也支持文本搜索了。
如果觉得这个例子太小,那就说搜索引擎,现在的搜索引擎还笨得很,输入文字只能搜到文字,输入图片只能搜到图片,文字和图片是泾渭分明,如果你想用文字搜带有这段文字的图片呢?对不起不行。
不过使用了OCR,以后也可以以文搜图了。譬如你翻老照片时找到一张你光着屁股坐在一块写着一段文字的石头上,你想知道这张照片在哪拍的。可是现在你去搜这段文字,很可能要么就什么都找不到,要么就找到一大堆无关的内容。
未来如果搜索引擎支持搜索图中文字的功能,你就能马上找到带有这段文字的其它照片,没准其中就有你想要找的内容。

图片


OCR就介绍到这里,相信大家对于OCR是什么,能做什么,未来会有怎样的发展已经有了初步的了解。可是,OCR技术的原理是什么,传统的做法是什么,现在和深度学习又是怎样结合在一起?
我推荐大家阅读前面提过的这本专门介绍这些问题的书,《深度实践OCR:基于深度学习的文字识别》。这本书对OCR的介绍很全面,先从OCR的发展历程和经典的技术原理说起,然后介绍了深度学习的主要技术,最后再仔细介绍OCR和深度学术如何结合,而且还对如何通过代码实现进行了详细说明。看完这本书,对OCR的全貌、原理和应用,应该就能有比较清晰的了解。



推荐阅读
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 利用Java与Tesseract-OCR实现数字识别
    本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能,旨在为开发者提供详细的指导和实践案例。 ... [详细]
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 本文记录了作者在学习验证码识别过程中,针对粘连字符分割的探索与实践。通过对多种算法的研究和应用,总结出有效的解决方案,并分享了相关经验和技巧。 ... [详细]
  • KKCMS代码审计初探
    本文主要介绍了KKCMS的安装过程及其基本功能,重点分析了该系统中存在的验证码重用、SQL注入及XSS等安全问题。适合初学者作为入门指南。 ... [详细]
  • Shiro功能拓展:登录失败重试次数限制
    本文详细介绍了如何在Apache Shiro框架中实现对用户登录失败重试次数的限制,通过自定义密码匹配器来增强系统的安全性。该方法不仅能够有效防止暴力破解攻击,还能确保合法用户的账户安全。 ... [详细]
  • 本文提供了一套详细的步骤,指导用户如何通过科学上网方法注册一个美国地区的Apple ID,包括设置地区、语言及完成注册的具体操作。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 百度服务再次遭遇技术问题,疑似DNS解析故障
    近日晚间,百度多项在线服务出现加载异常,包括移动端搜索在内的多个功能受到影响。初步迹象表明,问题可能与DNS服务器解析有关。 ... [详细]
  • 本文介绍了如何在用户登录时通过生成验证码图片进行身份验证,包括前端HTML表单的设计和后端JSP的实现。 ... [详细]
  • 在执行接口测试时,登录功能往往是首个挑战,尤其是当系统为了增强安全性而采用复杂的登录机制时。本文将探讨如何使用JMeter应对不同类型的登录难题,包括参数加密、验证码验证和Token认证。 ... [详细]
  • 题目《BZOJ2654: Tree》的时间限制为30秒,内存限制为512MB。该问题通过结合二分查找和Kruskal算法,提供了一种高效的优化解决方案。具体而言,利用二分查找缩小解的范围,再通过Kruskal算法构建最小生成树,从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率,还确保了在大规模数据集上的稳定性能。 ... [详细]
author-avatar
执子之手2502891083
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有