热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

深度解析阿里云ET之OCR

摘要:什么是印刷字文字识别(OCR)技术?通俗易懂的说就是将图片中的文字识别出来。随着机器性能以及算法的不断演进࿰

摘要:什么是印刷字文字识别(OCR)技术?通俗易懂的说就是将图片中的文字识别出来。随着机器性能以及算法的不断演进,OCR技术在越来越多的领域得到应用,比如身份证内的信息识别、门店招牌内容识别等。作为人工智能领域的代表,OCR技术正在改变人们的生活,让越来越多的用户感受到科技发展带来的红利。

背景介绍

阿里云印刷字识别是有IDST-OCR团队开发,主要针对证件类图片进行识别。


TB1YV17MVXXXXXFXVXXXXXXXXXX-865-563.png

阿里云OCR产品的主要优势如下:

TB1qgy_MVXXXXXHXFXXXXXXXXXX-865-445.png

阿里云证件类OCR技术

证件类图像有他天然的一个特点,就是强模板,易于结构化。比如身份证包含且一定包含姓名,性别,民族,出生,住址,公民身份照号码,签发机关,有效期等字段,而驾驶证则一定有姓名,准驾车型,有效期等字段,其他的证件也类似。

TB1StO_MVXXXXb_XFXXXXXXXXXX-341-211.png

TB1bJO7MVXXXXctXFXXXXXXXXXX-331-221.png

针对证件类的强模板类特征,阿里云的证件类OCR技术,在文字区域检测阶段加入了人脸,文字标题区域,印章,国徽等强特征,极大地提高文字区域检测的准确率和速度。比如:利用人脸定位,可以找到证件的方向角度和大概位置,利用下图中固定的区域模板,可以快速定位到所需字段的位置,从而也有利于定位方向角度,缩小所需字段文字区域。

在模型的训练上,阿里云利用字体库,人工生成大量的样本图片数据,再根据真实的场景,进行图像扭曲,模糊,曝光等多种不同技术,组合出不同程度的加噪效果,作为模型训练的基础输入,生成了几十亿条样本数据,模型具有极佳的鲁棒性。下图是人工生成的样本示例图。

TB1_zvgMVXXXXcpXpXXXXXXXXXX-418-359.png

支持如此大规模的离线图像模型训练,则是阿里云提供的GPU高性能服务器,以及基于多服务器,多GPU卡和高速网络连接的集群模型训练(内部称之为PAI-Pluto, PAI是阿里云机器学习平台的代号,欢迎申请试用),主流的GPU卡的计算能力要远远强于CPU。下图是Pluto在跑深度学习模型时的计算加速比。

TB1DDW4MVXXXXXPXVXXXXXXXXXX-693-502.png

在整行模型的识别中,主要使用的是LSTM技术,相比RNN,LSTM能更好的解决梯度衰减(gradient vanishing)的现象。LSTM的基本结构如下图所示,通过多个门电路的结合,使得LSTM可以有效的学习到较长时间序列之间的关系。

TB1PMe3MVXXXXatXVXXXXXXXXXX-682-261.png

整行模型主要用于不便于切字的场景,比如地址,号码等等。

准确率

身份证识别在阿里内部某场景下,准确率(条目一字不差完全对)如下:

TB10he0MVXXXXbrXVXXXXXXXXXX-593-62.jpg

驾驶证的准确率和相关竞品的准确率(条目一字不差完全对)对比如下:

TB1QuLiMVXXXXbuXpXXXXXXXXXX-495-185.jpg

身份证识别:算法识别部分平均时间在0.8秒左右,前端接口部分,由于需要网络传输图片,这部分性能损失比较严重,测试500k,需要1-2秒左右,这个未来阿里云OCR会引入OSS(OSS为对象存储服务, https://www.aliyun.com/product/oss ),用户只需要提供OSS的访问路径和相关授权,就可以极大地减少这部分图像的网络传输时间。

行驶证和驾驶证:算法识别部分平均时间在1秒左右

营业执照:由于图片相对较大,性能较弱,在2秒左右

目前所有的OCR识别都采用的CPU,如果对性能比较有要求,后续阿里云有计划使用GPU,FPGA等技术来提升预测的性能。



推荐阅读
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • yikesnews第11期:微软Office两个0day和一个提权0day
    点击阅读原文可点击链接根据法国大选被黑客干扰,发送了带漏洞的文档Trumps_Attack_on_Syria_English.docx而此漏洞与ESET&FireEy ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • 卷积神经网络(CNN)基础理论与架构解析
    本文介绍了卷积神经网络(CNN)的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型,并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • vivo Y5s配备了联发科Helio P65八核处理器,这款处理器采用12纳米工艺制造,具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外,它还集成了先进的图像处理单元和语音唤醒功能,为用户提供卓越的性能体验。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 本文档汇总了Python编程的基础与高级面试题目,涵盖语言特性、数据结构、算法以及Web开发等多个方面,旨在帮助开发者全面掌握Python核心知识。 ... [详细]
  • NVIDIA Titan RTX深度评测
    NVIDIA的Titan RTX被誉为当前最强大的桌面显卡之一,其卓越的性能和高昂的价格吸引了众多专业人士和技术爱好者的关注。本文将详细介绍Titan RTX的技术规格、性能表现及应用场景。 ... [详细]
  • 新手指南:在Windows 10上搭建深度学习与PyTorch开发环境
    本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程,包括安装必要的软件和配置环境变量等步骤,旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 随着技术的发展,黑客开始利用AI技术在暗网中创建用户的‘数字孪生’,这一现象引起了安全专家的高度关注。 ... [详细]
author-avatar
WSSDRED_935
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有