热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

文字识别助力智能运营,加速金融业务流转效率

智慧金融在金融服务的业务流程中不断深入,金融行业数字化建设的过程除了面向外部客户的服务与销售外,行业内部的支持性系统也在随之升级。智能合规、智能运营广泛

78ee9767c1caf43c251d72d5d7cbb142.gif

智慧金融在金融服务的业务流程中不断深入,金融行业数字化建设的过程除了面向外部客户的服务与销售外,行业内部的支持性系统也在随之升级。智能合规、智能运营广泛应用于企业内部财务管理系统、报销系统、核算系统以及审核系统等平台中,促使数据沉淀,加速流程效率,实现数字化建设闭环。

在智能运营覆盖的各个场景中,计算机视觉、自然语言处理、传统机器学习算法等人工智能技术充分应用。其中文字识别技术(OCR)作为计算机视觉的主要方向之一,其识别对象包括扫描合同、印章、卡证、表格与票据信息结构化,在业务办理、风险控制、内部数据库建设与信息支撑等场景中都扮演着重要角色。

686b0078daabc6e037e1c331be2d6b08.jpeg

图1 智能运营中的OCR应用

场景问题

在这些场景中,图片数据一方面通过对纸质文档和票据的扫描来获取,另一方面包含对证件拍照的方式获取。面临的场景难点和技术难点同时存在:

  • 难点一:印章识别场景中的文字遮挡、模糊、弯曲程度高,印章类型多;

  • 难点二:扫描文档文字密集,检测漏检与识别精度对后续关键信息提取系统影响大;

  • 难点三:拍摄卡证图片时的透视变换、过曝过暗、有色阴影等问题;

  • 难点四:表格种类繁多,差异性大,缺乏开源数据,无标注工具;

  • 难点五:基于图像处理和规则的表格识别难度大,通用性差;

  • 难点六:弯曲文本的端到端算法的精度问题与两阶段算法的速度问题需要权衡。

93e62c9a27f8a14b8268637bfeea2554.jpeg

图2 表格识别中数据种类的多样性

解决方法

良好的算法模型是解决上述问题的首要因素,这不仅要求算法模型对于某个类型的对象的识别精度能够满足业务需求,还要其拥有良好的泛化能力。飞桨文字识别开发套件PaddleOCR针对自然场景下的OCR任务提供面向产业级的超轻量通用OCR系统PP-OCRv3,经过海量数据训练,达到产业级SOTA,在工业制造、交通等行业中得到广泛验证。针对文档场景提供智能文档分析系统PP-Structurev2,实现表格识别、关键信息提取、版面分析与恢复任务。

e4512765e21e990b5faa8030fef51dc5.gif

图3 PP-OCRv3应用效果

70699838b81b0445866907dab60c584a.png

图4 PP-Structurev2文档分析流程图

场景应用

场景1

印章弯曲文本检测与识别

印章检测识别是定位合同文件和常用票据中印章位置,提取识别印章内容的任务。可以用于检测合同文件和票据中是否有印章,对比印章内容,验证是否有业务风险。实际业务中通过人工审核对比的方式成本高,效率低。为了降本增效,提高生产效率,基于PaddleDetection和PaddleOCR开发套件,实现印章检测以及印章文字识别任务,代替人工识别,降低成本,辅助印章比对验证业务,提高验证效率,降低财税及商务合同签订过程的业务风险。

2899a31565ae0ffbcb59555f5e6bcc8f.jpeg

图5 印章文本检测与识别

场景2

扫描版合同关键信息抽取

合同审核广泛应用于大中型企业、上市公司、证券、基金公司中,是规避风险的重要任务。实际业务中人工进行纸质版合同审核成本高,工作量大。针对以上场景PaddleOCR+PaddleNLP可以快速提取文本内容,经过少量数据微调即可准确抽取关键信息,高效完成合同内容对比、合规性检查、风险点识别等任务,提高效率,降低风险。

4e7d3a8094bdfac9126ba24ee642fa7d.png

图6 扫描版合同关键信息抽取

场景3

通用卡证结构化信息提取

卡证识别的应用遍布于银行、保险、证券、信托等各种金融机构,在业务办理和信息核验场景中需要识别身份证、银行卡、驾驶证、营业执照等。由于数据的采集来源多样,存在各种噪声,如图片方向混乱、反光、模糊、倾斜问题的干扰,且一般需要对卡证信息进行结构化输出。针对上述问题,基于PaddleClas与PaddleOCR完成卡证方向与类型分类,多方案卡证检测对比与识别,最终H-Means达到93%以上

bd425fa299c4c02b30a79acf69aad02e.jpeg

图7 通用卡证结构化信息提取

(个人信息为虚构,仅用于展示说明使用)

场景4

中文表格识别与属性分析

中文表格识别在保险理赔、财报分析和信息录入等场景应用颇多,实际业务中人工进行录入成本高,同时,开源中文表格数据集少也限制了中文表格识别模型的发展。针对以上情况,通过采用数据标注、数据合成和微调等场景适配方法,同时结合表格属性识别,快速完成中文表格识别任务

b5f2b93d8118359e96ceac4e6228bd94.png

图8 中文表格识别与属性分析

关于

PaddleOCR

PaddleOCR除了提供产业级特色模型PP-OCR与PP-Structure以外,打通从数据合成标注、模型训练到推理部署的应用全流程。提供22种训练部署方式,半自动标注工具PPOCRLabel,《动手学OCR》电子书以及丰富的场景应用和前沿算法,通过全流程的开发体验助力产业界快速落地OCR应用。

18bf4254a7309521844569d3209986ab.jpeg

图9 PaddleOCR全景图

注:上述图片均来源于网络

课程预告

9月15日(周四)和9月20日(下周二)将由百度研发工程师联合外部合作伙伴带来金融行业智能运营主题课程分享,名额有限,感兴趣的朋友可扫码预约课程:

dc883189be3a67373b262fdbad848ca0.jpeg

相关地址

  • 飞桨官网

https://www.paddlepaddle.org.cn

  • PaddleOCR项目地址

https://github.com/PaddlePaddle/PaddleOCR

https://gitee.com/PaddlePaddle/PaddleOCR

e09a0c89c5f186b52db6ba0043178ad8.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~


推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • Gitlab接入公司内部单点登录的安装和配置教程
    本文介绍了如何将公司内部的Gitlab系统接入单点登录服务,并提供了安装和配置的详细教程。通过使用oauth2协议,将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤,并解决了在迁移过程中可能遇到的问题。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 动量|收益率_基于MT策略的实战分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了基于MT策略的实战分析相关的知识,希望对你有一定的参考价值。基于MT策略的实战分析 ... [详细]
  • 基于HD7279的DSP人机接口设计实训摘要DSP——DigitalSignalProcessing,数字信号处理,作为一门涉及许多学科而又广泛应用于许 ... [详细]
  • Jenkins的分布式构建,在Jenkins的配置中叫做节点,分布式构建能够让同一套代码或项目在不同的环境(如:Windows和Linux系统)中编译、部署等。将jenkins项目 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 1.获得尽量好的扫描效果为了获得较好的扫描效果,要求原稿平整无皱纹,需要扫描下来的地方最好没有斑痕。将原稿放置玻璃板上时,原稿的边缘要与玻璃板贴平,如果扫描后生成的图片文件要用于O ... [详细]
  • 好用的文字识别软件有哪些?超实用的文字识别软件分享!
    好用的文字识别软件有哪些?作为一个经常需要处理文字内容的职场人慧眼图像文字识别软件,一款好用的文字识别软件非常的重要,有了它,你就再也不用一个字一个字的手动输入 ... [详细]
author-avatar
奶油泡芙2覀21
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有