热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于ocr:OCRNLP-提取信息并分析这个开源项目火了

文字是传递信息的高效路径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、剖析了解后能力最大化施展文本信息的价值。NLP技术能够晋升OCR准确率,并从文本中抽取要害信息、构建常识图谱,搭建检索、举荐、问答零碎等。

文字是传递信息的高效路径,利用 OCR 技术提取文本信息是各行业向数字智能化转型的第一步。
与此同时,针对 OCR 提取的海量文本信息,利用 NLP 技术进一步加工提取、剖析了解后能力最大化施展文本信息的价值。NLP 技术能够晋升 OCR 准确率,并从文本中抽取要害信息、构建常识图谱,搭建检索、举荐、问答零碎等。

尽管各行业智能化产业降级曾经在热火朝天的发展中,然而在理论利用落地中却遇到诸多困难,比方:数据样本不够、模型精度不高、预测时延大等。为此,百度飞桨针对实在、高频的产业场景,提供了从数据筹备、模型训练优化,到模型部署全流程的案例教程。

据说文档和代码曾经开源了,来吧⬇️
https://github.com/PaddlePadd…

01 OCR+NLP串联技术难点

市面上有不少开源的 OCR、NLP 产品,然而如果想间接利用这些工具,会面临底层框架不对立、串联难度高、成果无奈保障等问题。PaddleOCR 和 PaddleNLP 是面向产业界的开发库,均基于飞桨开源框架最新版本,可能将 OCR 和 NLP 技术无缝联合。

明天咱们针对金融行业研报、物流快递单,来看看 OCR + NLP 信息抽取技术的利用。

02 OCR+NLP 金融研报剖析

以后,诸多投资机构都通过研报的模式给出对于股票、基金以及行业的判断,让公众理解热点方向、龙头公司等各类信息。然而,剖析和学习研报往往破费大量工夫,研报数量的一劳永逸也使得研报智能剖析诉求一直进步。这里咱们采纳命名实体辨认技术,主动抽取研报中的要害信息,例如,“中国银行成立于1912年。”中蕴含了组织机构、场景事件、工夫等实体信息。


▲ OCR+NLP Pipeline

针对研报数据的命名实体辨认与词频统计整体流程如上图所示。首先将研报 pdf 数据应用 fitz 包拆分为图像格式,而后利用 PaddleOCR 套件在研报数据集上微调 PP-OCR[1]的检测模型,应用现有的辨认模型取得文本信息。PP-OCR 是 PaddleOCR 中由百度自研的明星模型系列,由文本检测、文本方向分类器与文本辨认模块串联而成。


▲ PP-OCR Pipeline

对 OCR 辨认出的文本进行整顿后,调用 PaddleNLP 中的 Taskflow API 抽取文本信息中的组织机构实体。最初对这些实体进行词频统计,就可初步断定以后研报剖析的热点机构。


▲ Taskflow 应用示意图

目前,Taskflow API 反对自然语言了解(NLU)和生成(NLG)两大场景共八大工作,包含中文分词、词性标注、命名实体辨认、句法分析、文本纠错、情感剖析、生成式问答和智能写诗,均可一键调用。

03 物流快递单信息抽取

双十一要到了,想必很多人都准备了一个满满的购物车。去年双十一成交量4982亿元,全国快递企业共解决快件39亿件,这背地则是物流行业工作量的骤增。除了满负荷的长深高速公路,还有忙碌的快递小哥。无论是企业业务汇总,还是寄件信息填写,都少不了要害信息智能提取这一环节,这其中均采纳了命名实体辨认技术。

命名实体辨认大体上有三种计划:字符串匹配、统计语言模型、序列标注。前两种办法须要事后构建词典、穷举所有实体,无奈发现新词、变体等。本案例中采纳了目前的支流办法——序列标注。

数据集包含1600条训练集,200条训练集和200条测试集,采纳 BIO 体系进行标注。


▲ 实体定义和数据集标注示例

针对轻量化、高精度的需要,能够选用 RNN+CRF 计划。也能够采纳预训练模型,通过模型压缩、动转静减速等形式满足精度和性能的要求。咱们采纳 Ernie-Gram[2] + CRF 取得了最佳成果。

此外,命名实体辨认技术能够利用于各类要害信息的提取,例如电商评论中的商品名称、电子发票中的低头信息、支出证实中的金额、法律文书中的立功地点等信息。联合关系抽取、事件抽取技术,还能够构建常识图谱、搭建问答零碎等。
点击进入取得更多技术信息~~


推荐阅读
  • 在第七天的深度学习课程中,我们将重点探讨DGL框架的高级应用,特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧,帮助读者高效地构建和优化图神经网络的数据管道。此外,我们还将介绍如何利用DGL提供的模块化工具,实现数据的快速加载和预处理,以提升模型训练的效率和准确性。 ... [详细]
  • 基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架,实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线,并确保消息的实时性和可靠性,适用于需要即时通信的应用场景。 ... [详细]
  • 如何将PHP文件上传至服务器及正确配置服务器地址 ... [详细]
  • Ceph API微服务实现RBD块设备的高效创建与安全删除
    本文旨在实现Ceph块存储中RBD块设备的高效创建与安全删除功能。开发环境为CentOS 7,使用 IntelliJ IDEA 进行开发。首先介绍了 librbd 的基本概念及其在 Ceph 中的作用,随后详细描述了项目 Gradle 配置的优化过程,确保了开发环境的稳定性和兼容性。通过这一系列步骤,我们成功实现了 RBD 块设备的快速创建与安全删除,提升了系统的整体性能和可靠性。 ... [详细]
  • 利用PaddleSharp模块在C#中实现图像文字识别功能测试
    PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库,适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能,并进行了全面的功能测试,验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]
  • 深入解析 Unity URP/SRP 渲染管线:匠心打造的全面指南
    本文深入探讨了Unity中的URP、SRP和HDRP渲染管线,详细解析了它们之间的关系及各自的特点。首先介绍了SRP的基本概念及其在Unity渲染架构中的作用,随后重点阐述了URP和HDRP的设计理念与应用场景。文章还分析了SRP诞生的背景,解释了为何Unity需要引入这一灵活的渲染框架,以满足不同项目的需求。通过对比URP和HDRP,读者可以更好地理解如何选择合适的渲染管线,以优化项目的性能和视觉效果。 ... [详细]
  • 在一系列的学习与实践后,Jsoup学习笔记系列即将进入尾声。本文详细介绍了如何使用Jsoup实现从Saz文件到Csv格式的数据解析功能。未来,计划将此功能进一步封装,开发成具有用户界面的独立应用程序,以增强其实用性和便捷性。对于希望深入掌握Jsoup技术的开发者,本文提供了宝贵的参考和实践案例。 ... [详细]
  • 在探索 Unity Shaders 的过程中,我逐渐意识到掌握 OpenGL 基础知识的重要性。本文将详细介绍 OpenGL 的核心概念和基本操作,帮助读者从零开始理解这一图形编程技术。通过实例和代码解析,我们将深入探讨如何利用 OpenGL 创建高效的图形应用。无论你是初学者还是有一定经验的开发者,都能从中受益匪浅。 ... [详细]
  • errno.h--查看错误代码errno是调试程序的一个重要方法。当linucCapi函数发生异常时,一般会将errno变量(需includeerrno.h)赋一个整数值,不同的值 ... [详细]
  • 中文分词_中文分词技术小结几大分词引擎的介绍与比较
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识,希望对你有一定的参考价值。笔者想说:觉得英文与中文分词有很大的区别, ... [详细]
  • CCF 100w+奖池大赛启动!百度高级工程师带你玩转NLP 、CV赛题!
    2021年大数据与AI领域年度盛事——第九届CCF大数据与计算智能大赛已开赛近一个月,你的队伍是否已荣登top榜!百度发布NLP领域“千言-问题匹配鲁棒 ... [详细]
  • NLP | 一文完全搞懂序列标注算法
    序列标注模型用到了长短期记忆网络(LSTM),条件随机场(CRF),Highway网络,本文循序渐进的介绍了序列标注算法,Bepatience!跟 ... [详细]
  • Jupyter 使用Anaconda 虚拟环境内核
    Anaconda虚拟环境中使用JupyterNotebook安装好Anaconda之后,进入AnacondaPrompt,创建虚拟环境, ... [详细]
  • 抠图前vsPython自动抠图后在日常的工作和生活中,我们经常会遇到需要抠图的场景,即便是只有一张图片需要抠,也会抠得我们不耐烦ÿ ... [详细]
  • 【OCR学习笔记】What Is Wrong With Scene Text Recognition Model Comparisons Dataset and Model Analysis
    文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation:TPS,归一化字符区域到预定义的矩形,校正图像。Featureextraction ... [详细]
author-avatar
isbool
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有