首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

【原】Coursera—AndrewNg机器学习—课程笔记Lecture18—PhotoOCR应用实例:图片文字识别

作者：鐘文斌kebenJ | 来源：互联网 | 2023-09-11 14:29

Lecture18—PhotoOCR应用实例:图片文字识别18.1问题描述和流程图ProblemDescriptionandPipeline图像文字识别需要如

Lecture 18—Photo OCR 应用实例:图片文字识别

18.1 问题描述和流程图 Problem Description and Pipeline

图像文字识别需要如下步骤:

1.文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
2.字符切分(Character segmentation)——将文字分割成一个个单一的字符
3.字符分类(Character classification)——确定每一个字符是什么

如果用任务流程图来表达这个问题，每一项任务可以由一个单独的小队来负责：

18.2 滑动窗口 Sliding Windows

滑动窗口是一项用来从图像中抽取对象的技术。

假使需要在图片中识别行人，首先用许多固定尺寸的图片来训练一个能够准确识别行人的模型。

之后使用训练模型时用的图片尺寸对预测图片进行剪裁，将切片交给模型判断其是否为行人，然后滑动剪裁区域，剪裁切片后再交给模型判断，直至将图片全部检测完。
然后按比例放大剪裁的区域，以新的尺寸对图片进行剪裁，将新剪裁的切片按比例缩小至模型采纳的尺寸，交给模型判断，如此循环。

滑动窗口技术也被用于文字识别，首先训练模型使其能够区分字符与非字符，然后，运用滑动窗口技术识别字符。一旦完成了识别，将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。

接着以宽高比作为过滤条件，过滤高度比宽度更大的区域(因为单词的长度通常比高度要大)。下图中绿色区域是识别出的文字区域，红色区域是被忽略的。

下一步是训练模型分割字符，需要的训练集为单个字符的图和两个相连字符之间的图。模型训练完后，仍然使用滑动窗口技术来进行字符识别。

最后是字符分类阶段，利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可。

18.3 获取大量数据和人工数据 Getting Lots of Data and Artificial Data

以文字识别应用为例，一种方法是从网站下载各种字体，利用不同的字体配上各种不同的随机背景，创造出一些用于训练的实例，能够获得一个无限大的训练集。这属于从零开始创造实例。

另一种方法是，对已有的数据进行修改，例如将其进行扭曲、旋转、模糊处理。只要认为实际数据有可能和处理后的数据类似，便可以用这样的方法来创造大量的数据。

某些处理起不到增加数据集的作用，例如加入高斯噪声、将单个图片复制多份等

在增大数据集之前，必须确保当前训练的已经是一个低偏差的模型。不然增大数据集也没有用

有关获得更多数据的几种方法: 1.人工数据合成；2.手动收集、标记数据；3.众包

18.4 上限分析 What Part of the Pipeline to Work on Next

如何知道哪一部分最值得花时间和精力去改善呢?可以使用流程图进行上限分析，流程图中每一部分的输出都是下一部分的输入。

在上限分析中，我们选取一部分，手工提供 100%正确的输出结果，然后看应用的整体效果提升了多少。假使当前总体效果为 72%的正确率：
1) 如果让文字检测部分100%正确，系统的总体效果从 72%提高到了89%。这意味着很值得投入时间精力来提高我们的文字检测的准确度
2) 接着让字符切分结果100%正确，系统总体效果只提升了 1%，这意味着字符切分部分可能已经足够好了
3) 最后让字符分类100%正确，系统总体效果又提升了10%，这意味着我们可能也会应该投入更多的时间和精力到分类这部分

另一个上限分析的例子，人脸识别：

其中最值得优化的是：脸部检测Face detection，眼部分割Eyes segmentation 和逻辑回归Logistic regression 三个部分。

建议不要根据直觉，而是使用上限分析判断应该改进哪个模块。当把精力花在最值得优化的那个模块上，会让整个系统的表现有显著的提高。

推荐阅读

rsa
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
string
TypeScript: 泛型的力量与价值

本文探讨了 TypeScript 中泛型的重要性和应用场景，通过多个实例详细解析了泛型如何提升代码的复用性和类型安全性。 ... [详细]

蜡笔小新 2024-11-15 12:12:42
string
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
string
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
string
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
hash
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
case
求助：C语言实现哈夫曼树编码与解码系统

最近遇到了一道关于哈夫曼树的编程题目，需要在下午之前完成。题目要求设计一个哈夫曼编码和解码系统，能够反复显示和处理多个项目，直到用户选择退出。希望各位大神能够提供帮助。 ... [详细]

蜡笔小新 2024-11-15 19:59:41
case
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
string
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
function
JavaScript中的事件处理机制

事件是程序各部分之间的一种通信方式，也是异步编程的一种实现形式。本文将详细介绍EventTarget接口及其相关方法，以及如何使用监听函数处理事件。 ... [详细]

蜡笔小新 2024-11-15 04:27:01
function
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
case
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
ascii
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
string
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00

鐘文斌kebenJ

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有