深度学习在超市商品识别中的解决方案分享

作者：Kira玄玄 | 来源：互联网 | 2023-08-15 05:05

点击上方“小白学视觉”，选择加星标或“置顶”重磅干货，第一时间送达本文转自|AI公园导读Google出品的超市商品解决方案。用户面临的最大挑战之一是

点击上方“小白学视觉”&＃xff0c;选择加"星标"或“置顶”

重磅干货&＃xff0c;第一时间送达本文转自|AI公园

导读

Google出品的超市商品解决方案。

用户面临的最大挑战之一是如何在视觉信息不完整的情况下识别包装食品&＃xff0c;无论是在杂货店还是在他们家里的厨房橱柜中。这是因为许多食品都使用相同的包装&＃xff0c;比如盒子、罐头、瓶子和罐子&＃xff0c;只是在标签上印刷的文字和图像有所不同。然而&＃xff0c;智能移动设备的普遍存在为使用机器学习(ML)解决这些挑战提供了机会。

近年来&＃xff0c;移动设备上的神经网络对于各种感知任务的准确性有了显著的提高。再加上现代智能手机不断增强的计算能力&＃xff0c;现在许多视觉任务在完全运行于移动设备上的情况下产生高性能是可能的。部署在设备内的模型&＃xff0c;如MnasNe和MobileNets&＃xff08;基于resource-aware架构搜索&＃xff09;结合设备内置索引&＃xff0c;可以运行一个完整的计算机视觉系统&＃xff0c;比如有标签的产品识别&＃xff0c;而且是完整的实时的运行在设备上。

利用诸如此类的发展&＃xff0c;我们最近发布了Lookout&＃xff0c;这是一款使用计算机视觉的Android应用程序&＃xff0c;使视觉受损的用户更容易访问物理世界。当用户将智能手机摄像头对准产品时&＃xff0c;Lookout会识别出该产品&＃xff0c;并大声说出品牌名称和产品尺寸。为了实现这一点&＃xff0c;Lookout包括一个超市产品检测和识别模型&＃xff0c;该模型带有设备上的产品索引&＃xff0c;以及MediaPipe物体跟踪和一个OCR识别模型。由此产生的架构足够高效&＃xff0c;可以完全在设备上实时运行。

为什么是On-Device&＃xff1f;

完全运行在设备上的系统具有低延迟和不依赖网络连接的优点。然而&＃xff0c;这意味着一个产品识别系统要真正对用户有用&＃xff0c;它必须有一个具有良好产品覆盖范围的设备数据库。这些需求驱动了所使用的数据集的设计&＃xff0c;其中包括根据用户地理位置动态选择的200万个流行产品。

传统的解决方案

使用计算机视觉的产品识别传统上是使用SIFT算法提取的局部图像特征来解决的。这些基于非机器学习的方法提供了相当可靠的匹配&＃xff0c;但是每个索引图像都需要大量存储空间(通常为每个图像10KB到40KB)&＃xff0c;并且对于光线不好和图像模糊不太健壮。此外&＃xff0c;这些描述符的本地特征意味着它通常不会捕捉产品外观的更多的全局特征。

另一种有许多优点的替代方法是使用机器学习并在查询图像和数据库图像上运行一个OCR系统来提取产品包装上的文本。可以使用N-Grams将查询图像上的文本匹配到数据库&＃xff0c;以防止OCR错误&＃xff0c;如拼写错误、错误识别、产品包装上的单词识别失败。N-Grams还允许使用诸如Jaccard相似系数等度量方法在查询文档和索引文档之间进行部分匹配&＃xff0c;而不是要求精确匹配。但是&＃xff0c;使用OCR时&＃xff0c;索引文档的大小可能会增长得非常大&＃xff0c;因为需要存储产品包装文本的n个符号以及其他信号&＃xff0c;比如TF-IDF。此外&＃xff0c;匹配的可靠性是OCR&＃43;N-Gram方法的一个问题&＃xff0c;因为在两种不同产品的包装上有很多常见单词的情况下&＃xff0c;它很容易过度触发。

与SIFT和OCR&＃43;N-Gram方法相比&＃xff0c;我们基于神经网络的方法生成一个全局描述符&＃xff08;即嵌入&＃xff09;&＃xff0c;对于每个图像&＃xff0c;只需64字节&＃xff0c;大大减少了存储需求&＃xff0c;而对于每个SIFT特征索引条目&＃xff0c;每个图像需要10-40KB的存储空间&＃xff0c;或者对于不太可靠的OCR&＃43;N-gram方法&＃xff0c;每个图像需要几个KBs的存储空间。通过为每个索引使用更少的字节&＃xff0c;可以将更多的产品包括在索引中&＃xff0c;从而产生更完整的产品覆盖率和更好的总体用户体验。

设计

Lookout系统由帧缓存、帧选择器、检测器、目标跟踪器、嵌入器、索引检索器、OCR、评分器和结果显示器组成。

帧缓存
帧缓存管理管道中输入相机图像帧的生命周期。它根据其他模型组件的请求有效地交付数据&＃xff0c;包括YUV/RGB/灰度图像&＃xff0c;并管理数据的生命周期&＃xff0c;以避免多个组件请求的相同相机帧的重复转换。
帧选择器
当用户将相机取景器指向一个产品时&＃xff0c;一个基于轻量级的IMU的帧选择器作为预过滤阶段在运行。它根据角速度(deg/sec)测量出的抖动&＃xff0c;从连续输入的图像流中选择最符合某一质量标准的帧(例如&＃xff0c;平衡图像质量和延迟)。该方法通过有选择地只处理高质量的图像帧&＃xff0c;跳过模糊的图像帧来最小化能量消耗。
检测器
然后&＃xff0c;每个选定的帧被传递给产品检测器模型&＃xff0c;该模型提出感兴趣的区域&＃xff08;检测出来的包围框&＃xff09;。检测器模型是一个使用MnasNet主干的single-shot检测器&＃xff0c;它在高质量和低延迟之间取得平衡。
物体跟踪
MediaPipe Box tracking用来实时的跟踪检测框&＃xff0c;对于填补不同帧目标检测之间的空白&＃xff0c;降低检测频率&＃xff0c;从而降低能耗起着重要作用。物体跟踪器还维护一个物体映射&＃xff0c;其中每个物体在运行时被分配一个唯一的物体ID&＃xff0c;之后被结果显示器用来区分物体和避免对重复的单个物体确认。对于每个检测结果&＃xff0c;跟踪器要么在映射中注册一个新物体&＃xff0c;要么用检测到的边界框更新一个现有物体&＃xff0c;在检测结果的现有物体边界框之间使用IoU进行匹配。
嵌入器
来自检测器的感兴趣区域(ROIs)被发送到embedder模型&＃xff0c;然后该模型计算64维的嵌入。embedder模型最初是从一个大的分类模型(即teacher模型&＃xff0c;基于NASNet)&＃xff0c;它包含了数万个类别。模型中添加嵌入层&＃xff0c;将输入图像投影到一个“嵌入空间”中&＃xff0c;即嵌入层。在向量空间中&＃xff0c;两点接近意味着它们所代表的图像在视觉上是相似的(例如&＃xff0c;两幅图像表示相同的产品)。仅对嵌入进行分析可以确保模型是灵活的&＃xff0c;并且不需要在每次扩展到新产品时进行再训练。但是&＃xff0c;由于教师模型太大&＃xff0c;无法直接在设备上使用&＃xff0c;因此我们使用它生成的嵌入内容来训练一个更小的、便于移动的student模型&＃xff0c;该模型学会将输入图像映射到与教师网络相同的嵌入空间点上。最后&＃xff0c;我们应用主成分分析 (PCA)将嵌入向量的维数从256降至64&＃xff0c;简化了存储在设备上的嵌入。
索引搜索器
索引检索器使用查询嵌入在预先构建的索引上执行KNN搜索。结果&＃xff0c;它返回最顶端的索引文档&＃xff0c;其中包含它们的元数据&＃xff0c;比如产品名称、包装大小等。为了减少索引查找延迟&＃xff0c;所有嵌入都是使用k-means进行了聚类。在查询时&＃xff0c;相关的数据簇被加载到内存中进行实际的距离计算。为了在不牺牲质量的前提下减小了索引的大小&＃xff0c;我们在索引时使用了乘积量化。
OCR
对每个相机帧的ROI执行OCR&＃xff0c;以提取额外的信息&＃xff0c;如包装的大小、产品口味的变化等。传统的解决方案使用OCR结果进行索引搜索&＃xff0c;而在这里我们只使用它进行评分。由OCR文本辅助的合适的评分算法帮助评分器确定正确的结果并提高精度&＃xff0c;特别是在多个产品具有类似包的情况下。
评分器
评分器从嵌入(带有索引结果)和OCR模块获取输入&＃xff0c;并对之前检索到的索引文档(通过索引搜索器检索出来的嵌入和元数据)进行评分。评分后的最高结果作为系统的最终识别结果。
结果显示
结果显示器接收上面的所有结果&＃xff0c;并通过文本转换成语音的服务说出产品名称&＃xff0c;将结果呈现给用户。

总结/未来的工作

这里列出的on-device系统可以用来实现一系列新的店内体验&＃xff0c;包括详细的产品信息(营养成分、过敏原等)的显示、客户评级、产品比较、智能购物清单、价格跟踪等等。我们很高兴能够探索这些未来的应用&＃xff0c;同时继续研究提高基础设备模型的质量和健壮性。

—END—

好消息&＃xff0c;小白学视觉团队的知识星球开通啦&＃xff0c;为了感谢大家的支持与厚爱&＃xff0c;团队决定将价值149元的知识星球现时免费加入。各位小伙伴们要抓住机会哦&＃xff01;

下载1&＃xff1a;OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复&＃xff1a;扩展模块中文教程&＃xff0c;即可下载全网第一份OpenCV扩展模块教程中文版&＃xff0c;涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2&＃xff1a;Python视觉实战项目52讲

在「小白学视觉」公众号后台回复&＃xff1a;Python视觉实战项目&＃xff0c;即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目&＃xff0c;助力快速学校计算机视觉。

下载3&＃xff1a;OpenCV实战项目20讲

在「小白学视觉」公众号后台回复&＃xff1a;OpenCV实战项目20讲&＃xff0c;即可下载含有20个基于OpenCV实现20个实战项目&＃xff0c;实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流&＃xff0c;目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群&＃xff08;以后会逐渐细分&＃xff09;&＃xff0c;请扫描下面微信号加群&＃xff0c;备注&＃xff1a;”昵称&＃43;学校/公司&＃43;研究方向“&＃xff0c;例如&＃xff1a;”张三 &＃43; 上海交大 &＃43; 视觉SLAM“。请按照格式备注&＃xff0c;否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告&＃xff0c;否则会请出群&＃xff0c;谢谢理解~

推荐阅读

import
深入解析Java多线程同步机制与应用

本文深入探讨了Java多线程环境下的同步机制及其应用，重点介绍了`synchronized`关键字的使用方法和原理。`synchronized`关键字主要用于确保多个线程在访问共享资源时的互斥性和原子性。通过具体示例，如在一个类中使用`synchronized`修饰方法，展示了如何实现线程安全的代码块。此外，文章还讨论了`ReentrantLock`等其他同步工具的优缺点，并提供了实际应用场景中的最佳实践。 ... [详细]

蜡笔小新 2024-11-08 16:11:26
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
如何在Conda环境中高效配置并安装PyTorch与TensorFlow GPU版

在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下：首先，创建一个新的Conda环境以避免与基础环境发生冲突，例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着，激活该环境，确保所有依赖项都正确安装。此外，建议在安装过程中指定CUDA版本，以确保与GPU兼容性。通过这些步骤，可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]

蜡笔小新 2024-11-10 10:49:24
import
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
import
提升Android开发效率：Clean Code的最佳实践与应用

在Android开发中，提高代码质量和开发效率是至关重要的。本文介绍了如何通过Clean Code的最佳实践来优化Android应用的开发流程。以SQLite数据库操作为例，详细探讨了如何编写高效、可维护的SQL查询语句，并将其结果封装为Java对象。通过遵循这些最佳实践，开发者可以显著提升代码的可读性和可维护性，从而加快开发速度并减少错误。 ... [详细]

蜡笔小新 2024-11-07 16:41:50
get
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
import
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37
request
Keepalived VIP 漂移故障分析与解决

在分析和解决 Keepalived VIP 漂移故障的过程中，我们发现主备节点配置如下：主节点 IP 为 172.16.30.31，备份节点 IP 为 172.16.30.32，虚拟 IP 为 172.16.30.10。故障表现为监控系统显示 Keepalived 主节点状态异常，导致 VIP 漂移到备份节点。通过详细检查配置文件和日志，我们发现主节点上的 Keepalived 进程未能正常运行，最终通过优化配置和重启服务解决了该问题。此外，我们还增加了健康检查机制，以提高系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 09:31:14
request
Git命令基础应用指南

本指南详细介绍了Git命令的基础应用，包括如何使用`git clone`从远程服务器克隆仓库（例如：`git clone [url/path/repository]`）以及如何克隆本地仓库（例如：`git clone [local/path/repository]`）。此外，还提供了常见的Git操作技巧，帮助开发者高效管理代码版本。 ... [详细]

蜡笔小新 2024-11-11 09:19:38
request
【Eclipse开发效率提升插件推荐】利用Google V8增强Node.js调试体验

在Eclipse中提升开发效率，推荐使用Google V8插件以增强Node.js的调试体验。安装方法有两种：一是通过Eclipse Marketplace搜索并安装；二是通过“Help”菜单中的“Install New Software”，在名称栏输入“googleV8”。此插件能够显著改善调试过程中的性能和响应速度，提高开发者的生产力。 ... [详细]

蜡笔小新 2024-11-10 09:44:34
range
如何优化MySQL数据库性能以提升查询效率和系统稳定性

如何优化MySQL数据库性能以提升查询效率和系统稳定性 ... [详细]

蜡笔小新 2024-11-09 13:48:51
get
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
get
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
int
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31

Kira玄玄

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章