YOLOv5+CLIP=搜图+裁剪

作者：itbases | 来源：互联网 | 2023-08-29 20:30

文章来源机器之心编辑：蛋酱给Crop-CLIP一个口令，就能自动搜图，还能帮忙裁剪出图片中的关键部分。经常找图的人都知道，根

文章来源机器之心 编辑&＃xff1a;蛋酱

给 Crop-CLIP 一个口令&＃xff0c;就能自动搜图&＃xff0c;还能帮忙裁剪出图片中的关键部分。

经常找图的人都知道&＃xff0c;根据检索关键词组寻找理想中的照片是件很麻烦的事情。

打开搜索引擎或无版权图片网站&＃xff0c;输入关键词&＃xff0c;如果幸运的话&＃xff0c;可能会在第一页或前 N 个检索结果中找到想要的图像。这种搜索方式仍然是基于图片标签进行的。

自从 2021 年 1 月&＃xff0c;OpenAI 推出了名为 CLIP 的神经网络&＃xff0c;找图就进入了语义搜索时代。CLIP 建立在零样本迁移、自然语言监督、多模态学习的大量工作基础之上&＃xff0c;因此它可以从自然语言监督中有效地学习视觉概念。

语义搜索不会试图为输入短语中的单词找到精确匹配&＃xff0c;而是捕获上下文和单词之间的更广泛的关系&＃xff0c;然后检索与搜索查询的上下文密切相关的结果。

近日&＃xff0c;一位开发者将 YOLOv5 和 CLIP 结合起来&＃xff0c;在使用关键词检索图片内容的同时&＃xff0c;直接精确裁剪出包含检索主题的那一部分。

在这张图中&＃xff0c;检索的关键词是「Whats the time」。

项目地址&＃xff1a;https://github.com/vijishmadhavan/Crop-CLIP
在线试用地址&＃xff1a;https://huggingface.co/spaces/Vijish/Crop-CLIP

先看几个示例&＃xff0c;比如你输入关键词「卫衣男」&＃xff0c;效果如下图&＃xff1a;

关键词「威士忌酒瓶」&＃xff1a;

输入关键词「计算机」&＃xff0c;就不会包含水杯和耳机&＃xff1a;

惊喜的是&＃xff0c;它也能认出「Jeff Dean」&＃xff1a;

怎么实现的&＃xff1f;

CLIP 是用大量带有对应标题的图像进行训练的&＃xff0c;因此它学会了理解哪个标题与哪个图片相匹配。

用户可以给出一个随机图像&＃xff0c;并在向量空间中找到该图像的余弦相似度&＃xff0c;其中包含两个短语向量&＃xff1a;「这是狗的照片吗&＃xff1f;」、「这是猫的照片吗&＃xff1f;」。模型会查看哪一个具有最高的相似度&＃xff0c;然后找到图像的类别。某种程度上说&＃xff0c;CLIP 具有像 GPT-2 和 GPT-3 一样的零样本分类能力。

图源&＃xff1a;OpenAI CLIP 博客。

和目标检测器 YOLOv5 相结合之后&＃xff0c;CLIP 在语义搜索图像的基础上增加了裁剪能力&＃xff0c;变身 Crop-CLIP。

检测和裁剪对象 (yolov5s)
使用 CLIP 对裁剪后的图像进行编码
使用 CLIP 编码搜索查询
找到最佳匹配部分

Crop-CLIP 也可用于创建数据集&＃xff0c;需要在代码中进行一些更改&＃xff0c;进行批量搜索查询。如下图所示&＃xff0c;Jack Daniels 威士忌酒瓶的图像已被裁剪并保存。

项目作者 Vijish Madhavan 是一位自由开发者&＃xff0c;现居英国&＃xff0c;是利物浦约翰摩尔斯大学的硕士生。

但作者也提到了一点「限制」&＃xff0c;Crop-CLIP 严重依赖目标检测器 YOLOv5&＃xff0c;鉴于 YOLOv5 是在 COCO 数据集上进行预训练的目标检测架构和模型&＃xff0c;因此 Crop-CLIP 检测过程中的类别会依赖于 COCO 中的类别。

所以在机器之心编辑部的试用过程中&＃xff0c;也会出现不同程度的翻车事故。

想要草莓&＃xff0c;结果却是金桔&＃xff1a;

想要猫咪&＃xff0c;结果却是螃蟹&＃xff1a;

这两张输出结果&＃xff0c;刘能看了也要叹气&＃xff1a;

至少&＃xff0c;这个项目是一种有趣的创新&＃xff0c;在后续的优化中&＃xff0c;相信作者也会对数据集等方面进行改进&＃xff0c;实现更好的搜图效果。

转载请联系机器之心获得授权

猜您喜欢&＃xff1a;

超110篇&＃xff01;CVPR 2021最全GAN论文汇总梳理&＃xff01;

超100篇&＃xff01;CVPR 2020最全GAN论文梳理汇总&＃xff01;

拆解组新的GAN&＃xff1a;解耦表征MixNMatch

StarGAN第2版&＃xff1a;多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

推荐阅读

机器学习
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
less
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
install
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
main
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
int
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
int
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
install
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
input
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59
main
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
install
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17

itbases

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章