Pyqt5多标签_看过上百部片子的这个人教你视频标签算法解析

作者：平凡特产小店 | 来源：互联网 | 2023-10-12 11:53

本文由云社区发表随着内容时代的来临，多媒体信息，特别是视频信息的分析和理解需求，如图像分类、图像打标签、视频处理等等，变得越

本文由云&＃43;社区发表

随着内容时代的来临&＃xff0c;多媒体信息&＃xff0c;特别是视频信息的分析和理解需求&＃xff0c;如图像分类、图像打标签、视频处理等等&＃xff0c;变得越发迫切。目前图像分类已经发展了多年&＃xff0c;在一定条件下已经取得了很好的效果。本文因实际产品需求&＃xff0c;主要探讨一下视频打标签的问题。

查阅了部分资料&＃xff0c;笔者拙见&＃xff0c;打标签问题无论是文本、图像和视频&＃xff0c;涉及到较多对内容的“理解”&＃xff0c;目前没有解决得很好。主要原因有以下一些方面&＃xff0c;标签具有多样性&＃xff0c;有背景内容标签&＃xff0c;细节内容标签&＃xff0c;内容属性标签&＃xff0c;风格标签等等&＃xff1b;一些标签的样本的实际表现方式多种多样&＃xff0c;样本的规律不明显则不利于模型学习&＃xff1b;标签问题没有唯一的标准答案&＃xff0c;也存在一定的主观性&＃xff0c;不好评估的问题则更不利于模型学习。

依然笔者拙见&＃xff0c;视频打标签问题目前还没有很好的解决办法&＃xff0c;也处于探索阶段。方法上主要有以下一些思路&＃xff1a;可以从视频角度出发&＃xff0c;可以从图像角度出发&＃xff1b;可以利用caption生成的思路&＃xff0c;可以转化为多分类问题。

直接从视频角度出发&＃xff0c;即从视频整体的角度出发&＃xff0c;提取图像帧&＃xff0c;甚至字幕或者语音信息&＃xff0c;进一步处理得出视频标签的结果。Deep Learning YouTube Video Tags&＃xff0c;这篇文章提出一个hybrid CNN-RNN结构&＃xff0c;将视频的图像特征&＃xff0c;以及利用LSTM模型对标签考虑标签相关性和依赖性的word embeddings&＃xff0c;联合起来&＃xff0c;网络结构如下图。

Large-scale Video Classification with Convolutional Neural Networks提出了几种应用于视频分类的卷积神经网络结构&＃xff0c;在网络中体现时空信息。single frame&＃xff1a;就是把一帧帧的图像分别输入到CNN中去&＃xff0c;和普通的处理图像的CNN没有区别&＃xff1b;late fution&＃xff1a;把相聚L的两帧图像分别输入到两个CNN中去&＃xff0c;然后在最后一层连接到同一个full connect的softmax层上去&＃xff1b;early fution&＃xff1a;把连续L帧的图像叠在一起输入到一个CNN中去&＃xff1b;

slow fution&＃xff1a;通过在时间和空间维度增加卷积层&＃xff0c;从而提供更多的时空全局信息。如下图所示&＃xff1a;

另一方面&＃xff0c;为了提高训练速度&＃xff0c;这篇文章还提出Multiresolution CNNs&＃xff0c;分别将截取中间部分的图像和缩放的图像作为网络的输入&＃xff0c;如下图所示&＃xff1a;

这篇文章主要研究了卷积神经网络在大规模视频分类中的应用和表现。通过实验&＃xff0c;文章总结网络细节对于卷积神经网络的效果并不非常敏感。但总的来说&＃xff0c;slow fusion网络结构的效果更好。

从图像角度出发&＃xff0c;即从视频中提取一些帧&＃xff0c;通过对帧图像的分析&＃xff0c;进一步得出视频标签的结果。对图像的分析&＃xff0c;也可以转化为图像打标签或者图像描述问题。Visual-Tex: Video Tagging using Frame Captions&＃xff0c;先从视频中提取固定数量的帧&＃xff0c;用训练好的image to caption模型对图像生成描述。然后将文本描述组合起来&＃xff0c;提取文本特征并用分类方法进行分类&＃xff0c;得到tag结果。这篇文章对生成的描述&＃xff0c;对比了多种不同的特征和多种不同的分类方法。可见&＃xff0c;图像打标签对视频打标签有较大的借鉴意义。另一种思路&＃xff0c;CNN-RNN: A Unified Framework for Multi-label Image Classification可以看作将图像打标签问题转化为多分类问题。将卷积神经网络应用到多标签分类问题中的一个常用方法是转化为多个单标签的分类问题&＃xff0c;利用ranking loss或者cross-entropy loss进行训练。但这种方法往往忽略了标签之间的联系或者标签之间语义重复的问题。这篇文章设计了CNN-RNN的网络结构里&＃xff0c;并利用attention机制&＃xff0c;更好地体现标签间的相关性、标签间的冗余信息、图像中的物体细节等。网络结构主要如下图所示&＃xff0c;主要包括两个部分&＃xff1a;CNN部分提取图像的语义表达&＃xff0c;RNN部分主要获取图像和标签之间的关系和标签之间的依赖信息。

针对空间部分短视频数据&＃xff0c;笔者设计了一个简单的视频打标签的方案&＃xff0c;并进行了实验。由于预处理和算法细节的很多进一步改进和完善工作还没有进行&＃xff0c;在此只是提出一种思路和把实验结果简单地做个分享。

方法介绍&＃xff1a;

整体思路&＃xff1a;图片打标签 &＃61;> 视频打标签

也就是说&＃xff0c;对视频提取帧&＃xff0c;得到视频中的图片&＃xff1b;然后对图片进行打标签&＃xff1b;最后将视频中帧图片的标签进行整合&＃xff0c;得到视频标签。

1、从图片描述说起&＃xff1a;

图片描述典型框架&＃xff1a;利用deep convolutional neural network来encode 输入图像&＃xff0c;然后利用Long Short Term Memory(LSTM) RNN decoder来生成输出文本描述。

2、在打标签任务中&＃xff0c;我们把标签或类别组合&＃xff0c;构造成“描述”:

一级类别&＃43;二级类别&＃43;标签&＃xff08;重复的词语进行去重&＃xff09;

3、利用预训练和强化学习&＃xff0c;对训练样本图片和标签构造模型映射。

《Self-critical Sequence Training for Image Captioning》

网络模型有三种&＃xff1a;fc model&＃xff1b;topdown model&＃xff1b;att2in model&＃xff1b;模型细节见论文。

一般地&＃xff0c;给定输入图像和输出文本target&＃xff0c;,模型训练的过程为最小化cross entropy loss&＃xff08;maximum-likelihood training objective&＃xff09;:

利用self-critical policy gradient training algorithm&＃xff1a;

其中&＃xff0c;是reward funtion

通过根据每一个decoding time step的概率分布进行采样获得&＃xff0c;是baseline output&＃xff0c;通过最大化每一个decoding time step的概率分布输出获得&＃xff0c;也就是a greedy search。论文里提到&＃xff0c;利用CIDEr metric作为reward function&＃xff0c;效果最好。

4、根据视频帧图片的标签&＃xff0c;对视频打标签。具体有两种思路&＃xff1a;

记录视频提取的所有帧图片中每一个出现的标签&＃xff0c;以及标签出现的次数&＃xff08;有多少帧图片

被打上了这个标签&＃xff09;。按照出现次数排序。

1.将帧图片的最多前n个标签&＃xff0c;输出为视频标签。

2.将帧图片中&＃xff0c;出现次数大于阈值c的标签&＃xff0c;&＃xff0c;输出为视频标签。

数据示例&＃xff1a;

其中1class表示一级类别&＃xff0c;2class表示二级类别。

实验结果示例&＃xff1a;

截取一些实验结果展示如下&＃xff0c;其中output指模型输出的结果&＃xff0c;reference指人工标定的参考结果。

总的来说&＃xff0c;游戏类视频的数据量最大&＃xff0c;效果较好&＃xff1b;但具体不同英雄的视频数据如果不平衡&＃xff0c;也会影响算法结果。其他类型视频数据不算太稀疏的效果也不错&＃xff0c;长尾视频的效果不行。

总结&＃xff1a;

数据预处理、模型结构、损失函数、优化方法等各方面&＃xff0c;都还有很多值得根据视频打标签应用的实际情况进行调整的地方。后续再不断优化。方法和实验都还粗糙&＃xff0c;希望大家多批评指导。

此文已由作者授权腾讯云&＃43;社区在各渠道发布

获取更多新鲜技术干货&＃xff0c;可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号

推荐阅读

format
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
io
Scrapy中的信号机制

本文档详细介绍了Scrapy框架中的信号系统，包括如何利用信号来增强爬虫的功能性和灵活性，以及各个内置信号的具体用途和参数。 ... [详细]

蜡笔小新 2024-12-16 21:00:06
format
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
io
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
io
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
io
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
foreach
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
foreach
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
format
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
format
详解 | 日志系统ViseLog的基本使用与功能

本文详细介绍了日志系统ViseLog的使用方法及其核心功能，旨在帮助开发者更好地理解和利用这一工具，提高开发效率。 ... [详细]

蜡笔小新 2024-12-16 09:12:55
format
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
io
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15
foreach
Laravel学习笔记：深入数据库操作与优化

本文详细探讨了Laravel框架中的数据库操作，包括读写分离、事务处理、Eloquent ORM的使用、关联关系管理及性能优化技巧。 ... [详细]

蜡笔小新 2024-12-08 08:47:16
io
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
io
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54

平凡特产小店

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章