热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多标签学习的新趋势

机器之心转载作者:皓波这是2020年多标签学习最新的Survey。这里给大家带来一篇武大刘威威老师、南理工沈肖波老师和UTSIvorW.Tsang老师合作的2020年

机器之心转载

作者:皓波

这是2020 年多标签学习最新的 Survey。

这里给大家带来一篇武大刘威威老师、南理工沈肖波老师和 UTS Ivor W. Tsang 老师合作的 2020 年多标签最新的 Survey,我也有幸参与其中,负责了一部分工作。

论文链接:https://arxiv.org/abs/2011.11197

上半年在知乎上看到有朋友咨询多标签学习是否有新的 Survey,我搜索了一下,发现现有的多标签 Survey 基本在 2014 年之前,主要有以下几篇:

  • Tsoumakas 的《Multi-label classification: An overview》(2007)

  • 周志华老师的《A review on multi-label learning algorithms》(2013)

  • 一篇比较小众的,Gibaja 《Multi‐label learning: a review of the state of the art and ongoing research》2014

时过境迁,从 2012 年起,AI 领域已经发生了翻天覆地的变化,Deep Learning 已经占据绝对的主导地位,我们面对的问题越来越复杂,CV 和 NLP 朝着各自的方向前行。模型越来越强,我们面对的任务的也越来越复杂,其中,我们越来越多地需要考虑高度结构化的输出空间。多标签学习,作为一个传统的机器学习任务,近年来也拥抱变化,有了新的研究趋势。因此,我们整理了近年多标签学习在各大会议的工作,希望能够为研究者们提供更具前瞻性的思考。

关于单标签学习和多标签学习的区别,这里简单给个例子:传统的图片单标签分类考虑识别一张图片里的一个物体,例如 ImageNet、CIFAR10 等都是如此,但其实图片里往往不会只有一个物体,大家随手往自己的桌面拍一张照片,就会有多个物体,比如手机、电脑、笔、书籍等等。在这样的情况下,单标签学习的方法并不适用,因为输出的标签可能是结构化的、具有相关性的(比如键盘和鼠标经常同时出现),所以我们需要探索更强的多标签学习算法来提升学习性能。

本文的主要内容有六大部分:

  • Extreme Multi-Label Classification

  • Multi-Label with Limited Supervision

  • Deep Multi-Label Classification

  • Online Multi-Label Classification

  • Statistical Multi-Label Learning

  • New Applications

接下去我们对这些部分进行简单的介绍,更多细节大家也可以进一步阅读 Survey 原文。另外,由于现在的论文迭代很快,我们无法完全 Cover 到每篇工作。我们的主旨是尽量保证收集的工作来自近年已发表和录用的、高质量的期刊或会议,保证对当前工作的整体趋势进行把握。如果读者有任何想法和意见的话,也欢迎私信进行交流。

1. Extreme Multi-Label Learning (XML)

在文本分类,推荐系统,Wikipedia,Amazon 关键词匹配 [1] 等等应用中,我们通常需要从非常巨大的标签空间中召回标签。比如,很多人会 po 自己的自拍到 FB、Ins 上,我们可能希望由此训练一个分类器,自动识别谁出现在了某张图片中。对 XML 来说,首要的问题就是标签空间、特征空间都可能非常巨大,例如 Manik Varma 大佬的主页中给出的一些数据集[2],标签空间的维度甚至远高于特征维度。其次,由于如此巨大的标签空间,可能存在较多的 Missing Label(下文会进一步阐述)。最后,标签存在长尾分布[3],绝大部分标签仅仅有少量样本关联。现有的 XML 方法大致可以分为三类,分别为:Embedding Methods、Tree-Based Methods、One-vs-All Methods。近年来,也有很多文献使用了深度学习技术解决 XML 问题,不过我们将会在 Section 4 再进行阐述。XML 的研究热潮大概从 2014 年开始,Varma 大佬搭建了 XML 的 Repository 后,已经有越来越多的研究者开始关注,多年来 XML 相关的文章理论和实验结果并重,值得更多的关注。

2. Multi-Label with Limited Supervision

相比于传统学习问题,对多标签数据的标注十分困难,更大的标签空间带来的是更高的标注成本。随着我们面对的问题越来越复杂,样本维度、数据量、标签维度都会影响标注的成本。因此,近年多标签的另一个趋势是开始关注如何在有限的监督下构建更好的学习模型。本文将这些相关的领域主要分为三类:

MLC with Missing Labels(MLML):多标签问题中,标签很可能是缺失的。例如,对 XML 问题来说,标注者根本不可能遍历所有的标签,因此标注者通常只会给出一个子集,而不是给出所有的监督信息。文献中解决该问题的技术主要有基于图的方法、基于标签空间(或 Latent 标签空间)Low-Rank 的方法、基于概率图模型的方法。

Semi-Supervised MLC:MLML 考虑的是标签维度的难度,但是我们知道从深度学习需要更多的数据,在样本量上,多标签学习有着和传统 AI 相同的困难。半监督 MLC 的研究开展较早,主要技术和 MLML 也相对接近,在这一节,我们首先简要回顾了近年半监督 MLC 的一些最新工作。但是,近年来,半监督 MLC 开始有了新的挑战,不少文章开始结合半监督 MLC 和 MLML 问题。毕竟对于多标签数据量来说,即使标注少量的 Full Supervised 数据,也是不可接受的。因此,许多文章开始研究一类弱监督多标签问题[4](Weakly-Supervised MLC,狭义),也就是数据集中可能混杂 Full labeled/missing labels/unlabeled data。我们也在文中重点介绍了现有的一些 WS-MLC 的工作。

Partial Multi-Label Learning(PML):PML 是近年来多标签最新的方向,它考虑的是一类 “难以标注的问题”。比如,在我们标注下方的图片(Zhang et. al. 2020[5])的时候,诸如 Tree、Lavender 这些标签相对是比较简单的。但是有些标签到底有没有,是比较难以确定的,对于某些标注者,可能出现:“这张图片看起来是在法国拍的,好像也可能是意大利?”。这种情况称之为 Ambiguous。究其原因,一是有些物体确实难以辨识,第二可能是标注者不够专业(这种多标签的情况,标注者不太熟悉一些事物也很正常)。但是,很多情况下,标注者是大概能够猜到正确标签的范围,比如这张风景图所在国家,很可能就是 France 或者 Italy 中的一个。我们在不确定的情况下,可以选择不标注、或者随机标注。但是不标注意味着我们丢失了所有信息,随机标注意味着可能带来噪声,对学习的影响更大。所以 PML 选择的是让标注者提供所有可能的标签,当然加了一个较强的假设:所有的标签都应该被包含在候选标签集中。在 Survey 中,我们将现有的 PML 方法划分为 Two-Stage Disambiguation 和 End-to-End 方法(我们 IJCAI 2019 的论文 DRAMA[6] 中,就使用了前者)。关于 PML 的更多探讨,我在之前的知乎回答里面也已经叙述过,大家也可以在我们的 Survey 中了解更多。

Other Settings:前文说过,多标签学习的标签空间纷繁复杂,因此很多研究者提出了各种各样不同的学习问题,我们也简单摘要了一些较为前沿的方向:

  • MLC with Noisy Labels (Noisy-MLC).

  • MLC with Unseen Labels. (Streaming Labels/Zero-Shot/Few-Shot Labels)

  • Multi-Label Active Learning (MLAL).

  • MLC with Multiple Instances (MIML).

3. Deep Learning for MLC

相信这一部分是大家比较关心的内容,随着深度学习在越来越多的任务上展现了自己的统治力,多标签学习当然也不能放过这块香饽饽。不过,总体来说,多标签深度学习的模型还没有十分统一的框架,当前对 Deep MLC 的探索主要分为以下一些类别:

Deep Embedding Methods:早期的 Embedding 方法通常使用线性投影,将 PCA、Compressed Sensing 等方法引入多标签学习问题。一个很自然的问题是,线性投影真的能够很好地挖掘标签之间的相关关系吗?同时,在 SLEEC[3]的工作中也发现某些数据集并不符合 Low-Rank 假设。因此,在 2017 年的工作 C2AE[7]中,Yeh 等将 Auto-Encoder 引入了多标签学习中。由于其简单易懂的架构,很快有许多工作 Follow 了该方法,如 DBPC[8]等。

Deep Learning for Challenging MLC:深度神经网络强大的拟合能力使我们能够有效地处理更多更困难的工作。因此我们发现近年的趋势是在 CV、NLP 和 ML 几大 Community,基本都会有不同的关注点,引入 DNN 解决 MLC 的问题,并根据各自的问题发展出自己的一条线。

1. XML 的应用:对这个方面的关注主要来自与数据挖掘和 NLP 领域,其中比较值得一提的是 Attention(如 AttentionXML[9])机制、Transformer-Based Models(如 X-Transformer[10])成为了最前沿的工作。

2. 弱监督 MLC 的应用:这一部分和我们弱监督学习的部分相对交叉,特别的,CVPR 2019 的工作 [11] 探索了多种策略,在 Missing Labels 下训练卷积神经网络。

DL for MLC with unseen labels:这一领域的发展令人兴奋,今年 ICML 的工作 DSLL[12]探索了流标签学习,也有许多工作 [13] 将 Zero-Shot Learning 的架构引入 MLC。

3. Advanced Deep Learning for MLC:有几个方向的工作同样值得一提。首先是 CNN-RNN[14]架构的工作,近年有一个趋势是探索 Orderfree 的解码器 [15]。除此之外,爆火的图神经网络 GNN 同样被引入 MLC,ML-GCN[16] 也是备受关注。特别的,SSGRL[17]是我比较喜欢的一篇工作,结合了 Attention 机制和 GNN,motivation 比较强,效果也很不错。

总结一下,现在的 Deep MLC 呈现不同领域关注点和解决的问题不同的趋势:

  • 从架构上看,基于 Embedding、CNN-RNN、CNN-GNN 的三种架构受到较多的关注。

  • 从任务上,在 XML、弱监督、零样本的问题上,DNN 大展拳脚。

  • 从技术上,Attention、Transformer、GNN 在 MLC 上的应用可能会越来越多。

4. Online Multi-Label Learning

面对当前这么复杂而众多的学习问题,传统的全数据学习的方式已经很难满足我们现实应用的需求了。因此,我们认为 Online Multi-Label Learning 可能是一个十分重要,也更艰巨的问题。当前 Off-line 的 MLC 模型一般假设所有数据都能够提前获得,然而在很多应用中,或者对大规模的数据,很难直接进行全量数据的使用。一个朴素的想法自然是使用 Online 模型,也就是训练数据序列地到达,并且仅出现一次。然而,面对这样的数据,如何有效地挖掘多标签相关性呢?本篇 Survey 介绍了一些已有的在线多标签学习的方法,如 OUC[18]、CS-DPP[19]等。在弱监督学习的部分,我们也回顾了近年一些在线弱监督多标签的文章[20](在线弱监督学习一直是一个很困难的问题)。Online MLC 的工作不多,但是已经受到了越来越多的关注,想要设计高效的学习算法并不简单,希望未来能够有更多研究者对这个问题进行探索。

5. Statistical Multi-Label Learning

近年,尽管深度学习更强势,但传统的机器学习理论也在稳步发展,然而,多标签学习的许多统计性质并没有得到很好的理解。近年 NIPS、ICML 的许多文章都有探索多标签的相关性质。一些值得一提的工作例如,缺失标签下的低秩分类器的泛化误差分析 [21]、多标签代理损失的相合性质[22]、稀疏多标签学习的 Oracle 性质[23] 等等。相信在未来,会有更多工作探索多标签学习的理论性质。

6. New Applications

讲了这么多方法论,但追溯其本源,这么多纷繁复杂的问题依然是由任务驱动的,正是有许许多多现实世界的应用,要求我们设计不同的模型来解决尺度更大、监督更弱、效果更强、速度更快、理论性质更强的 MLC 模型。因此,在文章的最后一部分,我们介绍了近年多标签领域一些最新的应用,如 Video Annotation、Green Computing and 5G Applications、User Profiling 等。在 CV 方向,一个趋势是大家开始探索多标签领域在视频中的应用 [24]。在 DM 领域,用户画像受到更多关注,在我们今年的工作 CMLP[25] 中(下图),就探索了对刷单用户进行多种刷单行为的分析。不过,在 NLP 领域,似乎大家还是主要以文本分类为主,XML-Repo[2]中的应用还有较多探索的空间,所以我们没有花额外的笔墨。

总结

写这篇文章的过程中,我跟着几位老师阅读了很多文章,各个领域和方向的工作都整理了不少,尽管无法 cover 到所有工作,但是我们尽可能地把握了一些较为重要的探索的方向,也在文中较为谨慎地给出了一些我们的思考和建议,希望能够给想要了解多标签学习领域的研究者一点引领和思考。

参考

  1. ^Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.

  2. ^abhttp://manikvarma.org/downloads/XC/XMLRepository.html

  3. ^abBhatia K, Jain H, Kar P, et al. Sparse local embeddings for extreme multi-label classification[C]//Advances in neural information processing systems. 2015: 730-738.

  4. ^Chu H M, Yeh C K, Frank Wang Y C. Deep generative models for weakly-supervised multi-label classification[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 400-415.

  5. ^Zhang M L, Fang J P. Partial multi-label learning via credible label elicitation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

  6. ^Wang H, Liu W, Zhao Y, et al. Discriminative and Correlative Partial Multi-Label Learning[C]//IJCAI. 2019: 3691-3697.

  7. ^C. Yeh, W. Wu, W. Ko, and Y. F. Wang, “Learning deep latent space for multi-label classification,” in AAAI, 2017, pp. 2838–2844.

  8. ^X. Shen, W. Liu, Y. Luo, Y. Ong, and I. W. Tsang, “Deep discrete prototype multilabel learning,” in IJCAI, 2018, pp. 2675–2681.

  9. ^You R, Zhang Z, Wang Z, et al. Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification[C]//Advances in Neural Information Processing Systems. 2019: 5820-5830.

  10. ^Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.

  11. ^Durand T, Mehrasa N, Mori G. Learning a deep convnet for multi-label classification with partial labels[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 647-657.

  12. ^Z. Wang, L. Liu, and D. Tao, “Deep streaming label learning,” in ICML, 2020.

  13. ^C. Lee, W. Fang, C. Yeh, and Y. F. Wang, “Multi-label zero-shot learning with structured knowledge graphs,” in CVPR, 2018, pp. 1576–1585.

  14. ^Wang J, Yang Y, Mao J, et al. Cnn-rnn: A unified framework for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2285-2294.

  15. ^Yazici V O, Gonzalez-Garcia A, Ramisa A, et al. Orderless Recurrent Models for Multi-label Classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13440-13449.

  16. ^Chen Z M, Wei X S, Wang P, et al. Multi-label image recognition with graph convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5177-5186.

  17. ^T. Chen, M. Xu, X. Hui, H. Wu, and L. Lin, “Learning semanticspecific graph representation for multi-label image recognition,” in ICCV, 2019, pp. 522–531.

  18. ^M. J. Er, R. Venkatesan, and N. Wang, “An online universal classifier for binary, multi-class and multi-label classification,” in IEEE International Conference on Systems, Man, and Cybernetics, 2016, pp. 3701–3706.

  19. ^H. Chu, K. Huang, and H. Lin, “Dynamic principal projection for cost-sensitive online multi-label classification,” Machine Learning, vol. 108, no. 8-9, pp. 1193–1230, 2019.

  20. ^S. Boulbazine, G. Cabanes, B. Matei, and Y. Bennani, “Online semi-supervised growing neural gas for multi-label data classification,” in IJCNN, 2018, pp. 1–8.

  21. ^H. Yu, P. Jain, P. Kar, and I. S. Dhillon, “Large-scale multilabel learning with missing labels,” in Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014, 2014, pp. 593–601.

  22. ^W. Gao and Z. Zhou, “On the consistency of multi-label learning,” Artificial Intelligence, vol. 199-200, pp. 22–44, 2013.

  23. ^W. Liu and X. Shen, “Sparse extreme multi-label learning with oracle property,” in ICML, 2019, pp. 4032–4041.

  24. ^X. Zhang, H. Shi, C. Li, and P. Li, “Multi-instance multi-label action recognition and localization based on spatio-temporal pretrimming for untrimmed videos,” in AAAI. AAAI Press, 2020, pp. 12 886–12 893.

  25. ^H. Wang, Z. Li, J. Huang, P. Hui, W. Liu, T. Hu, and G. Chen, “Collaboration based multi-label propagation for fraud detection,” in IJCAI, 2020.

原文链接:

https://zhuanlan.zhihu.com/p/266749365?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_campaign=shareopn

© THE END 

转载请联系 机器学习 公众号获得授权

投稿或寻求报道:content@jiqizhixin.com



推荐阅读
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 深入解析监督学习的核心概念与应用
    本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支,通过利用带有标签的训练数据,能够有效构建预测模型。文章详细解析了监督学习的关键概念,如特征选择、模型评估和过拟合问题,并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]
  • 深入理解排序算法:集合 1(编程语言中的高效排序工具) ... [详细]
  • 在 Linux 环境下,多线程编程是实现高效并发处理的重要技术。本文通过具体的实战案例,详细分析了多线程编程的关键技术和常见问题。文章首先介绍了多线程的基本概念和创建方法,然后通过实例代码展示了如何使用 pthreads 库进行线程同步和通信。此外,还探讨了多线程程序中的性能优化技巧和调试方法,为开发者提供了宝贵的实践经验。 ... [详细]
  • 计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述(上篇)
    本文介绍了计算机视觉领域的最新进展,特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点,为读者提供了全面的概述。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 为了评估精心优化的模型与策略在实际环境中的表现,Google对其实验框架进行了全面升级,旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景,提供更好的数据洞察,并显著缩短了实验周期,从而加速产品迭代和优化过程。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
author-avatar
的撒旦
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有