热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AI大一统:阿里达摩院发布多任务、多模态统一模型OFA

引言:我们正处于一个“多模多任务大统一”的AI时代。老铁们,上图是对动漫《海贼王》所选框的文字描述(Zero-shot测试)

引言:我们正处于一个“多模多任务大统一”的AI时代。

75867308016f7cb9a0762d28685a485c.png

老铁们,上图是对动漫《海贼王》所选框的文字描述(Zero-shot测试),而这一“炫酷”的效果正式由达摩院最新发布的多模统一模型OFA搞定的~

曾几何时,建立一个能像人类一样同时处理多模态、多任务的通用模型一直是AI领域的1个“小目标”。

而最近阿里达摩院发布了模态、任务、结构统一的模型OFA,将多模态及单模态的理解和生成任务统一到1个简单的Seq2Seq生成式框架中,OFA执行预训练并使用任务指令进行微调,并且没有引入额外的任务特定层进行微调。

具体地说:

  • 统一模态:统一图片、视频、文本的多模态输入形式;

  • 统一结构:采取统一采用Seq2Seq生成式框架;

  • 统一任务:对不同任务人工设计了8种任务指令;

f72d2fd780905b6ee3a2b5a6a1a6c8be.png

正如上图所说,OFA覆盖的下游任务横跨多模态生成、多模态理解、图片分类、自然语言理解、文本生成等多个场景,在图文描述、图像生成、视觉问答、图文推理、物体定位等多个风格各异的任务上取得SOTA。

  • 论文题目:Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

  • 论文地址:https://arxiv.org/pdf/2202.03052.pdf

  • 开源地址:https://github.com/OFA-Sys/OFA

如何实现3个统一?

9aaacd992f389323862ba5353a819843.png

为了统一多模态输入,OFA将文本、图片以及其中的物体离散化到一个统一的词表中。具体做法是,将文本用BPE转化为subwords,将图片简单切分成多个patch并使用image quantization转化为image code,抽取图片中的物体的标签和bounding box并将bounding box离散化为location tokens 。最后,统一词表是文本的subwords,图片的image code和物体的location tokens三者的并集。

为了实现统一模型,OFA继续复用了在之前的大量工作中证明能有效地兼容不同的模态的Transformer结构。同时为了加快模型收敛,本文使用了post-normalization。

为了统一不同任务,OFA对不同任务人工设计了8种任务指令。其中,对多模任务设计了5种指令(如上图中蓝色矩形),对视觉任务设计了2种指令(如上图中红色矩形),对语言任务设计了1中指令(如图中黄色矩形)。以image grounding任务为例,模型输入为足球比赛图片和指令’Which region does the text ‘Man in white shirt’ describe’,希望模型能生成正确的白衣球员的正确位置信息。

主要实验结果

为了验证模型的有效性,论文分别进行了跨模态、单模态和zero-shot实验。

1、跨模态任务

33d62941be770246d1a113a13bed3275.png

从实验结果中可以看到,OFA在image caption、VQA、visual entailment 和 referring expression comprehension 4个跨模态任务中都取得了SOTA。其中,OFA还超过了180亿参数的大模型SimVLM。

a5976ef7957527d75fd570b2074689f0.png

另外,在image-to-text generation任务中,OFA 也超过了DALLE, CogView和最近大火的NÜWA模型。

2、单模态任务

2374f66dc1fbd0995c6b73fbee1347a3.png

在文本任务上,如下表所示,OFA在文本理解数据集GLUE上大幅度超过了多模预训练模型SimVLM,并且和BERT的效果媲美,同时也在摘要生成数据集Gigaword上超过了大多数纯文本预训练模型。

f086bb7cc8b9530093922f60955246e0.png

在图片分类任务上,OFA不仅超过了EfficientNet-B7等backbone模型,同时也超过了基于对比学习的SimCLR和MoCo,并且与基于masked image modeling训练的BEiT-L和MAE-L模型取得了相近的结果。

3、Zero-shot和任务迁移

578ec8d4c75d2cf2cc46a4e1cb7ac8ee.png

如上图,OFA在6个GLUE的单句和句子对分类任务上进行了zero-shot实验,效果超过了同期模型Uni-perciver,但是在句子对分类上的效果并不好,准确度低于60%。

为了验证OFA的zero-shot泛化能力,作者设计了一种grounded answering的新任务,如下图所示,对图片中的某一区域进行提问,模型也能给出满意的答案。

b5a971467a8c85b8b3910e145c40b543.png

同时,OFA也在VQA任务中使用out-of-domain的图片进行了测试,发现模型也能取得一定效果。

总结:

本文介绍的统一模型OFA是一个与任务无关、模态无关的综合性、大一统模型。

  • OFA实现了结构、任务和模态的统一,因此能够实现多模态和单模态理解和生成,无需在附加层或任务中指定。

  • OFA达到了图像字幕、文本到图像生成、VQA、SNLI-VE等方面的新SOTA。

  • OFA展示了与语言/视觉预训练模型在单模态理解中的可比性能。

  • OFA进一步分析了它在零样本学习下领域和任务转移方面的有效性。

最后,达摩院表示:正努力构建一个可推广到复杂现实世界的全能模型解决方案!

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

33b8365287a994df446b80dea4a4706a.png



推荐阅读
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • CodeBERT理解
    1.动机大型的预训练模型,比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型,比如ViBE ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文讨论了同事工资打听的话题,包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系,以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满,通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 标题: ... [详细]
  • 数字账号安全与数据资产问题的研究及解决方案
    本文研究了数字账号安全与数据资产问题,并提出了解决方案。近期,大量QQ账号被盗事件引起了广泛关注。欺诈者对数字账号的价值认识超过了账号主人,因此他们不断攻击和盗用账号。然而,平台和账号主人对账号安全问题的态度不正确,只有用户自身意识到问题的严重性并采取行动,才能推动平台优先解决这些问题。本文旨在提醒用户关注账号安全,并呼吁平台承担起更多的责任。令牌云团队对此进行了长期深入的研究,并提出了相应的解决方案。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • Thisworkcameoutofthediscussioninhttps://github.com/typesafehub/config/issues/272 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • vlfilecopy(findfile(vllist>string(10811110311146103105102)))(vll的简单介绍
    本文目录一览:1、一段lisp代码求解释2、运 ... [详细]
  • Itwasworkingcorrectly,butyesterdayitstartedgiving401.IhavetriedwithGooglecontactsAPI ... [详细]
author-avatar
chasewindboy
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有