热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

图片GPT

图片GPT哎哎哎:#t0]https://www.gee

图片 GPT

哎哎哎:# t0]https://www . geeksforgeeks . org/image-GPT/

图像 GPT 是由 OpenAI 的研究人员在 2019 年提出的。本文尝试将类 GPT 变换应用于目标识别/目标检测任务。然而,作者面临一些挑战,如处理大尺寸图像等。

架构:

图像 GPT (iGPT)的架构类似于 GPT-2,即它由一个变压器解码器块组成。变压器解码器取离散记号的输入序列 x 1 ,…,x n ,并输出每个位置的 d 维嵌入。变压器可视为一堆大小为 L 的解码器,其第L产生 h1T10【L】T11 的嵌入。h n l 。之后,输入张量被传递到不同的层,如下所示:


  • nl= layer _ norm(hl)

  • a l = h l +多头注意力( n l )

  • h l+1 = a l + mlp(层定额(a l )

其中层 _ 范数为层归一化,MLP 层为多层感知器(人工神经网络)模型。以下是不同版本的列表

| 型号名称/变体 | 输入分辨力 | 参数(M) | 特征 |
| --- | --- | --- | --- |
| igpt-宽(l) | 32*32*3 | One thousand three hundred and sixty-two | One thousand five hundred and thirty-six |
| 48*48*3 |
| igbt-xl 系列 | 64*64*3 | Six thousand eight hundred and one | Three thousand and seventy-two |
| Fifteen thousand three hundred and sixty |

上下文缩减:

因为使用密集注意力时,转换器解码器的内存需求与上下文长度成二次比例。这意味着训练一个单层变压器需要大量的计算。为了解决这个问题,作者将图像调整到较低的分辨率,称为输入分辨率。iGPT 车型采用 323234848364643 的 IRs。

训练方法:

图像 GPT 的模型训练包括两个步骤:

预训练


  • 给定由高维数据 x = (x 1 ,…,x n 组成的未标记数据集 X,我们可以选取集合[1,n]的排列π,并自动回归地建模密度 p(x)如下:



p\left ( x \right ) =  \prod_{i=1}^{n} p\left ( x_{\pi_i}|x_{\pi_1},...x_{\pi_{i-1}} ,\theta \right )


  • 对于图像,我们选取恒等式排列π i = i 表示 1 ≤ i ≤ n,也称为光栅顺序。该模型被训练成最小化负对数似然:


L_{AR} = \mathbb{E}_{x \sim X} \left [ -log\left ( p(x) \right )\right ]


  • 作者还在 BERT 中使用了类似掩蔽语言建模的损失函数,该函数对子序列 M ⊂ [1,n] 进行采样,使得每个索引 i 独立地具有出现在 m 中的概率 0.15。


L_{BERT} = \mathbb{E}_{x \sim X} \mathbb{E}_{M} \left [ -log\left ( p(x_i | x_{[1,n]\backslash M}) \right )\right ]


  • 在预训练期间,我们选择 L AR 或 L BERT 中的一个,并最小化预训练数据集的损失。

微调:


  • 为了进行微调,作者在序列维度上执行平均池 n ^ 1,以提取每个示例的特征的 d 维向量,并从平均池层学习投影。作者使用这个投影来最小化交叉熵损失 L CLF 。这就构成了总目标函数


f^{L} = \prec n^{L}_{i}\succ_{i}
 L_{obj} = L_{GEN} + L{CLF}


  • 其中 L GEN 为 L AR 或 L BERT

作者还试验了类似于微调但没有任何平均汇集层的线性探测。

结果:


  • 在 CIFAR-10 上,iGPT-L 的准确率达到 99.0%,在 CIFAR-100 上,经过微调后准确率达到 88.5%。iGPT-L 的性能优于自动调整,这是这些数据集上的最佳监督模型。

  • 在 ImageNet 上,iGPT 在 MR(输入分辨率/内存分辨率) 3232 下微调后达到 66.3%的精度,比线性探测提高了 6%。当在磁共振 4848 处微调时,该模型获得了 72.6%的精度,与线性探测相比提高了类似的 7%。

参考文献:


  • iGPT 纸


推荐阅读
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • 掌握 Photoshop 是学习网页设计的重要一步。本文将详细介绍 Photoshop 的基础与进阶功能,帮助您更好地进行图像处理和网页设计。推荐使用最新版本的 Photoshop,以体验更强大的功能和更高的效率。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
  • 基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章:《LearningtoCompar ... [详细]
  • 利用Java与Tesseract-OCR实现数字识别
    本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能,旨在为开发者提供详细的指导和实践案例。 ... [详细]
  • 回顾与学习是进步的阶梯。再次审视卷积神经网络(CNNs),我对之前不甚明了的概念有了更深的理解。本文旨在分享这些新的见解,并探讨CNNs在图像识别和自然语言处理等领域中的实际应用。 ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • 探讨如何高效使用FastJSON进行JSON数据解析,特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
author-avatar
所谓一叶随缘_212
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有