热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

项目1.CROSSFORMER论文与代码解析

CROSSFORMER[CV:图像分类、目标检测]1.资源链接1.1论文1.2代码2.论文解析2.0摘要2.1基本介绍2.2背景2.3本文模型2.3.1Cross-ScaleEmb


CROSSFORMER[CV:图像分类、目标检测]

  • 1.资源链接
      • 1.1论文
      • 1.2代码
  • 2.论文解析
      • 2.0 摘要
      • 2.1 基本介绍
      • 2.2 背景
      • 2.3 本文模型
        • 2.3.1 Cross-Scale Embedding Layer(CEL)
        • 2.3.2 CrossFormer Block
          • 2.3.2.1长短距离注意力机制 (LSDA)
          • 2.3.2.2 Dynamic Position Bias(DPB)
          • 2.3.2.3 Variants of CrossFormer
      • 2.4 实验
        • 2.4.1 图像分类
        • 2.4.2 目标检测和实例分割
        • 2.4.3 语义分割
        • 2.4.4 消融研究
      • 2.5 总结
  • 3.代码复现
      • 3.1下载之初
      • 3.2环境搭建
        • 3.2.0 下载数据集
        • 3.2.1图像分类
          • 3.2.1.1 环境配置
          • 3.2.1.2 修改代码
          • 3.2.1.3 运行代码
        • 3.2.2目标检测
          • 3.2.2.1 环境配置
    • 问题一:安装报错 error: command ':/usr/local/cuda/bin/nvcc' failed with exit status 1
    • 问题二:安装mmdet时各种爆红
          • 3.2.2.2 修改代码
          • 3.2.2.3 运行代码
  • 4. 代码解析


1.资源链接


1.1论文

《CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention》


1.2代码

github代码链接


2.论文解析


2.0 摘要


  • Transformers在处理视觉任务方面取得了很大进展,但不具备一种对视觉输入很重要的能力:在不同尺度的特征之间建立注意力。造成这一问题的原因有两方面:
    (1)各层的输入嵌入是等尺度的,没有跨尺度特征
    (2)一些vision transformers牺牲了嵌入的小尺度特征,以降低自我注意模块的成本

  • 为了弥补这一缺陷,本文提出了跨尺度嵌入层(CEL)和长短距离注意(LSDA)。
    CEL将每个嵌入与不同尺度的多个patch混合在一起,为模型提供了跨尺度嵌入。
    LSDA将自我注意模块分成短距离和长距离两个模块,既降低了成本,又保留了小尺度和大尺度的嵌入特征。通过这两个设计实现跨尺度的关注。

  • 此外,本文还提出了vision transformer的动态位置偏差,使流行的相对位置偏差适用于可变尺寸的图像。
    在这些模块的基础上构建了视觉架构CrossFormer。实验表明,CrossFormer在几个典型的视觉任务,特别是目标检测和分割方面优于其他转换器。


2.1 基本介绍

Transformer在NLP上取得了巨大成功,得益于它的自我注意模块,Transformer天生就具有建立远程依赖的能力,这对许多视觉任务也很重要。因此,已经进行了大量的研究来探索基于transformer的视觉体系结构。

transformers需要一系列嵌入作为输入。为了使其适应视觉任务,大多数现有的vision transformers通过将图像分割成相等大小的块来产生嵌入。例如,一幅224×224的图像可以被分割成大小为4×4的56×56块,然后这些块通过线性层投影成为嵌入序列。在transformer内部,自我关注模块可以在任何两个嵌入之间建立依赖关系。这样的成本对于视觉输入来说太大了,因为它的嵌入序列比NLP的嵌入序列要长得多。因此,最近提出的视觉转换器开发了多种替代品,以更低的成本近似香草模型(vanilla)的自我注意模块。

虽然上述工作取得了一定的进展,但现有的vision transformers仍然存在一个制约其性能的问题–未能在不同尺度的特征之间建立关注度,而这种能力对于视觉任务来说是非常重要的。例如,一幅图像通常包含许多不同尺度的对象,建立它们之间的关系需要跨尺度的注意机制。此外,一些任务,如实例分割,需要大规模(粗粒度)特征和小规模(细粒度)特征之间的交互。现有的vision transformers无法处理这些情况的原因有两个:(1)嵌入序列是由大小相等的块生成的,因此同一层中的嵌入只具有单一尺度的特征。(2)在自我注意模块内部,相邻嵌入的键/值经常被合并,以降低成本。因此,即使嵌入同时具有小尺度和大尺度特征,合并操作也会丢失每个单个嵌入的小尺度(细粒度)特征,从而使跨尺度注意力失效。

为了解决这个问题,我们共同设计了嵌入层和自我注意模块如下:(1)跨尺度嵌入层(CEL)-采用了金字塔结构,这自然会将模型分成多个阶段。CEL出现在每个阶段的开始处。它接收上一阶段的输出(或图像)作为输入,采样具有不同尺度(如4×4、8×8等)的多个核的patch。然后,每个嵌入都是通过投影和连接这些patch来构建的,而不是只使用一个单一比例的。(2)长短距离注意(LSDA)-提出了一种替代原始的香草模型自我注意的方法,但为了保留小尺度特征,嵌入(以及它们的键/值)不会合并。相反,我们将自我注意模块分为短距离注意(SDA)和长距离注意(LDA)。SDA建立相邻嵌入之间的依赖关系,而LDA负责远离彼此的嵌入之间的依赖关系。LSDA还降低了自我注意模块的成本,但与其他模块不同的是,LSDA既不损害小规模的特征,也不损害大规模的特征,因此可以关注跨尺度的交互。

此外,相对位置偏差(RPB)是vision transformer的一种有效位置表征。然而,它仅适用于输入图像/组大小固定的情况,这不适用于像物体检测这样的多任务。为了使算法更加灵活,我们引入了动态位置偏置(DPB)训练模块,它接受两个嵌入的距离作为输入,并输出它们的位置偏差。该模块在训练阶段进行了端到端的优化,代价可以忽略不计,但使RPB适用于不同的图像/组大小。

我们建议的每个模块都可以用大约十行代码来实现。在此基础上,我们构造了四种大小不一的多功能视觉转换器CrossFormer。在四个典型的视觉任务(即图像分类、对象检测和实例/语义分割)上的实验表明,CrossFormers在所有这些任务上都优于以往的视觉转换器,特别是密集预测任务(对象检测和实例/语义分割)。我们认为这是因为图像分类只关注一个对象和大尺度特征,而密集预测任务更多地依赖于跨尺度关注。


2.2 背景


  • Vision Transformers

受自然语言处理的transformers的启发,研究人员为视觉任务设计了vision transformer,以利用其巨大的注意机制。特别是ViT和DeiT,将原始transformer转移到视觉任务,实现了令人印象深刻的准确性。后来,PVT、HVT、Swin等将金字塔结构引入变压器,大大减少了模型后续层的patch数量。transformer还被扩展到其他任务,如对象检测和分割。


  • Self-attention及其变体

作为transformers的核心,自我注意模块的计算和存储开销为O(N2)O(N^2)O(N2),其中N为嵌入序列的长度。虽然这样的成本对于小型图像分类是可以接受的,但对于具有大图像的模型就不太好了。为了解决这个问题,Swin限制了对局部区域的注意,放弃了远程依赖。PVT和Twin使相邻嵌入共享相同的键/值,以降低成本。同样,其他vision transformer也采用分而治之的方法,以较低的成本近似普通的自我注意模块。


  • Position representations(位置表示)

transformer是组合不变的,也就是说,打乱输入嵌入不会改变transformer的输出。然而,嵌入的位置也包含重要信息。为了使该模型意识到这一点,提出了许多不同的嵌入位置表示,其中相对位置偏差(RPB)就是其中之一。对于RPB,每对嵌入都会在它们的注意力上添加一个偏差,这表示它们之间的相对距离。在以前的工作中,RPB被证明比其他位置表征对视觉任务更有效。


2.3 本文模型

图1


图1
CrossFormer的整体架构如图1所示。采用了金字塔结构,这自然地将模型分为四个阶段。每个阶段由一个跨尺度嵌入层(CEL)和几个CrossFormer block组成。CEL接收上一阶段的输出(或图像)作为输入,并生成跨尺度嵌入。在这个过程中,CEL(第一阶段除外)将金字塔结构的嵌入次数减少到四分之一,而将其维数增加了一倍。然后,在CEL之后放置几个CrossFormer块(包含LSDA和DPB)。在特定任务的最后阶段之后,紧随其后的是专门的head函数做分类。【LN指LayerNorm正则化】

(博主推荐:为什么要用LN不用BN)


2.3.1 Cross-Scale Embedding Layer(CEL)

图2


图2

跨尺度嵌入层用于生成每个阶段的输入嵌入。如图2所示,以第一个CEL为例,它位于Stage-1之前。它接收一幅图像作为输入,使用四个不同大小的内核对patch进行采样。四个内核的步长保持相同,以便它们生成相同数量的嵌入。正如我们在图2中看到的,每四个相应的patch具有相同的中心但不同的比例。这四个patch将被投影并连接为一个嵌入。在实际应用中,采样和投影过程可以通过四层卷积来实现。

对于跨尺度嵌入,一个问题是如何设置每个尺度的投影尺寸。考虑到较大的核更容易导致较大的计算量,我们对较大的核使用较低的维数,而对较小的核使用较高的维数。图2在其子表中提供了具体的分配规则,并给出了一个128维的示例。与平均分配维数相比,我们的方案节省了大量的计算开销,但不会明显影响模型的性能。其他阶段中的跨比例嵌入层的工作方式与此类似。如图1所示,阶段2/3/4中的CEL使用两个内核(2×2和4×4)。步长设置为2×2,以将嵌入次数减少到四分之一(相较于步长为1x1来说)。


2.3.2 CrossFormer Block

每个CrossFormer模块由短距离注意(SDA)或长距离注意(LDA)模块和多层感知器(MLP)组成。特别是,如图1(b)所示,SDA和LDA交替出现在不同的块中,动态位置偏置(DPB)在SDA和LDA中都适用于嵌入的位置表示。此外,在块中使用残差连接。


2.3.2.1长短距离注意力机制 (LSDA)

图3


图3

我们将自我注意模块分为两部分:短距离注意(SDA)和长距离注意(LDA)。对于SDA,每个G×G相邻嵌入被分组在一起。图3(a)给出了当G=3时的例子。对于输入大小为S×S的LDA,以固定间隔I对嵌入进行采样。例如,在图3(b)(I=3)中,所有具有红边的嵌入属于一组,而具有黄色边框的嵌入属于另一组。LDA的组高度/宽度计算为G=S/I,在本例中为G=3。在对嵌入进行分组后,SDA和LDA都在每个组中使用了普通的自我注意模块。结果,自我注意模块的存储和计算成本从O(S4)O(S^4)O(S4)降低到O(S2G2)O(S^2 G^2)O(S2G2)

在图3(b)中,我们绘制了两个嵌入的组件patch。由此可见,两个嵌入体的小比例patch是不相邻的,没有大比例patch的帮助很难判断它们之间的关系。因此,如果这两个嵌入仅由小规模的patch构建,将很难在它们之间建立依赖关系。相反,相邻的大型patch提供了足够的上下文来链接这两个嵌入。因此,在大规模patch的引导下,远程跨尺度的关注变得更容易、更有意义。


2.3.2.2 Dynamic Position Bias(DPB)

相对位置偏差(Relative Position Bias,RPB)通过增加嵌入对象注意力的偏差来表示嵌入对象的相对位置。正式地说,LSDA与RPB的注意力图变成了:
Attention=Softmax(QKT/d+B)VAttention = Softmax(QK^T/\sqrt d+B)VAttention=Softmax(QKT/d

+B)V
其中Q、K、V∈RG2×DQ、K、V\in R^{G^2×D}QKVRG2×D分别表示自我注意模块中的query、key、value,d\sqrt dd

是常量归一化子。B∈RG2×G2B∈R^{G^2×G^2}BRG2×G2是RPB矩阵。在前人的工作中,Bi,j=B^∆xij,∆yijB_{i,j}=\hat B_{∆x_{ij},∆y_{ij}}Bij=B^xij,yij,其中B^\hat BB^是一个固定大小的矩阵,(∆xij,∆yij)(∆x_{ij},∆y_{ij})(xijyij)是第i个和第j个嵌入之间的坐标距离。很明显,在(∆xij,∆yij)(∆x_{ij},∆y_{ij})(xijyij)超过B^\hat BB^的大小的情况下,图像/组的大小受到限制(也就是说,图像/组的大小不能超过B^\hat BB^的大小)。相反,我们提出了一种称为DPB的基于mlp的模块来动态地产生相对位置偏差,即
Bi,j=DPB(∆xij,∆yij)B_{i,j}=DPB(∆x_{ij},∆y_{ij})Bi,j=DPB(xijyij)
DPB的结构如图3(c)所示。其非线性变换由三个带有层归一化和ReLU的完全连通的层组成。DPB的输入维度为2,即(∆xij,∆yij)(∆x_{ij},∆y_{ij})(xijyij),中间层的维度设置为D/4,其中D是嵌入的维度。DPB是一个与整个模型一起优化的可培训模块。它可以处理任何图像/组大小,而无需担心(∆xij,∆yij)(∆x_{ij},∆y_{ij})(xijyij)的界限。


2.3.2.3 Variants of CrossFormer

表1列出了CrossFormer用于图像分类的四个变体(-T、-S、-B和-L,分别代表极小、小、基础和大,对应本博客下面的部分中提到的yaml)的详细配置。为了重用预先训练的权重,用于其他任务的模型使用与分类相同的主干,除了它们可能使用不同的G和I。具体地说,除了与分类相同的配置外,我们还使用G1=G2=14、I1=16和I2=8测试检测/分割模型的前两个阶段,以适应更大的图像。具体架构载于附录(A.3)。值得注意的是,组大小(即G和I)不影响权重张量的形状,因此在ImageNet上预先训练的主干可以直接在其他任务上进行微调,即使它们使用不同的(G,I)。
表1


表1 用于图像分类的CrossFormer变体。示例输入大小为224×224。D和H分别表示多头注意模块的嵌入维数和头数。G和I分别是SDA和LDA的组大小和间隔。

2.4 实验

实验在图像分类、目标检测、实例分割和语义分割四个具有挑战性的任务上进行。为了进行公平的比较,我们尽可能保持与其他视觉转换器相同的数据增强和训练设置。竞争对手都是竞争激烈的视觉transformer,包括DeiT、PVT、T2T-ViT、TNT、CViT、Twin、Swin、NesT、CVT、TransCNN、Shuffle、BoTNet和RegionViT。(博主惊叹:全部都是2021年的新模型)


2.4.1 图像分类


  • 实验配置

分类实验是使用ImageNet数据集进行的。模型在1.28M训练图像上进行训练,并在50K验证图像上进行测试。使用与其他vision transformer相同的训练设置。特别是,我们使用AdamW优化器训练300个epoch,使用余弦衰减学习率调度器,并使用20个epoch的线性预热。batch size为1024个,拆分在8个V100 GPU上。使用0.001的初始学习率和0.05%的权重衰减率。此外,对于CrossFormer-T、CrossFormer-S、CrossFormer-B、CrossFormer-L,我们分别使用0.1、0.2、0.3、0.5的dropout。此外,类似于Swin、RandAugment、Mixup、CutMix、随机擦除和随机深度被用于数据增强。


  • 实验结果
    在这里插入图片描述

表2

结果如表2所示。正如我们可以看到的那样,CrossFormer在相似的参数和FLOPs的情况下达到了最高的准确率。特别是,与流行的DeiT、PVT和Swin相比,我们在小模型上的准确率至少高出1.2%。此外,尽管RegionViT在小型模型上与我们达到了相同的准确率(82.5%),但在大型模型上比我们低0.7%(84.0%对83.3%)。


2.4.2 目标检测和实例分割


  • 实验配置

目标检测和实例分割的实验都是使用COCO 2017数据集进行的,该数据集包含118K训练图像和5K验证图像。我们使用基于MMDetect的RetinaNet和Mask-RCNN作为对象检测或实例分割的头部。对于这两个任务,主干都使用在ImageNet上预先训练的权重进行初始化。检测/分割模型在8个V100GPU上以batch size为16进行训练,并使用初始学习率为1×10−4的adamW优化器。在前人工作的基础上,我们采用了1×训练方案,即对模型进行12个epoch的训练,对图像的短边调整到800像素。


  • 实验结果
    在这里插入图片描述

表3 Coco Val 2017上的对象检测和实例分割结果。Swin的结果取自Twin,因为Swin没有在RetinaNet和Mask-RCNN上报告结果。蓝色字体的结果排在第二位。

结果放在表3中。正如我们可以看到的那样,排在第二位的体系结构随着实验的进行而变化,也就是说,这些体系结构可能在一个任务中表现良好,但在另一个任务中表现不佳。相比之下,我们在任务(检测和分割)和两个模型大小(小的和基本的)上都优于所有其他人。此外,当扩展模型时,CrossFormer相对于其他体系结构的性能增益会增加,这表明CrossFormer具有更高的潜力。


2.4.3 语义分割


  • 实验配置

ADE20K被用作语义切分的基准。它涵盖了150个语义类别的广泛范围,包括用于训练的20K图像和用于验证的2K图像。与检测模型类似,我们用在ImageNet上预先训练的权重来初始化主干,并以基于MMS监管的语义FPN和UPerNet作为分割头。对于FPN,我们使用学习率和权重敏感度为1×10−4的AdamW优化器。模型被训练为80K迭代,batch size为16。对于UPernet,我们使用初始学习率为6×10−5,权重衰减为0.01的AdamW优化器,模型被训练为160K迭代。


  • 实验结果

结果如表4所示。与目标检测类似,CrossFormer在放大模型时表现出比其他算法更大的性能增益。例如,CrossFormer-T的IOU比TwinsSVT-B高1.4%,但CrossFormer-B的IOU比TwinsSVT-L高3.1%。此外,CrossFormer在密集预测任务(如检测和分割)上比在分类上表现出更显著的优势,这表明注意模块中的跨尺度交互对于密集预测任务比对分类更重要。
在这里插入图片描述


表4:ADE20K验证集上的语义分割结果。“MS IOU”表示可变输入大小的测试。

2.4.4 消融研究

在这里插入图片描述


表5

  • Cross-scale Embeddings vs. Single-scale Embeddings.

我们通过将所有跨尺度的嵌入层替换为单尺度的嵌入层来进行实验。单尺度嵌入意味着只有一个核(Stage1为4×4,其他Stage为2×2)用于模型中的四个CEL。表5a中的结果表明,跨尺度嵌入获得了很大的性能增益,即它比没有跨尺度嵌入的模型的准确率高0.9%。


  • LSDA vs. Other Self-attentions

比较了PVT和Swin中使用的两种自关注模块。具体地说,PVT在计算自我注意时牺牲了小范围的信息,而Swin将自我注意限制在局部区域,放弃了远程注意。如表5a所示,与PVT和Swin类自我注意机制相比,我们的准确率至少高出0.6%。结果表明,长短距离的自我注意最有利于提高模型的绩效。


  • DPB vs. Other Position Representations

我们比较了绝对位置嵌入(APE)、相对位置偏差(RPB)和DPB之间模型的参数、FLOP、吞吐量和精度,结果如表5b所示。DPB-residual表示具有残差连接的DPB。DPB和RPB均优于APE,准确率为0.4%。DPB实现了与RPB相同的精确度,但额外成本可以忽略不计,但是,正如我们在前面所描述的,它比RPB更灵活,并且适用于可变图像大小或组大小。此外,DPB中的剩余连接无助于提高模型的性能(82.5%比82.4%)。


2.5 总结

我们提出了一种基于transformer的视觉架构,称为CrossFormer。其核心设计包括跨尺度嵌入层和长短距离注意(LSDA)模块。此外,我们提出了动态位置偏差(DPB),使相对位置偏差适用于任何输入大小。实验表明,CrossFormer在几个典型的视觉任务上取得了比其他vision transformer更好的性能。特别是CrossFormer算法在检测和分割方面有了较大幅度的提高,这表明跨尺度嵌入和LSDA对于密集预测视觉任务尤为重要。


3.代码复现


3.1下载之初


  • 这是从github上刚下载后的目录树

configs/: 内部包含四个yaml文件,在运行图像分类时可以使用,用来运行不同大小的网络
data/: 内部文件用于加载数据集
detection/: 目标检测相关代码
figures/: README文档用到的图片
models/: 图像分类的模型代码
segmentation/: 图像分割相关代码
其他py文件: 图像分类相关代码

文件目录


3.2环境搭建


3.2.0 下载数据集

数据集是imagenet,可在kaggle上下载
修改文件夹的结构和名称,该项目需要的数据集目录树为

images/train/n01443537/ # 每一个类别一个文件夹images/xxx.JPEGxxx.JPEGn01629819/images/xxx.JPEGxxx.JPEGval/n01443537/ # 每一个类别一个文件夹images/xxx.JPEGxxx.JPEGn01629819/images/xxx.JPEGxxx.JPEG

3.2.1图像分类

在CrossFormer文件夹(即最外层文件夹)下运行。


3.2.1.1 环境配置

  • win10和linux都一样,以下以win10为例,(linux只需要将命令中的python换成python3,pip换成pip3即可),之后不建议使用win10运行,目标检测和图像分割用到的mmcv-full等package没有win10对应的版本
  • 注意需要GPU和cuda环境
  • 安装

pip install numpy scipy Pillow pyyaml yacs torch==1.7.0 torchvision==0.8.1 timm==0.3.2

3.2.1.2 修改代码

  • 卑微博主没有集群,无法使用torch的分布式训练技术,因此需要将所有torch.distributed相关的代码删除。
  • 如果某些位置无法删除,将dist.get_rank()(进程编号/优先级)改成0,dist.get_world_size()(执行脚本的进程数)换成1。
  • 随即运行,如果出现问题是dist相关的,说明没有删干净,将这行删掉或按照上一点修改。

3.2.1.3 运行代码

python main.py --cfg configs/tiny_patch4_group7_224.yaml --batch-size 128 --data-path path_to_imagenet --output ./output

可见成功的结果如下
在这里插入图片描述


3.2.2目标检测

在detection文件夹下运行


3.2.2.1 环境配置

  • 该项目所使用的mmcv-full等package,在win10环境下博主找了两天没找到本项目对应的版本,不同的版本又无法运行,网上的各种教程也都不好用,所以非常不建议在win10下运行本项目。以下均在ubuntu20.04下运行。
  • 安装package依赖

pip3 install mmcv-full==1.2.7 mmdet==2.8.0

问题一:安装报错 error: command ‘:/usr/local/cuda/bin/nvcc’ failed with exit status 1

解决方式:仔细观察发现nvcc的绝对路径前加了个“:”,说明是环境变量出了问题
修改~/.bashrc文件:将export CUDA_HOME=$CUDA_HOME:/usr/local/cuda修改为
export CUDA_HOME=/usr/local/cuda
随即就能安装啦!



问题二:安装mmdet时各种爆红

解决方式:无需解决,爆红的原因是缺少mmpycocotools等依赖,爆红之后会自动安装



  • 将之前图像分类训练好的模型保存下来(建议存到detection目录下,比较好找)

import torch
ckpt = torch.load("crossformer-s.pth") ## load classification checkpoint
torch.save(ckpt["model"], "backbone-crossformer-s.pth") ## only model weights are needed

  • 下载数据集
    去COCO数据集官网下载,需要下载train、val、annotation放在某一个目录中(下一小点需要填写这个目录)值得注意的是,数据集大小为40G+,劝退。
  • 修改config文件,将detection\configs\_base_\datasets\coco_detection.pydetection\configs\_base_\datasets\coco_instance.py第二行的data_root的值修改为自己的coco数据集所在目录
  • 给Crossformer_S注册mmdet的BACKBONE
    • 找到mmdet安装包的源目录,博主的在~/.local/lib/python3.8/site-packages/mmdet
    • 将本项目代码中的model/crossformer_backbone.pydetection/crossformer_factory.py复制到~/.local/lib/python3.8/site-packages/mmdet/model/backbones目录下
    • 修改~/.local/lib/python3.8/site-packages/mmdet/model/backbones/crossformer_factory.py的前十一行

    from ..builder import BACKBONES
    from .crossformer_backbone import CrossFormer# 删掉多余的行,保证“@BACKBONES.register_module()”之前只有这两行

    • 修改~/.local/lib/python3.8/site-packages/mmdet/model/backbones/__init__.py

    # 新增一行
    from .crossformer_factory import CrossFormer_S, CrossFormer_B
    # 在__all__里加入'CrossFormer_S', 'CrossFormer_B'
    __all__ = ['源码前面的东西......','CrossFormer_S', 'CrossFormer_B']


3.2.2.2 修改代码

  • 和上一节的图像分割一样也用到了分布式训练技术,这里将11行:

from mmcv.runner import get_dist_info, init_dist

注释或删掉


  • 100行左右的

if args.launcher == 'none':distributed = Falseelse:distributed = Trueinit_dist(args.launcher, **cfg.dist_params)# re-set gpu_ids with distributed training mode_, world_size = get_dist_info()cfg.gpu_ids = range(world_size)

修改为

distributed = False

3.2.2.3 运行代码

  • 训练: 修改dist_train.sh文件

# 将python xxxxxx。。。那条命令改成
python3 train.py $CONFIG --cfg-options model.pretrained=$PRETRAIN --work-dir ./det-output --launcher pytorch ${@:4}
# 博主这里是选择直接在py文件的parser里添加了default参数,可以在运行train.py文件时没这么长的参数要写。

  • 如果显存炸了的话,前往detection/configs/_base_/datasets将里面的两个文件中的samples_per_gpuworkers_per_gpu改成1。如果还不行,可以尝试将图像检测项目中的batch_size调小,重新训练模型再回来尝试,但不一定能成功。如果还不行,建议购买更好的显卡。如果还不行,建议放弃项目。

  • 测试:直接运行指令

python3 test.py configs/mask_rcnn_crossformer_s_fpn_1x_coco.py det-output/epoch_12.pth --eval bbox

4. 代码解析

待更新


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • 计算成像的原理与应用研究
    本文探讨了计算成像的原理与应用研究。首先介绍了小孔成像实验和软件方面的相关内容。随后从傅里叶光学的角度简单谈了成像的过程。成像是观测样品分布的一种方法,通过成像系统接收光的强度来呈现图像。视网膜作为接收端接收到的图像实际上是由像元组成的矩阵,每个元素代表相应位置像元接收光的强度。大脑通过对图像的分析,得出一系列信息,如识别物体、判断距离等。计算成像是一种采集记录系统,通过处理数据得到样品分布与像的对应关系,用于后续问题的分析。 ... [详细]
  • 本文介绍了Linux Shell中括号和整数扩展的使用方法,包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行,括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则,可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
author-avatar
你是我的小二郎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有