加入收藏 | 设为首页 | 会员中心 | 我要投稿 葫芦岛站长网 (https://www.0429zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

Transformer跨界超越CNN

发布时间:2021-04-20 16:02:10 所属栏目:动态 来源:互联网
导读:的盆友想必就会问,用Transformer做CV任务,这个想法早已有之,也没见对CNN的地位有什么动摇,Swin Transformer又有何不同? 这就涉及到Transformer的CV应用存在的两个主要问题: 首先,基于Transformer的模型,token的长度是固定的。这对于NLP里的单词当然

的盆友想必就会问,用Transformer做CV任务,这个想法早已有之,也没见对CNN的地位有什么动摇,Swin Transformer又有何不同?

这就涉及到Transformer的CV应用存在的两个主要问题:

  • 首先,基于Transformer的模型,token的长度是固定的。这对于NLP里的单词当然没有什么问题,但到了CV领域,视觉元素的比例各异,比如同一个场景中会存在大小不同的物体。
  • 其次,图像中的像素与文本中的文字相比,对分辨率的要求更高。而常规的自注意力的计算复杂度,是图像大小的平方,这就导致其在像素级别进行密集预测时会出现问题。

而Swin Transformer,就旨在解决这些NLP和CV之间差异带来的问题。

通过移动窗口计算的分层Transformer第二板斧,也就是基于移动窗口的自注意力

如上图所示,在l层,采用常规的窗口分区方案,在每个窗口内计算自注意力。

在下一层l+1,窗口分区会被移动,产生新的窗口。新窗口中的自注意力计算跨越了l层中窗口的边界,提供了新的关联信息。体而言,Swin Transformer的整体架构是酱婶的:

  • 将RGB图像分割成不重叠的图像块(token);
  • 应用MLP(多层感知机)将原始特征转化为任意维度;
  • 应用多个修改了自注意力计算的Swin Transformer块,并保持token的数量;
  • 下采样层:通过合并2×2窗口中的相邻图像块来减少token的数量,并将特征深度增加一倍。

实验结果

研究人员让Swin Transformer分别挑战了ImageNet-1K、COCO和ADE20K上的图像分类、对象检测和语义分割任务。

其中,用于预训练的是ImageNet-22K数据集,ImageNet-1K数据集则用于微调。

结果显示,在COCO的分割和检测任务,以及ADE20K的语义分割任务上,Swin Transformer都超越了CNN,达到了SOTA。

而在ImageNet-1K的分类任务上,虽然没能超越EfficientNet

(编辑:葫芦岛站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!