极市导读
【资料图】
本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录1 Conv2Former:Transformer 风格的卷积网络视觉基线模型1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果
论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文地址:https://arxiv.org/pdf/2211.11943.pdf
1.1.1 背景和动机以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。
自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。
为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?
比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。
从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt
再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。
精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互
再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。
又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51
到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。
1.1.2 卷积调制模块本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为
式中,
为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。
在卷积调制模块中, 不通过2式计算相似度得分矩阵
式中,
优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。
ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。
权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。
1.1.3 Conv2Former 整体架构如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。
当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。
ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。
ImageNet-1K 实验设置
数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。
优化器: AdamW, lr
ImageNet-22K 实验设置
数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。
如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。
如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。
如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。
消融实验1:卷积核大小
如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。
消融实验2:不同融合策略的影响
如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在
直筒架构实验结果
遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。
目标检测实验结果
如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。
语义分割实验结果
如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。
总结本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。
参考
^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载
极市干货
技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~-
每日热点:超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former↑点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率
-
创始股东中水渔业欲清仓 华农保险怎么了?时隔三年,中水渔业拟再度出让华农保险股权。近日,中水渔业公告称,拟与一致行动人联合出让所持华农保险合计11%股权,挂牌底价为1 98亿元。本
-
上海三毛: 上海三毛企业(集团)股份有限公司关于确认其他非流动金融资产公允价值变动损失的公告上海三毛:上海三毛企业(集团)股份有限公司关于确认其他非流动金融资产公允价值变动损失的公告
-
全球今头条!商汤科技领跑2022年AI软件市场,多个领域蝉联市场第一近日,IDC发布《2022上半年人工智能及软件市场追踪报告》,报告显示,商汤科技位居中国AI软件市场第一,成为市场领导者。同时,在关键的计算机
-
环球快看点丨德美化工12月29日快速反弹以下是德美化工在北京时间12月29日13:04分盘口异动快照:12月29日,德美化工盘中快速反弹,5分钟内涨幅超过2%,截至13点04分,报7 58元,成交1
-
洁特生物: 关于可转债投资者适当性要求的风险提示性公告证券代码:688026 证券简称:洁特生物 公告编号:2022-086转债代码:118010 转债简称:洁特
-
中国民航局:取消入境航班75%客座率限制 2023年1月8日起实施 环球观速讯人民网北京12月28日电(记者杨虞波罗)今日,中国民航局发布《关于恢复国际客运航班工作方案的通知》,制定恢复国际客运航班工作方案,自2023
-
鲁抗医药最新公告:822.69万份股票期权拟行权 微头条鲁抗医药公告,公司2019年股票期权激励计划第二个行权期行权条件成就,股票期权拟行权数量为822 69万份。截至2022年9月15日收盘,鲁抗医药(600789
-
环球简讯:商城县发改委组织召开全县乡镇(处)政务诚信工作专题培训近期,商城县发改委组织人员到全县各乡镇(处)开展政务诚信工作专题培训。据了解,此项专题培训主要针对乡镇(处)党政领导、机关内设站所负
-
2023五月天跨年线上演唱会几点开始?在哪看直播? 焦点关注五月天2023线上跨年演唱会-MAYDAYFLYTO2023[诺亚方舟十周年特别版]时间:2022 12 31,22:30入场,22:45准时开唱谁说五月
-
环球热文:华光环能:融资净偿还103.16万元,融资余额6530.65万元(12-27)2022年12月27日华光环能融资净偿还103 16万元,融资余额6530 65万元
-
邯郸太行五指山景区滑雪场开放了吗?开放了。太行五指山激情冰雪季12月24日-2023年1月20日景区门票:35元 人滑雪门票:138元 人购票入口:点击进入活动说明1、雪场开放区域:中级道
-
女人月经不调吃什么调理 月经不调女性试试这些食疗法月经不调是常见的妇科疾病之一,导致女性月经不调的原因有很多,那么月经不调吃什么好?月经不调吃什么调理?当归延胡汤材料:当归,延胡索,生姜
-
怡和嘉业:12月26日获融资买入768.00万元-世界快播报同花顺数据中心显示,怡和嘉业12月26日获融资买入768 00万元,占当日买入金额的8 73%,当前融资余额1 12亿元,占流通市值的3 2%,低于历史10%
-
【天天聚看点】明星发胖有多丑?昔日女神颜值似路人,发腮发福老态尽显如今的娱乐圈对于衡量美女的标准,一定少不了一个“瘦”字。不胖的女生不一定是美女,但是不瘦的女生一定不能在这个圈子里站住脚跟。不知道...
-
宏达高科(002144.SZ):参股公司富特科技创业板IPO过会 快讯格隆汇12月26日丨宏达高科公布,根据深交所创业板发行上市审核信息公开网站的《创业板上市委2022年第88次审议会议结果公告》,经深交所创业板
-
解放军在台岛周边演练:回应美台挑衅东部战区新闻发言人施毅陆军大校表示,12月25日,中国人民解放军东部战区位台岛周边海空域组织诸军兵种联合战备警巡和联合火力打击演练。这是
-
“沉默性缺氧”引发关注 家用血氧仪已“一货难求”原标题:“沉默性缺氧”引发关注家用血氧仪已“一货难求”血氧仪与制氧机热卖过火了吗?近日,关于老年人阳了可能存在症状比较隐匿的情况,...
-
不能辜负乡亲们的信任入村工作头一年,我刚满23岁。岁数小、脸皮薄、没经验,一开始,村民们都不看好,觉得我是来“镀金”的,在村里待不了多长时间。不承想,这...
-
【热闻】李玟与年轻型男亲密搂抱不避嫌,穿吊带秀S型曲线,不见富豪老公12月23日下午,李玟在社交平台上更新了一则动态,晒出她与好友聚会的照片,称她和好朋友们一起共度了很快乐的时光,文末她还艾特了一位叫孙侨
-
第七大道(00797.HK)拟9300万元出售杭州盛锋网络科技全部股权格隆汇12月23日丨第七大道公告,于2022年12月23日,上海辛辣(为公司间接全资附属公司)与买方安徽游昕网络科技有限公司订立出售协议,据此,上
-
当前要闻:本周盘点(12.19-12.23):南方航空周跌1.16%,主力资金合计净流出2.27亿元截至2022年12月23日收盘,南方航空(600029)报收于7 66元,较上周的7 75元下跌1 16%。本周,南方航空12月19日盘中最高价报7 81元。1
-
美国GDP上修令华尔街措手不及?加息预期致股债双杀场景再现在圣诞假期前市场交投略显清淡的一周里,美国经济数据成为了消息面上为数不多的亮点。而周四,意外强劲的美国经济数据表现,再度令华尔街多头
-
麦迪科技: 麦迪科技第三届董事会第三十七次会议决议公告证券代码:603990 证券简称:麦迪科技 公告编号:2022-107 苏州麦迪斯顿医疗科技股份有限公司
-
环球微头条丨光洋股份(002708)12月22日主力资金净卖出306.86万元截至2022年12月22日收盘,光洋股份(002708)报收于5 75元,下跌3 85%,换手率1 31%,成交量5 28万手,成交额3083 95万元。
-
2023-2028年中国体检行业市场全景评估及投资战略规划研究报告 每日观察本报告由华经产业研究院出品,对中国体检行业的发展现状、竞争格局及市场供需形势进行了具体分析,并从行业的政策环境、经济环境、社会环境及
-
【世界时快讯】重庆路桥: 重庆路桥股份有限公司关于股东权益变动的提示性公告证券代码:600106 股票简称:重庆路桥 公告编号:2022-053 重庆路桥股份有限公司
-
2022凤凰网时尚盛典线上举行 携手年度影响力人物致敬时代精神林允、毛晓彤、乔欣、魏大勋、周雨彤五位演员凭借各自在表演及时尚领域的多重突破和尝试,获颁年度时尚艺人奖项。肩立小浣熊的呼兰、怀抱滑雪
-
焦点讯息:阿拉丁(688179)12月20日主力资金净卖出1321.89万元截至2022年12月20日收盘,阿拉丁(688179)报收于36 3元,下跌2 81%,换手率2 46%,成交量1 81万手,成交额6628 4万元。
-
【手慢无】394元秒三星“腰子”耳机 天天热消息文|闻?总编|唐迪三星GalaxyBudsLive开放式主动降噪真无线蓝牙耳机采用了全新的蚕豆造型设计,造型圆润可爱,也被大家昵称“腰子造型”。自大上