大家好,关于将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
此前,微软SwinTransformer介绍了CNN的滑动窗口等特性,并获得下游任务Marr奖。
后来Meta AI的ConvNeXT在ViT上使用了大量的技术,对ResNet进行了神奇的修改,实现了超性能。
现在一个新的Backbone——VAN(Visual Attention Network,视觉注意网络)再次引起了学术界的关注。
因为新模型再次荣登三大视觉任务榜首,所以与上面两个进行了比较。
VAN号称同时吸收了CNN和ViT的优点,简单高效。其精度更高,参数和计算量更小。
VAN来自清华大学胡世民团队。他们提出,一个标准的大核卷积可以分为三个部分:
深度卷积(DW-Conv)、深度膨胀卷积(DW-D-Conv)和11卷积(11 Conv)。
更重要的是,增加一步逐元素乘法可以达到类似注意力机制的效果。该团队将新的卷积模块命名为LKA(Large Kernel Attention)。
论文最后还提到,目前的VAN只是一个直观的原始版本,还没有经过仔细打磨,这意味着未来仍有很大的改进潜力。
(代码已开源,地址在文末)
拆解大核卷积能算注意力
注意力机制可以理解为一种自适应选择过程,可以根据输入识别关键特征并自动忽略噪声。
关键步骤是学习输入数据的远程依赖性并生成注意力图。
生成注意力图有两种常见的方法。
第一个是源自NLP的self-attention机制,但是用在视觉上还是存在一些缺点。例如,将图像转换为一维序列将忽略其二维结构。
第二种是视觉大核卷积方法,但计算开销太高。
为了克服上述问题,团队提出的LKA方法将大核卷积拆解为三部分。
假设扩展间隔为d,一个K x K卷积可以分解为一个K/d x K/d深度扩展卷积、一个(2d 1) (2d 1)深度卷积核和一个1 x 1 point-wise卷积。
c为通道
这样做可以节省计算开销,同时捕获长距离依赖关系,并且可以进一步生成注意力图。
LKA方法不仅结合了卷积和自注意力的优点,还获得了额外的通道适应性。
在CNN中,LKA方法类似于MobileNet的两部分拆解方法,增加的深度膨胀卷积可以捕获长距离依赖关系。
与ViT相比,它解决了self-attention的二次复杂度对于计算高分辨率图像来说过于昂贵的问题。
MLP架构中的gMLP也引入了注意力机制,但它只能处理固定分辨率的图像,并且只关注全局特征,忽略图像的局部结构。
理论上,LKA方法在克服上述缺点的同时,结合了各方的优点。
那么,实际效果如何呢?
新Backbone刷榜三大任务
根据LKA方法设计的新型骨干网络VAN延续了经典的四阶段设计。具体配置如下。
各阶段的结构如图所示,其中下采样率由步长控制,CFF代表卷积前馈网络(CNN)
计算复杂度可以通过假设输入和输出具有相同的宽度、高度和通道数来计算。
当卷积核大小(K)为21时,扩展间隔(d)为3可以最小化参数数量,这是默认配置。
该团队认为这种配置非常适合提取全局特征和局部特征。
最终,不同尺寸的VAN在ImageNet上的准确率超过了所有类型的CNN、ViT和MLP。
在COCO 2017目标检测任务中,VAN也率先将各种检测方法应用到了Backbone上。
ADE20K语义分割任务也是如此。
而且正如上文所说,VAN 在没有经过仔细打磨的情况下,已经完成了榜单上的三大任务,未来还有改进的空间。
对于未来的改进方向,团队表示他们可能会尝试更大的卷积核,引入Res2Net的多尺度结构,或者Inception中的多分支结构。
另外,VAN是否可以用于图像自监督学习和迁移学习,甚至是否可以用于NLP还有待后续探索。
该论文来自清华大学计算机系胡世民团队。
胡世民教授是清华大学极图框架团队的带头人。极图框架是中国高校首个开源的深度学习框架。
第一位博士生郭孟浩目前就读于清华大学计算机系,也是规划团队成员之一。
本文代码已开源,提供Pytorch版本和图规划框架两个版本。
该团队此前发表了一篇关于视觉注意力的评论,该评论在arXiv 上引起了轰动。
随附的GitHub 存储库Awesome-Vision-Attentions 是大量视觉注意力论文的集合,也有1,200 颗星。
最后说一句八卦,莫非团队研究了各种视觉注意机制后想出了这个新想法?
也是666。
论文地址:https://arxiv.org/abs/2202.09741
GitHub地址:https://github.com/Visual-Attention-Network
Awesome-Vision-Attentionshttps://github.com/MenghaoGuo/Awesome-Vision-Attentions
– 超过-
原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/108459.html
用户评论
此生一诺
太牛了!这个想法简直颠覆传统,一下子就把复杂的问题拆解开了,还能提高效率,这种三步骤分解的方法确实很巧妙。期待看到更多的应用场景。
有15位网友表示赞同!
不忘初心
关注这帮学者的很久了,每次都推出让人耳目一新的成果!这次新视觉Backbone在视觉任务上表现更胜一筹,真是厉害!
有16位网友表示赞同!
淡淡の清香
感觉大厂的论文越来越有意思了,以前只听闻把模型搞小了就能提升效率,没想到还能把大核卷积拆开这么玩,太酷了!清华胡事民团队真的带给咱们不少惊喜!
有13位网友表示赞同!
日久见人心
这个“三步”方法是不是理论上可以应用到其他领域?像自然语言处理也能用这招吗? 非常期待看到后续的研究成果。
有12位网友表示赞同!
孤独症
我一直觉得大核卷积训练速度太慢了,这次把大核卷积拆成三部好像解决了这个问题,而且效果还更好了!真是让人叹服!希望能尽快开源代码,让我也试试它的威力吧。
有10位网友表示赞同!
玻璃渣子
看完论文感觉还是有点绕,但这个想法真的很棒,如果能将复杂的视觉问题拆解到如此精细的程度,未来在图像识别、目标检测等领域将会得到更大的突破!
有11位网友表示赞同!
失心疯i
三个步骤虽然听起来简单,但关键在于如何在每一步都达到最佳的效果。我觉得论文还缺少一些实践细节和解释,让我很难理解其中的核心思想。
有19位网友表示赞同!
七夏i
刷榜不是最终目的啊!希望清华胡事民团队能将这项技术应用到实际问题中去,真正解决人们遇到的困难!
有16位网友表示赞同!
墨城烟柳
这个新视觉Backbone是不是就针对某些特定的任务场景进行优化?对其他类型的视觉任务效果会不会差些呢? 这点还需要进一步的验证。
有17位网友表示赞同!
纯情小火鸡
感觉这个“三步”方法在硬件方面也会带来一些挑战,特别是在大规模模型训练的时候。
有5位网友表示赞同!
空谷幽兰
看到这些研究让我对深度学习技术的潜力更加乐观!我相信未来几年会有更多令人惊叹的成果诞生!
有10位网友表示赞同!
花菲
论文里的实验结果看起来相当诱人,但现实中是否能保持这样的效果,还需要更多地实践验证和应用场景测试。
有7位网友表示赞同!
娇眉恨
我一直觉得视觉任务的难度比较大,这次这个新 Backbone 的出现可能会带来新的突破,希望它能引领整个行业的进步!
有7位网友表示赞同!
灵魂摆渡人
我觉得清华胡事民团队做科研的态度值得学习,每次都是走在学术前沿,勇于尝试新的思路和方法。
有11位网友表示赞同!
初阳
这篇文章写的太深奥了,我作为一个小白根本理解不了里面的技术含量,希望未来能有更通俗易懂的解读文章。
有6位网友表示赞同!
孤岛晴空
这个新视觉Backbone是不是以后所有模型的基础架构? 或者说这只是个特例?
有6位网友表示赞同!
孤廖
感觉大核卷积拆成三步是一个很好的方向,但这只是第一步,后面还有很多的细节和挑战需要解决。
有10位网友表示赞同!
聽風
对大核卷积的理解我还不够深入,看来还需要好好学习一下。期待看到更多关于新视觉Backbone的解读和应用案例!
有9位网友表示赞同!