将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务

在视觉任务上,CNN、ViT各有各的优势和劣势。于是,以经典Backbone为基础、细节上相互借鉴,成了最近一个热门研究方向。前有微软SwinTransform

大家好,关于将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!

此前,微软SwinTransformer介绍了CNN的滑动窗口等特性,并获得下游任务Marr奖。

后来Meta AI的ConvNeXT在ViT上使用了大量的技术,对ResNet进行了神奇的修改,实现了超性能。

现在一个新的Backbone——VAN(Visual Attention Network,视觉注意网络)再次引起了学术界的关注。

因为新模型再次荣登三大视觉任务榜首,所以与上面两个进行了比较。

VAN号称同时吸收了CNN和ViT的优点,简单高效。其精度更高,参数和计算量更小。

VAN来自清华大学胡世民团队。他们提出,一个标准的大核卷积可以分为三个部分:

深度卷积(DW-Conv)、深度膨胀卷积(DW-D-Conv)和11卷积(11 Conv)。

更重要的是,增加一步逐元素乘法可以达到类似注意力机制的效果。该团队将新的卷积模块命名为LKA(Large Kernel Attention)。

论文最后还提到,目前的VAN只是一个直观的原始版本,还没有经过仔细打磨,这意味着未来仍有很大的改进潜力。

(代码已开源,地址在文末)

拆解大核卷积能算注意力

注意力机制可以理解为一种自适应选择过程,可以根据输入识别关键特征并自动忽略噪声。

关键步骤是学习输入数据的远程依赖性并生成注意力图。

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务

生成注意力图有两种常见的方法。

第一个是源自NLP的self-attention机制,但是用在视觉上还是存在一些缺点。例如,将图像转换为一维序列将忽略其二维结构。

第二种是视觉大核卷积方法,但计算开销太高。

为了克服上述问题,团队提出的LKA方法将大核卷积拆解为三部分。

假设扩展间隔为d,一个K x K卷积可以分解为一个K/d x K/d深度扩展卷积、一个(2d 1) (2d 1)深度卷积核和一个1 x 1 point-wise卷积。

c为通道

这样做可以节省计算开销,同时捕获长距离依赖关系,并且可以进一步生成注意力图。

LKA方法不仅结合了卷积和自注意力的优点,还获得了额外的通道适应性。

在CNN中,LKA方法类似于MobileNet的两部分拆解方法,增加的深度膨胀卷积可以捕获长距离依赖关系。

与ViT相比,它解决了self-attention的二次复杂度对于计算高分辨率图像来说过于昂贵的问题。

MLP架构中的gMLP也引入了注意力机制,但它只能处理固定分辨率的图像,并且只关注全局特征,忽略图像的局部结构。

理论上,LKA方法在克服上述缺点的同时,结合了各方的优点。

那么,实际效果如何呢?

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务

新Backbone刷榜三大任务

根据LKA方法设计的新型骨干网络VAN延续了经典的四阶段设计。具体配置如下。

各阶段的结构如图所示,其中下采样率由步长控制,CFF代表卷积前馈网络(CNN)

计算复杂度可以通过假设输入和输出具有相同的宽度、高度和通道数来计算。

当卷积核大小(K)为21时,扩展间隔(d)为3可以最小化参数数量,这是默认配置。

该团队认为这种配置非常适合提取全局特征和局部特征。

最终,不同尺寸的VAN在ImageNet上的准确率超过了所有类型的CNN、ViT和MLP。

在COCO 2017目标检测任务中,VAN也率先将各种检测方法应用到了Backbone上。

ADE20K语义分割任务也是如此。

而且正如上文所说,VAN 在没有经过仔细打磨的情况下,已经完成了榜单上的三大任务,未来还有改进的空间。

对于未来的改进方向,团队表示他们可能会尝试更大的卷积核,引入Res2Net的多尺度结构,或者Inception中的多分支结构。

另外,VAN是否可以用于图像自监督学习和迁移学习,甚至是否可以用于NLP还有待后续探索。

该论文来自清华大学计算机系胡世民团队。

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务

胡世民教授是清华大学极图框架团队的带头人。极图框架是中国高校首个开源的深度学习框架。

第一位博士生郭孟浩目前就读于清华大学计算机系,也是规划团队成员之一。

本文代码已开源,提供Pytorch版本和图规划框架两个版本。

该团队此前发表了一篇关于视觉注意力的评论,该评论在arXiv 上引起了轰动。

随附的GitHub 存储库Awesome-Vision-Attentions 是大量视觉注意力论文的集合,也有1,200 颗星。

最后说一句八卦,莫非团队研究了各种视觉注意机制后想出了这个新想法?

也是666。

论文地址:https://arxiv.org/abs/2202.09741

GitHub地址:https://github.com/Visual-Attention-Network

Awesome-Vision-Attentionshttps://github.com/MenghaoGuo/Awesome-Vision-Attentions

– 超过-

用户评论

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
此生一诺

太牛了!这个想法简直颠覆传统,一下子就把复杂的问题拆解开了,还能提高效率,这种三步骤分解的方法确实很巧妙。期待看到更多的应用场景。

    有15位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
不忘初心

关注这帮学者的很久了,每次都推出让人耳目一新的成果!这次新视觉Backbone在视觉任务上表现更胜一筹,真是厉害!

    有16位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
淡淡の清香

感觉大厂的论文越来越有意思了,以前只听闻把模型搞小了就能提升效率,没想到还能把大核卷积拆开这么玩,太酷了!清华胡事民团队真的带给咱们不少惊喜!

    有13位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
日久见人心

这个“三步”方法是不是理论上可以应用到其他领域?像自然语言处理也能用这招吗? 非常期待看到后续的研究成果。

    有12位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
孤独症

我一直觉得大核卷积训练速度太慢了,这次把大核卷积拆成三部好像解决了这个问题,而且效果还更好了!真是让人叹服!希望能尽快开源代码,让我也试试它的威力吧。

    有10位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
玻璃渣子

看完论文感觉还是有点绕,但这个想法真的很棒,如果能将复杂的视觉问题拆解到如此精细的程度,未来在图像识别、目标检测等领域将会得到更大的突破!

    有11位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
失心疯i

三个步骤虽然听起来简单,但关键在于如何在每一步都达到最佳的效果。我觉得论文还缺少一些实践细节和解释,让我很难理解其中的核心思想。

    有19位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
七夏i

刷榜不是最终目的啊!希望清华胡事民团队能将这项技术应用到实际问题中去,真正解决人们遇到的困难!

    有16位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
墨城烟柳

这个新视觉Backbone是不是就针对某些特定的任务场景进行优化?对其他类型的视觉任务效果会不会差些呢? 这点还需要进一步的验证。

    有17位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
纯情小火鸡

感觉这个“三步”方法在硬件方面也会带来一些挑战,特别是在大规模模型训练的时候。

    有5位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
空谷幽兰

看到这些研究让我对深度学习技术的潜力更加乐观!我相信未来几年会有更多令人惊叹的成果诞生!

    有10位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
花菲

论文里的实验结果看起来相当诱人,但现实中是否能保持这样的效果,还需要更多地实践验证和应用场景测试。

    有7位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
娇眉恨

我一直觉得视觉任务的难度比较大,这次这个新 Backbone 的出现可能会带来新的突破,希望它能引领整个行业的进步!

    有7位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
灵魂摆渡人

我觉得清华胡事民团队做科研的态度值得学习,每次都是走在学术前沿,勇于尝试新的思路和方法。

    有11位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
初阳

这篇文章写的太深奥了,我作为一个小白根本理解不了里面的技术含量,希望未来能有更通俗易懂的解读文章。

    有6位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
孤岛晴空

这个新视觉Backbone是不是以后所有模型的基础架构? 或者说这只是个特例?

    有6位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
孤廖

感觉大核卷积拆成三步是一个很好的方向,但这只是第一步,后面还有很多的细节和挑战需要解决。

    有10位网友表示赞同!

将大核卷积拆分为三步,清华胡世民团队全新视觉Backbone三大任务
聽風

对大核卷积的理解我还不够深入,看来还需要好好学习一下。期待看到更多关于新视觉Backbone的解读和应用案例!

    有9位网友表示赞同!

原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/108459.html

(0)
小su's avatar小su
上一篇 2024年8月30日 下午12:12
下一篇 2024年8月30日 下午12:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注