大家好，关于将大核卷积拆分为三步，清华胡世民团队全新视觉Backbone三大任务很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于的知识点，相信应该可以解决大家的一些困惑和问题，如果碰巧可以解决您的问题，还望关注下本站哦，希望对各位有所帮助！

此前，微软SwinTransformer介绍了CNN的滑动窗口等特性，并获得下游任务Marr奖。

后来Meta AI的ConvNeXT在ViT上使用了大量的技术，对ResNet进行了神奇的修改，实现了超性能。

现在一个新的Backbone——VAN（Visual Attention Network，视觉注意网络）再次引起了学术界的关注。

因为新模型再次荣登三大视觉任务榜首，所以与上面两个进行了比较。

VAN号称同时吸收了CNN和ViT的优点，简单高效。其精度更高，参数和计算量更小。

VAN来自清华大学胡世民团队。他们提出，一个标准的大核卷积可以分为三个部分：

深度卷积（DW-Conv）、深度膨胀卷积（DW-D-Conv）和11卷积（11 Conv）。

更重要的是，增加一步逐元素乘法可以达到类似注意力机制的效果。该团队将新的卷积模块命名为LKA（Large Kernel Attention）。

论文最后还提到，目前的VAN只是一个直观的原始版本，还没有经过仔细打磨，这意味着未来仍有很大的改进潜力。

（代码已开源，地址在文末）

拆解大核卷积能算注意力

注意力机制可以理解为一种自适应选择过程，可以根据输入识别关键特征并自动忽略噪声。

关键步骤是学习输入数据的远程依赖性并生成注意力图。

生成注意力图有两种常见的方法。

第一个是源自NLP的self-attention机制，但是用在视觉上还是存在一些缺点。例如，将图像转换为一维序列将忽略其二维结构。

第二种是视觉大核卷积方法，但计算开销太高。

为了克服上述问题，团队提出的LKA方法将大核卷积拆解为三部分。

假设扩展间隔为d，一个K x K卷积可以分解为一个K/d x K/d深度扩展卷积、一个(2d 1) (2d 1)深度卷积核和一个1 x 1 point-wise卷积。

c为通道

这样做可以节省计算开销，同时捕获长距离依赖关系，并且可以进一步生成注意力图。

LKA方法不仅结合了卷积和自注意力的优点，还获得了额外的通道适应性。

在CNN中，LKA方法类似于MobileNet的两部分拆解方法，增加的深度膨胀卷积可以捕获长距离依赖关系。

与ViT相比，它解决了self-attention的二次复杂度对于计算高分辨率图像来说过于昂贵的问题。

MLP架构中的gMLP也引入了注意力机制，但它只能处理固定分辨率的图像，并且只关注全局特征，忽略图像的局部结构。

理论上，LKA方法在克服上述缺点的同时，结合了各方的优点。

那么，实际效果如何呢？

新Backbone刷榜三大任务

根据LKA方法设计的新型骨干网络VAN延续了经典的四阶段设计。具体配置如下。

各阶段的结构如图所示，其中下采样率由步长控制，CFF代表卷积前馈网络（CNN）

计算复杂度可以通过假设输入和输出具有相同的宽度、高度和通道数来计算。

当卷积核大小（K）为21时，扩展间隔（d）为3可以最小化参数数量，这是默认配置。

该团队认为这种配置非常适合提取全局特征和局部特征。

最终，不同尺寸的VAN在ImageNet上的准确率超过了所有类型的CNN、ViT和MLP。

在COCO 2017目标检测任务中，VAN也率先将各种检测方法应用到了Backbone上。

ADE20K语义分割任务也是如此。

而且正如上文所说，VAN 在没有经过仔细打磨的情况下，已经完成了榜单上的三大任务，未来还有改进的空间。

对于未来的改进方向，团队表示他们可能会尝试更大的卷积核，引入Res2Net的多尺度结构，或者Inception中的多分支结构。

另外，VAN是否可以用于图像自监督学习和迁移学习，甚至是否可以用于NLP还有待后续探索。

该论文来自清华大学计算机系胡世民团队。

胡世民教授是清华大学极图框架团队的带头人。极图框架是中国高校首个开源的深度学习框架。

第一位博士生郭孟浩目前就读于清华大学计算机系，也是规划团队成员之一。

本文代码已开源，提供Pytorch版本和图规划框架两个版本。

该团队此前发表了一篇关于视觉注意力的评论，该评论在arXiv 上引起了轰动。

随附的GitHub 存储库Awesome-Vision-Attentions 是大量视觉注意力论文的集合，也有1,200 颗星。

最后说一句八卦，莫非团队研究了各种视觉注意机制后想出了这个新想法？

也是666。

论文地址：https://arxiv.org/abs/2202.09741

GitHub地址：https://github.com/Visual-Attention-Network

Awesome-Vision-Attentionshttps://github.com/MenghaoGuo/Awesome-Vision-Attentions

– 超过-

用户评论

此生一诺

太牛了！这个想法简直颠覆传统，一下子就把复杂的问题拆解开了，还能提高效率，这种三步骤分解的方法确实很巧妙。期待看到更多的应用场景。

有15位网友表示赞同！

不忘初心

关注这帮学者的很久了，每次都推出让人耳目一新的成果！这次新视觉Backbone在视觉任务上表现更胜一筹，真是厉害！

有16位网友表示赞同！

淡淡の清香

感觉大厂的论文越来越有意思了，以前只听闻把模型搞小了就能提升效率，没想到还能把大核卷积拆开这么玩，太酷了！清华胡事民团队真的带给咱们不少惊喜！

有13位网友表示赞同！

日久见人心

这个“三步”方法是不是理论上可以应用到其他领域？像自然语言处理也能用这招吗？非常期待看到后续的研究成果。

有12位网友表示赞同！

孤独症

我一直觉得大核卷积训练速度太慢了，这次把大核卷积拆成三部好像解决了这个问题，而且效果还更好了！真是让人叹服！希望能尽快开源代码，让我也试试它的威力吧。

有10位网友表示赞同！

玻璃渣子

看完论文感觉还是有点绕，但这个想法真的很棒，如果能将复杂的视觉问题拆解到如此精细的程度，未来在图像识别、目标检测等领域将会得到更大的突破！

有11位网友表示赞同！

失心疯i

三个步骤虽然听起来简单，但关键在于如何在每一步都达到最佳的效果。我觉得论文还缺少一些实践细节和解释，让我很难理解其中的核心思想。

有19位网友表示赞同！

七夏i

刷榜不是最终目的啊！希望清华胡事民团队能将这项技术应用到实际问题中去，真正解决人们遇到的困难！

有16位网友表示赞同！

墨城烟柳

这个新视觉Backbone是不是就针对某些特定的任务场景进行优化？对其他类型的视觉任务效果会不会差些呢？这点还需要进一步的验证。

有17位网友表示赞同！

纯情小火鸡

感觉这个“三步”方法在硬件方面也会带来一些挑战，特别是在大规模模型训练的时候。

有5位网友表示赞同！

空谷幽兰

看到这些研究让我对深度学习技术的潜力更加乐观！我相信未来几年会有更多令人惊叹的成果诞生！

有10位网友表示赞同！

花菲

论文里的实验结果看起来相当诱人，但现实中是否能保持这样的效果，还需要更多地实践验证和应用场景测试。

有7位网友表示赞同！

娇眉恨

我一直觉得视觉任务的难度比较大，这次这个新 Backbone 的出现可能会带来新的突破，希望它能引领整个行业的进步！

有7位网友表示赞同！

灵魂摆渡人

我觉得清华胡事民团队做科研的态度值得学习，每次都是走在学术前沿，勇于尝试新的思路和方法。

有11位网友表示赞同！

初阳

这篇文章写的太深奥了，我作为一个小白根本理解不了里面的技术含量，希望未来能有更通俗易懂的解读文章。

有6位网友表示赞同！

孤岛晴空

这个新视觉Backbone是不是以后所有模型的基础架构？或者说这只是个特例？

有6位网友表示赞同！

孤廖

感觉大核卷积拆成三步是一个很好的方向，但这只是第一步，后面还有很多的细节和挑战需要解决。

有10位网友表示赞同！

聽風

对大核卷积的理解我还不够深入，看来还需要好好学习一下。期待看到更多关于新视觉Backbone的解读和应用案例！

有9位网友表示赞同！

原创文章，作者：小su，如若转载，请注明出处：https://www.sudun.com/ask/108459.html

将大核卷积拆分为三步，清华胡世民团队全新视觉Backbone三大任务

拆解大核卷积能算注意力

新Backbone刷榜三大任务

用户评论

相关推荐

用友HR软件统一认证和致远OA单点登录身份周期管理如何做

新手搭建NAS私有云：抛弃群晖，这是更划算的选择

如果你的电脑是32位系统，为什么不用8G内存呢？

带你玩转私有网盘QNAP TS212P3网络存储开箱

发表回复

Please sign in