机器心脏报告
机器之心编辑部
同等性能条件下,延迟降低46%,参数减少25%。
标杆目标检测系统YOLO系列再次大幅升级。
自今年2月YOLOv9发布以来,YOLO(You Only Look Once)系列的接力棒已经交到了清华大学研究人员的手中。
上周末,YOLOv10发布的消息引起了AI社区的关注。它被认为是计算机视觉领域的突破性框架,以其实时、端到端的目标检测功能而闻名,它延续了YOLO 系列的传统,提供了结合了效率和准确性的强大解决方案。
论文地址:https://arxiv.org/pdf/2405.14458
项目地址:https://github.com/THU-MIG/yolov10
新版本发布后,已经有很多人进行了实施测试,效果良好。
YOLO由于其强大的性能和低计算功耗一直是实时目标检测领域的领先范例。该框架广泛应用于自动驾驶、监控、物流等各种实际应用中。其高效、准确的物体检测能力使其非常适合实时识别行人和车辆等任务,而在物流领域,它可用于库存管理和包裹跟踪,其人工智能功能可以提高许多任务的效率。 我可以。
在过去的几年里,研究人员在研究YOLO 的架构设计、优化目标、数据丰富策略等方面取得了重大进展。然而,后处理依赖于非极大值抑制(NMS),这会阻碍YOLO 的端到端部署并对推理延迟产生负面影响。此外,YOLO各个组件的设计缺乏全面彻底的研究,导致显着的计算冗余并限制了模型的功能。
YOLOv10的突破在于,在后处理和模型架构方面进一步提升了YOLO的性能效率边界。
为此,研究团队首次提出了无需NMS训练的YOLO的一致双重任务。这提高了YOLO 的性能和推理延迟。
研究团队提出了强调YOLO整体效率和准确性的模型设计策略,从效率和准确性的角度充分优化YOLO的各个组件,显着降低计算开销,增强模型功能。
大量实验表明,YOLOv10 对于各种模型大小都可以实现SOTA 性能和效率。例如,YOLOv10-S 在COCO 上的类似AP 上比RT-DETR-R18 快1.8 倍,显着减少了参数数量和FLOP。与YOLOv9-C 相比,在相同性能的情况下,YOLOv10-B 的延迟减少了46%,参数减少了25%。
方法介绍
为了实现强调整体效率和准确性的模型设计,研究团队从效率和准确性两个方面提出了改进。
为了提高效率,本研究提出了轻量级分类头、空间通道分离下采样和基于排序的块设计,以减少明显的计算冗余并实现更高效的架构。
为了提高准确性,研究团队探索了大核卷积,并提出了一种有效的部分自注意力(PSA)模块,该模块增强了模型的能力,并以低成本释放了性能提升的潜力。基于这些方法,团队成功实现了一系列不同规模的实时端到端检测器,称为YOLOv10-N/S/M/B/L/X。
无NMS 训练的一致双重分配
YOLO 通常在训练期间利用TAL 将多个正样本分配给每个实例。一对多的分配方法会产生丰富的监控信号,有利于优化并使模型获得卓越的性能。
然而,这需要YOLO依赖NMS后处理,导致部署过程中推理效率不佳。以前的研究已经考虑过一对一匹配来抑制冗余预测,但它们经常会产生额外的推理开销。
与一对多分配不同,一对一匹配仅向每个基本事实分配一个预测,从而避免了NMS 后处理。然而,这会导致监控效果不佳,并且精度和收敛速度不理想。幸运的是,这个缺点可以通过一对多分配来克服。
本研究提出的“双标签分配”结合了上述两种策略的优点。本研究为YOLO引入了另一个一对一的头部,如下图所示。它保留了与原始一对多分支相同的结构并采用相同的优化目标,但利用一对一匹配来获得标签分配。在训练过程中,两个头共同优化并在推理过程中提供丰富的监督。 YOLOv10抛弃了一对多头,利用一对一头进行预测。这使得YOLO 可以端到端部署,而不会产生额外的推理成本。
整体效率- 模型设计的准确性
除了后处理之外,YOLO的模型架构还带来了一个重大挑战:效率和准确性之间的权衡。尽管之前的研究工作已经考虑了各种设计策略,但仍然缺乏对YOLO 各个组件的全面研究。因此,模型架构表现出不可忽略的计算冗余和有限的功能。
YOLO 的组件包括茎、下采样层、具有基本构建块的阶段和头部。作者主要设计了以下三个方面强调效率的模型。
轻量级分类顶空通道解耦下采样分选指导的模块化设计
为了实现面向精度的模型设计,研究团队进一步研究了大核卷积和自注意力机制,旨在以最小的成本提高模型性能。
实验
如表1所示,清华团队开发的YOLOv10在各种模型规模下均实现了SOTA性能和端到端延迟。
在本研究中,我们还进行了YOLOv10-S 和YOLOv10-M 消融实验。实验结果如下表所示。
如下表所示,双标签分配使用一致的匹配指标来实现最佳性能并优化AP 和延迟权衡。
每个设计组件(例如轻量级分类头、空间通道分离下采样和顺序引导块设计)都有助于减少参数数量、FLOP 和延迟,如下表所示。重要的是,这些改进是在保持卓越性能的同时实现的。
面向精度的模型设计分析。研究人员展示了基于YOLOv10-S/M 逐步集成面向精度的设计元素的结果。
如表10所示,使用大核卷积模块和PSA模块使YOLOv10-S的性能提高了0.4% AP和1.4% AP,最小延迟增加分别为0.03 ms和0.15 ms。
参考内容:
https://visionplatform.ai/yolov10-物体检测/
原创文章,作者:小条,如若转载,请注明出处:https://www.sudun.com/ask/86236.html