一种基于 Transformer 的高光谱点目标检测网络

论文 SpecDETR: A Transformer-based Hyperspectral Point Object Detection Network 提出了一个针对高光谱点目标检测的新型网络 SpecDETR，与传统的基于像素分类的高光谱目标检测方法不同，SpecDETR 从目标检测的角度重新思考了该问题，并专注于目标级预测能力。

亚像素目标与点对象示例。(a) 一张原始遥感图像，地面采样距离为0.28米。(b) 下采样的图像。传统的高光谱目标检测将(b)中组成车辆的8个像素都视为亚像素目标，并预测整个图像中的每个像素是否包含车辆的光谱特征。而我们把这些像素视为一个形状信息有限的统一点对象，并利用对象检测网络来预测该点对象的位置和类别。

1. 从像素级分类到目标级检测的转变:

传统的 hyperspectral target detection (HTD) 方法依赖于预先设定的目标光谱库，对每个像素进行二元分类，判断其是否为目标。
SpecDETR 将高光谱点目标检测视为一个目标级检测任务，目标是实现对点目标的实例级检测，并预测其类别。

真实世界中的HSI数据，由AVIRIS收集。(a) 飞机。(b) 车辆。(c) 船只。(d) 几种常见物体的光谱辐射曲线。

2. 基于 Transformer 的网络架构:

SpecDETR 摒弃了传统目标检测网络中的骨干网络 (backbone)，直接利用 Transformer 编码器从光谱标记中提取深层特征。
提出了一种局部和全局协调 (LGC) 注意力模块，该模块在亚像素级别有效地采样局部光谱特征的同时捕获全局光谱特征，确保了背景光谱信息的稳定输入。
设计了一个简洁高效的解码器，并结合了一对多标签分配和 DETR 的端到端优势。

SpecDETR概览。为了清晰可视化，我们省略了位置嵌入，只显示最终解码器层的分类预测头。

在Avon数据集上，LGC注意力模块的采样点，每个模块有8个注意力头，每个头4个点。(a) 编码器中的自注意力模块。(b) 解码器中的交叉注意力模块。不同颜色表示不同的注意力头。