当无人机从高空拍摄时,地面上的车辆、行人等目标往往只有几个像素大小。传统检测算法对此束手无策,而一项名为CFPT的新技术通过改造特征金字塔网络,让计算机真正学会了“明察秋毫”。
无人机航拍图像中的目标检测远比日常场景困难。在200米高空,一辆汽车可能仅占图像的20×20像素,经过多层卷积神经网络处理后,这些微小目标的特征就像被丢进碎纸机——支离破碎且难以辨认。更棘手的是,航拍图像中常同时存在极大型(如机场跑道)和极小型目标(如行人),传统算法往往顾此失彼。
现有检测系统普遍依赖特征金字塔网络(Feature Pyramid Network, FPN),这种结构通过逐层上采样融合不同尺度的特征。但论文指出两个关键缺陷:一是元素级相加会模糊小目标的细节(就像把多张透明幻灯片叠在一起),二是逐层传递会导致信息衰减(类似复印件的复印件)。这些问题使得现有系统在VisDrone等航拍数据集上的表现差强人意。
研究团队提出的跨层特征金字塔变换器(CFPT)采用了一种颠覆性设计。它摒弃了传统的上采样操作,转而引入两种新型注意力机制:
跨层通道注意力(CCA):将不同层特征按通道分组,捕捉全局空间关系。好比让不同楼层的监控摄像头协同工作,综合判断目标位置。
跨层空间注意力(CSA):按空间位置分组,分析跨层通道关联。类似于将建筑平面图分层比对,找出结构共性。
这种设计使得网络能单步完成跨层交互,避免了传统方法的信息损失。实验显示,CFPT在保持较低计算成本的同时,参数量仅为同类模型的1/3。
针对航拍图像中目标位置敏感的特点,研究者还开发了跨层一致相对位置编码(CCPE)。该方法基于层间相互感受野建立位置关联,相当于给算法配备“空间记忆”,使其能持续追踪微小目标的移动轨迹。在TinyPerson数据集中,这项改进使行人检测精度提升约5%。
在VisDrone2019、TinyPerson和xView三个权威测试集上,CFPT全面超越现有技术:
对32×32像素以下目标的检测精度提升12-18%
推理速度比传统FPN快1.7倍
特别擅长处理密集小目标场景(如停车场车辆检测)
值得注意的是,该方法对计算资源的需求显著低于Transformer基线模型,使其更适合部署在边缘设备(如无人机机载计算机)上运行。
这项研究揭示了小目标检测的关键不在于堆叠更复杂的网络,而在于优化特征融合方式。就像人眼观察远处物体时会自动调节焦距和视野,CFPT通过智能化的特征交互机制,让算法具备了类似的“自适应能力”。这种思路可能影响未来轻量化检测系统的设计方向。