SiamSTA: Spatio-Temporal Attention based Siamese Tracker for Tracking UAVs

1 问题与背景

1.1 问题定义

从热红外图像 (TIR, termal infrared) 中识别无人驾驶飞行器 (Unmanned Aerial Vehicle, UAV)。

1.2 问题难点

与一般的目标检测任务不同，无人驾驶飞行器具有其特殊性，如：

尺度小
移动速度快
没有固定的、标志性的形状

因此 UAV 的探测难度更大。

2 解决方法

2.1 概述

文章提出了一种简单有效的，利用注意力机制提取时空特征的飞行器检测器 SiamSTA。该模型对图像进行局部目标追踪与全局重检测 (re-detection)。

局部跟踪是为了适应飞行器体积小、语义信息弱的特点，它再预测时提出了时空限制，从而降低背景及噪声的干扰。
全局重检测是为了适应飞行器快速移动的特性，可以在局部难以观察时准确捕捉到飞行器的位置。

最后，本文提出一种智能选取算法，结合局部与全局的检测结果并给出最终预测。

2.2 效果展示

SiamSTA 在第二届 Anti-UAV 大赛中获得了第一名。

图 1 SiamSTA 模型效果展示

图 1 展示了模型的效果，其中绿色是真实标注，红色是这篇文章给出的预测结果，而蓝色则是这篇文章之前表现较好的，也是本文参考的基线模型模型 SiamR-CNN 给出的预测结果。可以看出，SiamSTA 预测的准确性优于其它模型，在小样本、多尺度、背景干扰严重、动态背景等场景下的预测接近真实值，表现优异。

2.3 模型结构

SiamSTA 的模型结构如图 2 所示。

图 2 SiamSTA 模型结构

模型主要由局部结合时空注意力的目标检测与全局重检测两部分组成，其中也用到了动作捕捉与预测等模块，下面将分别对各模块的功能和原理进行介绍。

2.3.1 时空限制

模型在局部预测时提出了时空限制，从而减少环境噪声对于预测的影响。更具体的来说，文章认为同一个飞行器不太可能在两张相同角度、相邻时间下拍摄的帧中产生巨大的位置坐标差异，因此模型会对相邻帧中预测的空间坐标进行限制。此外，模型会根据时间信息记录过去的目标尺度与长宽比信息，从而帮助在未来的时间中做出更合理的预测。

2.3.2 全局动作预测 & 变化检测

由于飞行器体积往往较小，且不呈现固定的形态，因此容易与动态的环境混淆，如图 3 所示。

图 3 全局动作捕捉图

文章利用高斯混合模型提取移动目标，但由于背景也可能有位置变化，因此需要对捕捉到的动作点进行筛选。因此模型首先提取动态关键点，再结合梯度特征变化，在全局范围内对动态的背景做出预测，减少背景移动对飞行器检测的影响，进而得到飞行器的位置。

2.3.3 全局重检测

由于本文的模型的预测依赖于之前帧的预测结果，因此当模型预测出现失误，或飞行器离开观察范围导致之前帧中预测信息丢失，模型将无法依赖之前的时空数据进行下一步预测。因此，文章提出全局重检测的方法，可以重新追踪目标，

全局重检测分为三个阶段。第一阶段中模型提取首帧中的图像信息，第二阶段模型从之前帧中学习历史信息，在第三阶段利用变化检测，结合上两个阶段中提取的特征重新预测目标位置与大小。

4 实验与分析

下面将介绍文章进行的实验，包括对比实验和消融实验两部分。

4.1 对比实验

文章在第二届 Anti-UAV 比赛的测试集上运行了第一届与第二届表现优异的模型，并对比其精度与 ROC 曲线下面积(AUC)，结果如图 4 所示。可以看出，SiamSTA 模型在测试集上取得了比所有已选取模型更优异的表现，说明该模型的架构可以有效提取尺度小、速度快的小型飞行器的信息。

图 4 对比实验结果图

4.2 消融实验

文章针对模型中的三大主要部分——损失评估 (Lost, lost estimation)、时空注意力 (STA, Spatio-temporal attention)、变化检测 (CD, change detection) 构建了消融实验，结果如图 4 所示，可以看出，模型中的每个部分都对其预测起到了正向作用。

表 1 消融实验结果