本帖最后由 奋斗的路上 于 2020-12-25 16:54 编辑
《基于图卷积神经网络的3D多目标跟踪》论文解读
1 前言:
多目标跟踪领域是当前目标跟踪领域的研究热点,在CVPR2020发表一篇题为《GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning》论文,将卷积神经网络应用到最具有落地价值的3D多目标跟踪中,接下来我们对该论文进行解读。
2 创新点
该算法创新点:
1. 使用GNN网络替代之前的特征交互机制,将目标的特征在多个目标之间进行交互,使不同的目标之间区分度更大,减小相似目标之间的差距,从而使目标更具有判别性
2. 同时获取2D和3D的特征,并将其进行融合,实现不同维度特征的互补。
算法流程如下图所示:
之前的目标跟踪方法是将对前后帧图像分别提取特征(2D或3D),然后利用仿射变换和匈牙利算法对各个目标进行匹配,完成目标跟踪任务。在该论文中改进是在提取特征时,提取2D和3D两种特征,并在不同帧之间进行交互融合后,在进行目标匹配,完成目标跟踪。
3 网络架构
网络模型架构如图所示:
其中(a)表示3D表观和运动特征提取器,使用PointNet提取3D表观特征,(b)表示2D表观和运动特征提取器,使用ResNet34提取2D表观特征,并使用两层LSTM提取轨迹的运动特征,使用两层MLP提取观测框的运动特征。(c)图神经网络:融合四个分支的目标特征作为节点特征来构建图。在GNN的每一层中,使用节点特征聚合来迭代更新节点特征,并通过边回归模块计算相似度矩阵。
4 算法细节
4.1 特征提取
在这里提取图像的2D和3D特征,并进行融合。为了平衡运动和外观特征的贡献,强制最终运动和外观特征向量具有相同的维数。为了达到多特征学习的目的,避免一个分支影响其它分支,在网络训练过程中随机关闭分支。
为了避免2D检测和3D检测的对应问题,仅使用3D对象检测器获得3D检测,然后根据给定的相机投影矩阵从3D检测中投影2D检测。
4.2 图神经网络
1. 构建图:
融合2D和3D特征的四个分支为节点特征。由于是相邻帧匹配,将轨迹和检测视为两个邻域,只连接在彼此距离在小范围内的两个点,构建稀疏图,在改图网络中完整目标跟踪
2. 边回归
采用两层MLP,将两个节点特征的差作为输入,计算相似度矩阵:
3. 特征聚合
该文本作者对四种节点聚合规则进行了实验,采用了第四种。
其中σ都是线性层,聚合是节点本身特征加上与邻居的特征差,并以相似度作为权重。
4.3 损失函数
损失函数由两部分组成: Batch Triplet Loss和Affinity损失,如下式所示:
其中Batch Triplet Loss的损失计算如下所示:
该损失是衡量图卷积网络的节点特征的。
Affinity损失是衡量相似度矩阵的,由两部分组成,一部分是衡量预测结果的二分类交叉熵损失:
和另一部分交叉熵损失:
我们将这些损失求和后就得到网络整体的损失结果。
4.4 跟踪策略
在视频的第一帧将跟踪对象集合初始化一个空集合,并添加一个控制目标出现和消失的跟踪管理模块,从而减小目标的虚警和误报。还要对每个目标进行计数,如果找到新的目标可以匹配到跟踪目标链中,则更新目标链,若不可匹配则将其添加到目标链中。如果跟踪链中的某个目标没有匹配到,则将其中跟踪链中删除。
5 实验结果
利用该模型在KITTI数据集上的跟踪结果如下所示:
从下图中可以看出Drop的比例,图卷积神经网络的层数和特征融合的数量都会对网络准确度产生影响。
与其他的目标跟踪方法相比,该论文方法效果有所提升。
6 总结
该论文最大的创新点是利用图神经网络实现特征交互,使得目标之间的区分度更高,该文作者的实验很丰富,在KITTI和nuScenes数据集效果很好。
|
|