图 11 展示了类别掩码的提取方法,中间部分是网络的分类层权重参数。它的形状等于类别个数乘以特征长度,权重的每一列都代表着相应的类别。当我们把视频输入到网络里得到它的类别后就可以找出相对应的类别权重,对这列权重值取绝对值,从大到小进行排序,我们发现这些绝对值比较大的权重位置就是哈希特征中比较重要的位置。
关于类别掩码的细节描述可参考论文《Deep Hashing with Category Mask for Fast Video Retrieval》论文地址:https://arxiv.org/pdf/1712.08315.pdf
图 12
图 12 展示了网络的整体流程。采用多标签联合训练的方式,加上 Triplet loss 提升表达能力,网络结构采用级联模型以及共享特征的方法。最后采用类别掩码提高检索精度。
效果
图 13