(MM-2018)用于行人重识别的局部卷积神经网络

网友投稿 276 2022-09-22

(MM-2018)用于行人重识别的局部卷积神经网络

用于行人重识别的局部卷积神经网络

paper题目:Local Convolutional Neural Networks for Person Re-Identificationpaper是中国科学技术大学发表在MM 2018的工作paper地址:​​链接​​

ABSTRACT

最近的工作表明,通过引入注意力机制可以显著改善行人重识别,该机制允许学习全局和局部表示。然而,所有这些工作都在不同的分支中学习全局和局部特征。​​因此,除了最终的特征嵌入层外,不允许全局和局部信息的交互/增强。​​本文提出将局部操作作为一个通用的构建块,用于在任何层中合成全局和局部信息。这个构建块可以插入到任何卷积网络中,只需少量关于局部部分的大致位置的先验知识。对于行人重识别任务,即使只插入一个局部块,局部卷积神经网络 (Local CNN) 也可以在三个大型基准测试(包括 Market-1501、CUHK03 和 DukeMTMC-)上始终优于最先进的方法。

1 INTRODUCTION

(ReID)可以跨多个摄像头或在单个摄像头内跨时间匹配同一个人,在计算机视觉社区中受到越来越多的关注。该技术广泛用于许多与视觉相关的应用,包括基于内容的视频检索、视频监控、CCTV 摄像机的识别等。与其他图像搜索任务相比,person ReID 仍然非常具有挑战性,原因如下:1) 来自不同相机的不同图像导致的剧烈背景变化,2) 人体姿势随时间和空间的变化导致视觉外观的显著变化, 3) 杂波或遮挡。这些挑战凸显了对行人 ReID 强大而健壮的功能的必然需求。

以前的行人 ReID 工作首先专注于提取低级特征,例如形状、局部描述符,后来转向使用卷积神经网络 (CNN) 进行端到端全局特征学习。此外,考虑到上述由多视角和不同相机引起的差异,许多工作都集中在开发注意力机制以减轻背景不一致的影响。这种方法背后的核心思想是将特征图乘以学习的注意力掩码,这不仅可以选择聚焦的前景,还可以增强所选目标的不同表示。然而,在不考虑人的空间结构和局部细节的情况下,全局特征对于以下情况的判别力不够。 1)面对姿势变化时,需要对人体局部部位进行更详细的表示。 2)很难区分全局特征中的局部差异,特别是当需要在两个外表非常相似的人之间进行匹配时。一个自然的选择是学习与全局特征互补的基于局部的详细局部特征,或者学习两者的特征嵌入。

由于人体由定义明确的部分组成,即头部、躯干和腿,解决姿势变化和局部差异引起的各种外观的更好方法是基于部分的模型。然而,以前的基于部分的模型将卷积神经网络分成几个分支,每个分支处理一个部分。然后,他们通过级联或特征嵌入来合并全局和局部特征。要将全局输入拆分为局部部分,一种广泛使用的方法是将输入图像或较低/最终卷积层中的全局输出分成相等的部分。另一种流行的方法是​​将全局特征图乘以学习的注意力掩码​​​ [5, 20],作为重点局部部分的选择。此外,一些工作通过使用空间变换网络(STN)或区域提议网络(RPN)从全局输入中采样局部区域。具体来说,最近的工作试图通过​​软像素级掩码​​和局部区域采样的组合来提取局部部分。

为了合并全局和局部特征,最流行的方法是将它们连接到最终的全连接层。另一种方法是将全局和局部表示嵌入到一个固定长度的向量中。此外,仅在训练阶段合并局部特征或以分层方式融合局部特征也是可能的选择。然而,所有这些工作都在不同的路径中学习全局和部分特征。因此,不允许全局和局部信息的交互/增强,除非在最终的特征嵌入层中。直观地说,在卷积神经网络的构建块中合成不同信息路径的输出,这反映在 GoogleNet、ResNet和DenseNet的设计理念中,是改善backbone视觉的有效方法楷模。因此,考虑到人体的自然部分定义,基于集成全局特征和局部特征的构建块的卷积神经网络值得一试。这些架构的核心模式如图 1 所示。

图 1:backbone CNN 中的块。处理器是包括批量归一化、ReLU、卷积和池化在内的复合。所有这些网络在每个构建块中合成不同路径的输出。与这些网络中的模块不同,本文的 Local CNN 模块尝试从不同路径合成局部和全局信息。

这项工作的主要贡献总结如下:

与 GoogleNet、ResNet 和 DenseNet 相比,本文为backbone CNN 设计了一个新的构建块,它融合了局部信息,称为局部卷积神经网络(Local CNN)。本文为行人 ReID 实现了一种简单但有效的局部 CNN 形式。该模型在 Market-1501、CUHK03 和 DukeMTMCReID 三个大规模基准上优于最先进的基于注意力和基于部分的方法。据作者所知,他们是第一个提出一个框架,该框架能够在 CNN 的任何层中实现全局和局部信息的交互/增强。

本文的其余部分的结构如下。第 2 节讨论了局部 CNN 和基于注意力或基于部分的人 ReID 模型的相关工作。第 3 节描述了所提出的局部 CNN 的体系结构和学习过程。与最新技术相比的广泛评估第 4 节报告了对提出方法的全面分析。第 5 节给出了结论。

2 RELATED WORK

基于注意力的模型。为了减轻背景不一致的影响,学习注意力掩码来选择一个集中的前景或目标。Liu等人提出了HydraPlus-Net,将多层次的注意力图谱多方位地反馈给不同的特征层,以捕捉从低层次到语义层次的多种注意力。Li等人提出了一个用于联合学习硬区域注意和软像素注意的和谐注意模型。在这个模型中,多个重点区域在不同的分支被处理,并在最后一层与全局特征合并。Zhao等人从最后的卷积特征中引入了一个无监督的部分注意步骤,以避免准确的身体部位定位。Ding等人提出了一个特征屏蔽网络。该网络采用高层次的特征来预测特征图mask,然后将其强加于低层次的特征上。Song等人学习了一个用于行人的重识别的掩码引导的对比性注意力模型。此外,Si等人提出了一个双注意匹配网络,其中注意策略被用于特征细化和特征对排列。

基于部位的模型。由于详细的部位信息对于匹配不同姿势的人或判别具有相似外观的不同人来说非常重要,因此已经提出了许多基于部位的模型。Cheng等人将低水平特征图水平划分为四个刚性块,并将每个块视为一个身体部位。应用多个通道来学习全身和局部身体部位的特征。Li等人将第一卷积层的输出特征图水平地划分为m个局部区域。局部区域和全局特征在不同的分支进行处理。Zhao等人提出首先根据身体关节检测定位身体部位,然后以分层的方式合并这些部位的特征。Li等人提出使用空间变换器网络(STN)学习和定位可变形的行人部分,并应用空间约束。Su等人明确地利用人体部位线索来缓解姿势变化,并从全局图像和不同的局部部位学习稳健的特征表示。同时,进一步设计了一个姿势驱动的特征加权子网络来学习自适应的特征融合。Zhang等人将最终卷积层的输出分成条状,并将其输入不同的分支。局部特征只在训练阶段使用。为了减轻缺失部分的影响,He等人使用流行的字典学习模型的重建误差来计算不同空间特征图之间的相似度。

3 APPROACH

首先阐述了为什么需要在 CNN 的构建块中进行局部操作,然后是局部操作的一般定义。然后,提供了一个简单的局部 CNN 实例。最后,描述了用于person ReID基准测试的特定Local CNN模型。

3.1 Motivation

输入的失真或偏移会导致显著特征的位置发生变化。具有共享权重的局部感受野旨在检测不变的基本特征,尽管显著特征的位置发生了变化。因此,权重共享在卷积模块的设计中起着关键作用。一方面,权重共享确保可以提取特定的局部视觉模式,而不管它们的位置如何。另一方面,与目标的一个部分相对应的权重偶尔会在其他部分出现强烈的响应,这可以被视为噪声,如图 2 所示。这些意想不到的响应会越过块。为了消除其他部分的意外噪声响应,需要局部操作来提取构建块中部分的特定特征。直观地说,在 CNN 的构建块中合成不同信息路径的输出,这反映在 GoogleNet、ResNet和DenseNet的设计理念中,是改善backbone视觉模型的有效方法。因此,考虑到人体的自然部分定义,提出了基于集成全局特征和局部特征的构建块的 Local CNN。

图 2:卷积构建块中权重共享的限制。 (a):输入图像,(b)-(e):backbone ResNet-50 行人ReID 模型中 block2 的输出特征图。红色边界框中的激活可以被视为其他部分的意外响应。

3.2 Formulation

3.3 Instantiation

本文的局部 CNN 构建块的实例如图 3 所示。该块由一个全局路径(与其他backbone构建块一样)和几个局部路径组成。本文的局部操作有四个组件:定位模块、采样模块、特征提取模块和融合模块。现在详细说明局部路径的组成部分。

3.4 Local CNN for Person ReID

参考文献

[2] Barry Bogin and Maria Ines Varela-Silva. 2010. Leg Length, Body Proportion, and Health: A Review with a Note on Beauty. In International Journal of Environmental Research and Public Health, Vol. 7. 1047–1075.

[5] Guodong Ding, Salman Hameed Khan, Zhenmin Tang, and Fatih Porikli. 2017. Let Features Decide for Themselves: Feature Mask Network for Person Reidentification. CoRR abs/1711.07155 (2017).

[7] Alex Graves, Greg Wayne, and Ivo Danihelka. 2014. Neural Turing Machines. CoRR abs/1410.5401 (2014).

[8] Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Rezende, and Daan Wierstra. 2015. DRA W: A Recurrent Neural Network For Image Generation. ICML (2015), 1462–1471.

[20] Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, and Xiaogang Wang. 2017. HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis. ICCV (2017), 1–9.

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:黄仁勋骗过了全世界,3个月无人发现!
下一篇:李易峰、金晨主演的《隐秘而伟大》,那些不符合逻辑和常理的细节!
相关文章

 发表评论

暂时没有评论,来抢沙发吧~