深度学习时代的行人重识别技术
2022-11-05
来源:榕意旅游网
人工智雒I前沿技术深度学习时代的行人重识别技术口丈/罗浩罗浩浙江大学计算机视觉实验室博士生,浙江大学人工智能协会会长。研究方向:行人重识别与多目标跟踪。主要从事视频结构化相关产品研究,曾创造行人重识别准确度世界纪录。拥有国际论文、国家发明专利等十余项。曾作为指导老师带领团队获得云从科技人头计数冠军、天池大赛Top2%等成绩。在公开平台撰写的博文累计被阅读几十万次。’阀受I●'一●_r行人重识别技术在实际生活中拥有广泛的应用场景,经过多年研究,其已在部分限制场景中取得了良好的应用效果。然而,想要更深层次地挖掘技术的应用价值,还需解决更多困难与挑战。·40·深度学习时代的行人重识别技术——近年来,以卷积神经网络为代表的深度学习技术,在计算机视觉的多个子领域中都取得了突破性进展。以智能监控中的行人重识别问题为例,深度学习技术在短短几年内,便将其从学术界的研究阶段迅速推向了限制场景下的应用阶段。本文将回顾深度学习时代的行人重识别技术的发展历程。当然,一些挑战以及未解决的问题依然值得研究者继续探索。一、行人重识别行人重识别(Personre—identification)也称行人再识别,被广泛认为是图像检索的子问题,是利用计算机视觉技术判断图像或视频中是否存在特定行人的技术,即给定一个监控行人图像,检索跨设备下的该行人图像。图1:行人重识别系统如图l所示,一个完整的行人重识别系统通常包含三个环节:行人检测、特征提取和相似度度量。为了去除原始监控视频中背景信息的干扰以提高处理效率,行人重识别系统首先需要利用行人检测算法对原始视频进行处理,提取包含行人前景的行人图片,这些行人图片构成了检索的仓库(Gallery)。待检索的行人图片则被称为探头(Probe)。为了实现图像检索,需要对Probe和Gallery的图片进行特征提取,然后依据特征向量之间的相似度进行排序。行人重识别系统包含行人检测和行人重识别两个主要环节。目前,学术界将这两个环节当做两个不同的问题来研究。但在实际应用中,通常需要一个端到端系统将两者串联起来,图2给出了一个端到端行人检测与重识别系统的示例。由于行人检测是行人重识别的前置环节,因此该系统对行人检测器的要求极高。旷视研究院的MegDet、华盛顿大学的YOLO、微软亚洲研究院的FasterR-CNN都是常用的高性能检测器。利用检测器对原始监控视频进行行人检测,可以提取一系列行人图片。这些图片既包括比较·41·人工智雒l前沿技术·42。JO●JRNALOF时斟CLASSFILES.VOL14.NO8.AUGUST2015原视频检测出的行人二:■:IlI(a)行人检测(b)人物重识别包括行人检测与重识别的端到端重识别系统图2:端到端行人检测与重识别系统示例[1】完整的行人图片,也包括检测失败的纯背景图片或不完整的行人图片。所有图片构成了检索库Gallery,即图2中椭圆虚线内的图片。图2右上角的黄框是待检索的Probe图片,而行人重识别技术的目标是在Gallery中检索出与Probe图片相似的图片,并依照相似度对Gallery中的图片进行排序。图2右下角是检索结果,绿框和红框分别表示检索正确和检索错误的结果。值得一提的是,通常Probe图片和Gallery图片是来自不同相机拍摄的图片。跨摄像头拍摄带来的图像差异性也给行人重识别带来了很大的挑战。系统的整个流程十分清晰,而行人重识别的核心就在于如何提取有效的特征,使包含相同行人的不同图片的特征比较相似。在2014年以前,行人重识别的研究主要集中在两个方面:(1)如何设计鲁棒的行人特征;(2)如何得到最优的相似度度量。我们通常将这个时期称为传统方法时期。在这个时期,研究者根据行人的外观、轮廓以及细节纹理等视觉特征设计鲁棒的特征描述子,具有代表性的特征描述子包括LOMO、HOG、SIFT以及颜色直方图等。之后利用一个转换矩阵将特征向量映射到一个高维空间,通过最小化高维空间聚类误差,求解出转换矩阵。而这个转化矩阵的解即最优的相似度度量。然而,传统的手工特征描述能力有限,很难适应复杂场景下的大数据量任务。此外,在数据量较大的情况下,传统的度量学习方法求解也会变得非常困难。随着深度学习的发展,基于深度学习的方法可以自动学习出复杂的特征描述,并且用简单的欧式距离进行相似度度量便可取得很好的性能。换言之,深度学习可以端对端地实现行人重识别任务,这使得任务变得更加简单。目前,基于深度学习的行人重识别方法已经在性能方面大大超越了传统方法。因此,在深度学习时代,行人重识别技术取得了革命陛的发展。【1]Zheng,lJang。YiYang,andAlexanderG.Hauptmann.”Personre—identification:Past.presentandfuture.”arXivpreprintarXiv:161002984(2016)深度学习时代的行人重识别技术——二、基于深度学习的行人重识别技术深度学习在行人重识别领域取得的成功离不开卷积神经网络(ConvolutionalNeuralNetworks,CNNs)的发展。CNNs替代了传统的特征算子,可以从大规模数据集中自动学习出鲁棒的行人特征描述。近年来,基于深度学习的行人重识别技术(DeepPersonReID)发展迅速,而整个发展进程又可以分为全局特征时代、语义特征时代、局部特征时代。全局特征时代DeepPemonReID的开端是全局特征时代,这个时期的特点是利用CNNs直接对整张行人图片提取全局特征,重点在于设计更好的损失函数来指导网络学习如何挖掘鲁棒的特征。根据损失函数的不同,该时期的方法可以分为表征学习和度量学习。表征学习将DeepPemonReID看做分类问题,每个行人的若干张图片被当做一个类别。网络训练的损失函数采用交叉熵损失,网络分类数等于训练集中的行人ID数。由于需要进行分类任务,所以CNNs的末端需要连接一个分类的全连接层辅助特征的学习。在检索阶段,这个分类的全连接层需要移除,直接利用CNNs提取行人特征。度量学习将DeepPemonReID看做聚类问题,目标是直接将相同行人的若干图片映射到高维空间,形成聚类效应。典型的度量学习方法包括对比损失、三元组损失、四元组损失、结构损失等。如果两张图片是相同行人的不同图片,则称它们为正样本对;如果两张图片是不同行人的两张图片,则称它们为负样本对。度量学习的本质就是使正样本对的距离在高维特征空间小于负样本对的距离。利用S—TNE降维可视化技术,我们可以对比表征学习模型和度量学习模型所提取的特征在高维嵌入空间的分布效应。如图3所示,表征学习模型提取的特征呈现明显的一■:11●I:]■■(a)表征学习(b)度量学习图3:表征学习模型和度量学习模型的特征在高维嵌入空间中的可视化对比·43·人工替雒l前沿技术·44·线性可分现象,不同类别的特征分布在若干个超平面分割的子空间中。而度量学习模型提取的特征呈现明显的聚类效应,相同类别的特征围绕某个中心呈环形分布。这个时期的DeepPersonReID与传统的图像检索和人脸检索问题没有太大区别,核心在于如何设计合理的损失函数,指导网络提取更加鲁棒的特征,而并没有考虑到行人这一特定对象的先验信息。语义特征时代基于全局特征的DeepPersonReID方法很快遇到了性能瓶颈,研究者们意识到需要利用图像中的行人语义信息。DeepPersonReID因此进入了语义特征时代。常用的语义信息分为两类,即行人的关键点信息与行人的语义分割信息。图4给出了行人关键点提取与行人语义分割效果展示。(a)关键点提取(b)语义分割图4:行人关键点提取与行人语义分割效果展示关于行人关键点提取,现在主流的做法是定义14个人体关键点,相邻关键点的连接称为骨架。关键点和骨架是人体重要的语义信息,然而关键点和骨架包裹的图像区域面积有限。例如,利用膝盖关键点附近的信息不足以表达整个腿部的特征。为了弥补关键点包裹区域面积有限这一缺点,通常会利用关键点信息设计一些语义区域,例如由同侧腰部、膝盖和脚部关键点共同组成腿部区域。商汤科技提出的SpindleNet是比较经典的利用姿态信息的DeepPersonReID方法。如图5所示,SpindleNet首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。这7个ROI区域和原始图片进入同一个CNNs网络提取特征。原始图片经过完整的CNNs得到一个全局特征,三个大区域经过FEN—C2和FEN-C3子网络得到三个局部特征,四个四肢区域经过FEN—C3子网络得到四个局部特征。之后这8个特征深度学习时代的行人重识别技术——2-=f舾圈日按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多尺度局部特征的行人重识别特征。语义分割信息是另一种重要的人体语义信息。图5(b)给出了一种常用的人体语义分割的标准,即包含头部、胸部、腿部和脚部四个人体部件区域。与骨架关键点不同的是,语义分割的信息是一个无约束轮廓包裹的闭区。因此,分割区域直接和原始图像点乘便是对应人体部件的图像信息。语义分割的结果通常会被当做Mask或AttentionMap的先验信息输入网络,而网络利用这些信息进行自适应地池化操作,提取每个人体部件的特征。网络融合各个部件的特征得到用于检索任务的最终特征。语义分割信息是一种比较细粒度的语义信息,而这种信息的瓶颈在于通常很难获得比较精细的区域轮廓,这对于模型的精度而言是一个比较大的影响。局部特征时代人体语义信息是一种比较可靠的先验信息,然而获得这些信息通常需要一个额外的姿态点估计模型或语义分割模型。这些模型的计算量和存储消耗往往超过了ReID模型本身,这也限制了语义特征的使用。随着研究者发现使用物理分割的局部特征也能取得很好的性能,DeepPersonReID的研究进入了局部特征时代。与语义特征按照人体语义信息分割图像区域不同,局部特征直接从物理层面将图像平均分为fL音l;分。因为行人通常是直立出现在图像里,所以大家通常会对图t舅O,i上至下进行水平切分。虽然从物理层面对图像切分是一种高效的做法,但由于缺少语义信息进行对齐,所以姿态不对齐的问题给这类方法带来了很大困扰。旷视研究院在2017年提出的AlignedRelD是一个经典的基于局部特征的DeepPersonReID方法。AlignedReID利用动态规划思想中的最短路径方法实现局部特征的动态对齐。如图6所示,AlignedRelD将图片水平切分为8部分,然后利用CNNs对每[2]Zhao,Haiyu,etal”Spindlenet:Pemonre—identificationwithhumanbodyr晒0nguidedfeaturedecompositionandfusion“ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017.·45·人工智雒l前沿技术·46·部分提取局部特征。对于两张图片的各8个局部特征,AlignedRelD先计算出它们之间的距离矩阵,然后从起点到终点寻找一条最短路径。最短路径的总距离便是两幅图像最终的距离(与相似度呈反比)。相比于直接按照顺序一一比较两幅图像的局部特征,AlignedRelD的动态对齐局部特征方法具有更好的鲁棒性,与语义特征的方法相比,不需要借助一个额外的模型提供语义信息,因此有着比较好的应用价值。e一图像A一专I掣图6:旷视研究院AlignedRelD动态对齐局部特征示意图清华大学在2018年提出的PCB方法是另一个非常流行的模型。PCB将图片从上至下水平切分为6部分,然后利用水平池化得到6个局部特征。为了降低局部特征的向量维度,PCB使用了6个独立的1X1卷积对局部特征进行降维操作。之后每个特征都经过一个全连接层,并各自计算一个表征学习的交叉熵损失。最终,网络训练的损失等于所有局部特征的交叉熵之和。由于每个局部特征都表征了行人图像的一块区域信息,因此在应用阶段,PCB需要融合所有局部的特征信息来组合成最终的全局特征。PCB是局部特征时代中具有里程碑意义的一项成果,之后的很多方法都是以PCB为基础发展而来。W列向父\,.N,.p个鲢接层分支7r芏连璜层付夏M苫r‘;l◇xlCon”}三强亳ElD———。00…011D——‘00…0口口——。00…0张量T图7:清华大学PCB网络结构示意图[3]PCB之后,基于局部特征的DeepPemonReID在稳步发展,只不过没有出现特别具有里程碑意义的成果。近似的研究工作表明,融合多尺度局部特征能够显著提高模型的性能,云从科技、腾讯优图以及阿里巴巴均有相关成果发表。另一方面,结合表征学习和度量学习共同训练网络的策略也被逐渐证实为有效。近年来,DeepPersonReID技术取得了巨大进步,在著名的行人重识别数据集Marketl501上,首位命中率已经从早【3】Sun.Yifan,etm.”Beyondpartmodels:Pemonretrievalwithrefinedpartpooling(andastrongconvolutionalbaseline).”ProceedingsoftheEuropeanConferenceonComputerVision(ECCV)2018.深度学习时代的行人重识别技术——期的60%以上发展到现在的超过95%。在一些限制场景下,DeepPersonReID技术已经得到了应用。行人重识别技术的应用与挑战经过近几年的发展,基于深度学习的行人重识别技术已经取得了巨大的进步。如今,行人重识别技术在智能安防、智能零售和智能设备等领域得到了一定程度的应用。然而,行人重识别技术仍然是在一些限制场景中使用。因为其依然面临着一些未完全解决的挑战,包括遮挡、光线和跨模态等。行人重识别技术的应用行人重识别技术作为图像检索的一个子问题,其主要的应用场景便是行人检索。当然,除了行人检索以外,行人重识别技术还可以为目标跟踪任务提供可靠的行人表观特征。因此,目标跟踪也是行人重识别技术的主要应用对象之一。概括而言,行人重识别技术的主要应用场景包括以下几个方面:(1)城市管理领域短时范围内的犯罪嫌疑人行踪检索。行人重识别技术最重要的应用之一便是辅助刑警检索犯罪嫌疑人的行踪。以往在刑事犯罪活动发生后,刑警需要根据一张或少量几张犯罪嫌疑人的监控照片,借助大量人力排查犯罪时间段的所有监控视频,以此来挖掘犯罪嫌疑人的行踪。行人重识别技术可以替代刑警完成这项工作,自动从监控视频中检索出含有犯罪嫌疑人的所有镜头。当然,由于行人重识别技术极度依赖外观特征,因此该技术只能在案发前后的短时范围内使用。短时范围内,犯罪嫌疑人通常很难更换衣服、装饰和发型。(2)智能零售领域限制场景中的消费者轨迹跟踪。无人超市是行人重识别技术另外一个重要的使用场景。在无人超市,需要使用计算机视觉技术替代营业员去分析消费者的行为,而跟踪消费者的轨迹是理解其行为的第一步。这项任务本质上是跨摄像头多目标跟踪(MTMCT)问题,而MTMCT问题的解决途径便是根据不同帧下行人的特征相似度进行数据关联。因此,行人重识别技术可以为MTMCT问题提供鲁棒的表观特征,从而结合数据关联方法进一步实现消费者在限制场景中的轨迹跟踪。(3)智能设备领域针对某一指定目标的自动跟踪。智能设备是容易被忽视的行人重识别技术应用场景。随着人工智能的发展,一些具有一定“智慧”的相机设备逐渐诞生。这些智能设备的一个常用功能就是自动跟踪某一指定目标。例如,自动跟踪主人的智能行李箱,自动跟踪拍摄主角并调整拍摄角度的智能相机。为了区分跟踪的行人目标与其他的干扰行人目标,这些智能设备需要利用到行人重识别技术。通常行人重识别模型需要直接·47·人工替雒I前沿技术·48·嵌入到智能设备的芯片中,因此这对模型的计算和存储消耗都提出了比较高的要求。行人重识别技术的挑战我们可以观察到,目前行人重识别技术的应用外脱主要还是在各种限制场景下,这是因为其还面临着资态很多未完全解决的挑战。行人重识别技术极度遮抖依赖行人的外观特征,然而影响行人外观特征的因素有很多。首先,跨摄像光线头拍摄的图片会使得行人姿态多变,姿态的改变会图8:行人重识别技术部分难点示例影响行人的外观特征。例如,行人的前面和背面可能是不同颜色的衣物。此外,遮挡是更具有挑战陛的问题,尤其在无人超市(货架遮挡)、地铁闸121(验票口遮挡)和商城(其他行人遮挡)等场景中,遮挡发生频繁。遮挡可以被认为是限制行人重识别技术应用的最关键的因素。可以预见,在不久的将来,大量关于处理遮挡问题的行人重识别算法将会被发表。光线也是影响行人外观特征的因素,不同相机可能会被安置在不同的光线条件下,自然光也会随着时间和天气的变化而变化。所以,如何提高算法对光线变化的鲁棒性也是面临的挑战之一。最后,还有一种很特殊的现象,即生活中的“撞衫”现象。两个体型接近的行人如果“撞衫”的话,则很RGB相机在白天《RGB相机在夜晚《红外相机在夜晚容易被计算机识别为同一个人。不过,这种现象发生的几率比较小,但一些特殊场景也不容忽视。例如,统一校服的学校和统一制服的公司等。前文提到的挑战都存在于可见光条件下,然而在夜间环境下,可见光相机几乎无法清晰成像,而图9:可见光相机和红外相机的跨模态行人重识别[4】【4]Wu,Ancong.etm.”RGB—infraredcross—modalitypersonre—identification”ProceedingsoftheIEEEInternationalConferenceonComputerVision2017深度学习时代的行人重识别技术——红外相机便是一个替代品。但是,这又给行人重识别技术带来了一个新的挑战,即红外相机和可见光相机的跨模态识别。可见光相机拍摄的图片是大众熟悉的包含颜色的彩色图片,而红外相机拍摄的图片则是基于轮廓信息的红外图片。彩色图片和红外图片属于两个完全不同的模态。在彩色域得到广泛应用的行人重识别技术并不能直接应用在红外域。目前,基于红外相机的跨模态行人重识别技术仍处于起步阶段,与实用要求还有较大差距。一旦解决了这个挑战,行人重识别技术的使用范围就会从可见光环境推广至不可见光环境。另一个挑战是行人重识别模型的加速与压缩。目前,在训练数据充足的前提下,模型已经可以取得较高精度,但是模型的计算和存储消耗依然很大,需要为此专门部署一个GPU。然而,在一些嵌入式芯片中,这种模型是无法部署的。因此,为了加快行人重识别技术的落地,需要在保证精度的前提下,尽可能加速与压缩模型,这同样是一个很大的挑战。四、结语让机器看瞳世界是人工智能和计算机视觉一直在追求的目标,行人重识别技术是这个宏伟目标中很重要的一个子问题。近几年,深度学习的快速发展给行人重识别技术带来了巨大进步。目前,行人重识别技术已经在一些限制场景中得到一定程度的应用。当然,行人重识别技术离大范围普及应用依然还有一段距离。遮挡、光线和跨模态等问题仍是行人重识别技术需要在未来克服的挑战。我们期待,在将来的某一天能够看到行人重识别技术改善大众生活。查看内容精选·4.9·