图像目标跟踪技术(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-05 06:38:58

点击下载

作者:王鑫,徐立中

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

图像目标跟踪技术

图像目标跟踪技术试读:

前言

近年来,随着信息技术的飞速发展,图像目标跟踪技术成为计算机视觉领域中的一个重要课题,这是因为:首先,计算机处理能力不断提高,存储成本大幅降低,使得以视频速率或近似视频速率采集存储图像序列成为可能;其次,图像目标跟踪技术极为广阔的市场应用前景也是推动此项研究的主要动力。图像目标跟踪技术涉及视频监控、目标识别和分类、军事目标探测、机器人视觉导航、智能交通、人机交互和虚拟现实等诸多军事和民用领域,对其深入研究具有重要的理论意义和应用价值。

本书将系统阐述图像目标跟踪的有关概念、原理和方法。在内容上既选择了有代表性的图像目标跟踪经典内容,又结合作者近年来有关图像目标跟踪关键技术的研究与应用实践,选取了一些新的研究成果,具有一定的广度、深度和新颖性。

本书共分9章,主要内容包括:图像目标跟踪的意义、应用及分类,非线性优化序贯拟蒙特卡洛滤波技术,融合背景信息的序贯拟蒙特卡洛滤波目标跟踪技术,基于概率图模型的粒子滤波多目标跟踪技术,基于序贯拟蒙特卡洛滤波的多摄像机目标跟踪技术,基于信息融合的目标跟踪技术,受机械参数影响的多摄像机深度估计,基于自适应多信息融合的均值漂移红外目标跟踪技术,融合均值漂移和粒子滤波优点的实时目标跟踪技术。

第1章简要介绍图像目标跟踪的意义、应用及分类。简要分析单摄像机视觉跟踪和多摄像机视觉跟踪中不确定性问题研究的热点和难点,井介绍了红外图像目标跟踪的意义和应用,以及智能视频监控的背景、意义和一些典型的系统。

第2章介绍基于贝叶斯框架的跟踪问题描述,给出贝叶斯滤波的蒙特卡洛实现和拟蒙特卡洛实现,井针对序贯拟蒙特卡洛滤波算法计算复杂度高,粒子表示能力弱等缺点,设计非线性优化序贯拟蒙特卡洛滤波目标跟踪算法。

第3章简要分析单摄像机视觉跟踪中目标表观和背景数据的不确定性,井将序贯拟蒙特卡洛滤波作为跟踪框架应用于单摄像机视觉跟踪。

第4章针对单摄像机多目标跟踪中的众多不确定性问题,首先介绍概率图模型理论,在此基础上,介绍基于概率图模型的粒子滤波多目标跟踪算法。

第5章首先介绍基于贝叶斯理论的多摄像机目标跟踪建模,及多摄像机之间的单应约束原理和计算方法,然后介绍基于序贯拟蒙特卡洛滤波的多摄像机目标跟踪算法。

第6章首先介绍监控视频信息融合的概念、结构和方法,然后针对单一摄像机介绍一种基于目标颜色和边缘方向特征随机融合的粒子滤波跟踪方法,最后介绍一种基于多摄像机数据融合新策略的多摄像机视频跟踪融合系统。

第7章首先简要介绍立体视觉模型,然后针对双目立体视觉可能出现的机械参数的不确定性进行分析,井介绍5种不确定性单独出现情况下的深度估计算法及多个不确定性同时出现时的深度估计算法。

第8章首先介绍均值漂移的基本原理及其在目标跟踪中的应用,然后针对复杂背景下红外目标跟踪问题,介绍一种改进的基于自适应多信息融合的均值漂移红外目标跟踪算法。

第9章首先针对彩色目标跟踪问题,介绍一种融合均值漂移和粒子滤波优点的实时彩色目标跟踪算法。此外,为了能够快速和准确地跟踪红外运动目标,介绍一种融合均值漂移和粒子滤波优点的红外目标跟踪算法。

本书第1章、第4章、第6章、第8章、第9章由王鑫编写;第2章、第3章、第5章、第7章由徐立中、丁晓峰编写;全书由王鑫、徐立中统稿。

本书是作者在近年来研究工作的基础上写作而成的。成书之际由衷地感谢作者的导师唐振民教授,感谢他多年来对作者的培养和悉心指导,有幸在他领导的研究室中参加科研工作井受到锻炼,使作者受益一生。

衷心感谢徐立中教授提供了优良的博士后研究工作环境,奠定了本书的写作基础。

在研究和写作过程中,课题组刘超颖、吴正军等提供了本书的部分素材,在此向他们表示衷心的感谢。

向所有的参考文献作者及为本书出版付出辛勤劳动的同志们表示感谢。

限于作者的水平,书中难免有缺点和不完善之处,恳请批评指正。王鑫于河海大学2012年3月14日第1章绪论1.1 图像目标跟踪的意义和应用

在现代社会中,人的生命和财产安全一直是人类所关注的焦点。由于视频序列可以给我们提供大量有价值的信息,利用视频进行监视己经成为一种有效保护人的生命和财产的工具。越来越多的闭路电视[1](Closed-Circuit Television,CCTV)系统被越来越广泛地安装在与我们日常生活息息相关的场所,如社区和重要建筑物的内部(大型购物场所、休闲广场等)、城市公共交通车站(飞机场、火车站、汽车站、公交站台等)等。

但是传统的CCTV系统主要是依赖人工操作处理从各个摄像机传送到监视中心屏幕上的图像。实际生活中,大多数大规模CCTV系统中,摄像机的个数与监视中心操作人员的比例在4:1~30:1之间,研究表明,人工操作员最多能同时有效地处理来自4个摄像机的视频

[2]图像。此外,异常情况总是在某一较长时间的正常情况之后发生的,而这一时段又是监视人员的监视疲劳期,这在一定程度上又使得操作人员及时成功发现异常情况的可能性降低。

随着计算机视觉、模式识别、控制工程、人工智能等理论及相关技术的发展,视频监控系统己经从第一代的模拟CCTV系统经过第二代的半自动视频监控系统发展到了现在的第三代广域自动智能视频监[3]控(Intelligent Video Surveillance,IVS)系统。第二代的半自动视频监控系统在传统CCTV系统上结合了计算机视觉技术,可以处理来自摄像机的图像和信号,使系统主动检测某些异常事件,而区别于第一代被动的录制,这种系统所涉及的大都是集中式处理。第三代广域自动视频监控系统旨在建立更广范围内实时、高效的自动智能监视系统,由于分布式计算、嵌入式计算和传感器网络的发展,分布式多智能摄[4]像机监控系统成为了第三代广域自动视频监控系统中的主流方向。

目前,智能视频监控的研究主要集中在视觉跟踪以及后续的视频内容理解等方面。其中,视觉跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度等,以及运动轨迹,从而为后续的各种高级处理,如目标行为[5]分析、目标识别等建立基础。世界上许多国家与视觉相关的研究团队针对视频监控中的目标检测和跟踪等方面做出了大量的工作,井在众多著名国际期刊(IEEE Transactions on Pattern Analysis and Machine Intelligence;IEEE Transactions on Image Processing; IEEE Transactions on Circuits and Systems for Video Technology; International Journal of Computer Vision;Computer Vision and Image Understanding; Image and Vision Computing; Pattern Recognition; Pattern Recognition Letters;Machine Vision and Applications;IET Computer Vision; IET Image Processing;IET Signal Processing等)和重要国际会议(ICCV; ECCV; CVPR; BMCV; VS-PETS; ICDSC等)上发表了相关的论文。

视觉跟踪在以下多个方面有实际的应用需求。(1)视频监控(Video Surveillance):跟踪人或车辆从而检测非正常行为,井对特定的目标进行识别。(2)视频编辑(Video Editing):在视频录像中给一个移动目标或人增加一个图形内容。(3)分析体育运动事件(Analysis of Sport Events):提取运动员在体育比赛中的位置信息,通过这些数据,运动专家可以分析运动员的表现。(4)跟踪实验室动物(Tracking of Laboratory Animals):学习自然界多智能主体的相互作用。(5)人机交互(Human-Computer Interfaces):用于智能环境从而协助人的日常任务。(6)认知系统(Cognitive System):通过跟踪来学习不同目标在其环境中的动态性质。

然而,视觉跟踪系统又是一个包含大量不确定性信息的系统,如固有可视数据的不确定性、目标动态特性的不确定性以及摄像机参数的不确定性等。因此,从视觉跟踪中存在的不确定性问题入手,对视觉跟踪开展研究具有重要的意义。

按照不同的情况,如摄像机是否运动、场景中运动目标的数目、场景中运动目标的类型、摄像机的数目等,可以将视觉跟踪问题分为[6]很多类型。

1.固定摄像机与运动摄像机

根据摄像机是否运动可将跟踪问题分为基于固定摄像机的目标跟踪和基于运动摄像机的目标跟踪两类。大多数的视频监控系统都是采用固定摄像机对关注的场景进行监视,此时背景是静止的,目标是移动的。这种情况下通常使用背景差法对运动目标进行检测。但是,在很多复杂情况下,摄像机是运动的,其运动的形式可以分为两种:一种是摄像机的支架固定,摄像机进行旋转、俯仰以及缩放;另一种是摄像机装在某个移动的载体上,如移动的车辆、飞行器。在这些情况下,背景和前景都是运动的,对运动目标进行检测井跟踪需要对背景运动进行估计或匹配。如果摄像机的运动方式被限定在垂直于光轴的平面上,可以采用图像拼接的方法将背景拼在一起,然后按照摄像机静止时的跟踪方法进行处理。如果摄像机是沿着光轴运动的,可以考[7]虑使用光流法(Optical Flow)。

2.单目标与多目标

根据场景中运动目标数目的多少,视频跟踪问题可分为单目标跟踪和多目标跟踪。单目标跟踪虽然只跟踪一个目标,但在复杂背景下仍然不是一个容易处理的问题。由于场景中噪声的影响,往往不能准确地检测到真正的运动目标,即使检测到了运动目标,由于阴影或光照的影响,提取出来的运动目标也可能不完整,而多目标跟踪比单目标跟踪又要困难得多。在多目标跟踪过程中,通常采用一个跟踪器跟踪一个目标,它除了涉及单目标跟踪的问题,还必须考虑到多个目标在场景中的互相遮挡、合井、分离等情况,这是多目标跟踪问题的难[8]点。

3.刚体与非刚体

根据场景中运动目标类型的不同,可将视觉跟踪问题分为刚体(Rigid)和非刚体(Non-rigid)的跟踪。所谓刚体是指具有刚性结构、不易变形的物体,例如车辆、飞机等人造物体。这些物体的共同特点是结构比较规范,能够用几何模型描述,对这类运动目标的跟踪常采用基于模型的跟踪方法。而非刚体是指外形能够变化的物体,如人、动物、细胞等,对这类目标进行跟踪常采用基于变形模板(Deformable Template)的方法。

4.可见光图像与红外图像

根据所使用的传感器种类的不同,可将视觉跟踪问题分为由摄像机获得的可见光图像和由红外传感器获得的红外图像的跟踪等,这两种类型的跟踪分别在不同的情况下使用。由于红外图像中物体的亮度主要取决于物体的温度和辐射的热量,与光线条件无关,因此可使用红外图像在夜间进行目标跟踪,而白天使用可见光图像进行目标跟踪。如果将两者所获得的图像进行融合处理,可以获得比单一传感器更多的信息,从而提高目标检测和跟踪的能力。对于红外图像的目标检测可采用基于模板匹配的方法、基于亮度阈值的方法,或者采用某种模式识别或机器学习方法对感兴趣区域(Region of Interest,ROI)进行分类以确定检测区域。

5.单摄像机与多摄像机

根据摄像机的数目,视觉跟踪可以分为单摄像机视觉跟踪和多摄像机视觉跟踪。下面两节将重点分析单摄像机视觉跟踪和多摄像机视觉跟踪中存在的不确定性问题,井介绍单摄像机视觉跟踪和多摄像机视觉跟踪在国内外的研究现状。1.2 单摄像机目标跟踪

单摄像机目标跟踪中的一个突出问题是固有的可视数据的不确定性和跟踪目标动态特征的不确定性。为了解决这些不确定性,首先必须对目标的可视化数据进行顽健的描述,其次要针对目标的动态特征进行正确的假设,最后对目标的状态进行预测。因此,一个典型的单摄像机视觉跟踪系统可以分为以下 3部分:目标表示模型;目标动态模型;目标状态估计模型。目标表示模型用于捕获跟踪目标的可视属性,动态模型用来描述目标的动态特征,目标状态估计模型用于连续地估计目标的状态。针对具体的跟踪问题,将这 3个部分相互协作、合理结合,构造出准确、顽健的跟踪器,从而实现单摄像机目标跟踪。1.2.1 目标表示模型

目标表示模型是将图像中感兴趣的目标通过某种方法提取出来[9]。基于目标表示模型中包含的信息,可以将目标表示模型分为四类:基于点特征的模型;基于形状的模型;基于表观的模型;基于运动的模型。

1.基于点特征的模型(Point-based Model)

基于点特征的模型通过检测目标上的感兴趣点,将这些感兴趣点组成的集合作为描述目标的依据。一般地,目标上的感兴趣点是目标上具有多个方向奇异性的点,例如:Kanade-Lucas-Tomasi(KLT)[10][11]特征点、Harris 角点、SIFT(Scale-invariant Feature Transform)[12][13]特征点、SURF(Speed Up Robust Feature)特征点等。一般特征点分布在整个目标上,即使当目标有部分被遮挡时,仍然可以跟踪到其他的特征点。基于点特征的跟踪在对于刚体时有较好的效果,当用点特征来描述非刚体时,由于非刚体在运动过程中容易形变,从而使目标上的点特征不时地减少、增加,从而增加了跟踪的难度。

2.基于形状的模型(Shape-based Model)

基于形状的模型是通过对目标形状的描述来对目标建模。早期的目标形状模型是通过利用可变形线(Deformable Line)和主动轮廓线模型(Active Contour Model)来反复匹配目标的边缘特征,从而建立目标的形状模型。这种建模方法的主要缺点是对噪声比较敏感,不能处理多个目标之间发生遮挡的情况,而且模型把背景中出现的伪特征当成目标的边缘,从而建立错误的形状模型。当跟踪一类拥有相似形状的目标时,可以采用点分布模型(Point Distribution Model)来描[14]述目标,为了保证轮廓的平滑和目标的形状描述的准确性,需要[15]大量的离散点,导致系统方程维数过高。Masouri将水平集用于目[16]标跟踪领域。Parogis 和Deriche利用水平集进行纹理分割以及运动目标分割和跟踪。

当跟踪的目标较小且形状变化较快时,非传统的形状可能更适[17]合。例如,在体育运动视频的处理中,Perez和Kovacic利用14个二进制Walsh函数核来编码目标的形状,井通过相似性寻找目标在下一[18]时刻的位置。Dalal和Triggs利用有向梯度直方图(Histogram of [19]Oriented Gradient,HOG)来表示行人形状。Lu等利用HOG方法来检测和跟踪冰球运动中的运动员。

3.基于表观的模型(Appearance-based Model)

基于表观的模型不对目标的物理结构、形状等属性进行直接建模,而是采用图像颜色、梯度、灰度等信息对目标进行建模。

直接利用颜色信息对目标进行建模是一类最常见的方法。如[20]Senior采用自适应统计模型来对目标的颜色进行建模,每一个目标通过一个矩形框来标记,利用高斯分布来建模框内像素的颜色分布。[21]由于颜色特征受光照变化等因素影响,Jopson等利用期望最大化算法(Expectation Maximization,EM)对目标外观颜色变化进行估计,在线更新模型参数。颜色直方图作为颜色特征的扩展,近年来己被成功应用于目标跟踪领域。利用颜色直方图作为目标特征的描述时,[22]为了增强其顽健性,Comaniciu和Meer不仅考虑了目标本身的颜色直方图,还考虑了目标临近领域是否为目标的组成部分。另外,[23]Wang 等采用混合高斯模型(Mixture of Gaussians,MoG)对目标的颜色分布进行建模,同时该模型还融合了空间信息。

为了在跟踪过程中获得更加顽健的目标表示模型,目标的多个特征,如颜色、纹理等常被组合在一起共同来描述目标。Li 和 [24]Chaumette在光照变化等复杂背景下,通过将目标的形状、颜色、[25]结构和边缘信息四者组合来对目标进行跟踪。Cootes等提出了基于主动表观模型(Active Appearance Model,AAM)的目标表示方法,该模型可以看作是主动轮廓模型和主动形状模型的进化。[26,27]Tuzel、Porikli和Meer提出了基于协方差的目标表观模型。协方差特征是一个对称正定的矩阵,可以用来描述图像中任意形状。随后他[28]们又将协方差特征用于行人检测,提出了基于协方差的行人检测方法,获得了比梯度直方图更好的检测效果。

4.基于运动的模型(Motion-based Model)

基于运动的模型主要利用目标在图像中运动的信息来获得目标的位置。典型的方法是考虑图像目标像素的外表运动,如光流法。光流法是根据连续几帧图像计算像素运动的大小和方向,利用运动场区分背景和运动对象。一般分为全局光流场和基于特征点的光流场两种。[29]全局光流场的计算方法有 Horn-Schunck 方法、Lucas-Kanade方法,在计算得到全局光流场后,通过比较运动目标与背景之间的运动差异实现对运动目标的分割,从而达到跟踪的目的。特征点光流法通过特征匹配来求得特征点处的流速,与全局光流场算法相比较,这种算法具有计算量小和快速灵活的特点。但是特征点光流法得到的是稀疏的光流场,因而很难提取到目标精确的形状。一般情况下,由于噪声、多光源、阴影、透明性和遮挡性等原因,计算得出的光流场分布不是十分可靠和精确,而且多数光流法计算复杂,除非有特殊的硬件支持,否则很难实现算法的实时处理。1.2.2 目标动态模型

目标动态模型是用于描述目标的动态特性,即目标在图像中的运动方程。在跟踪中如果知道了目标的动态特性,就可以根据它推测目标在下一时刻可能出现的位置,然后再通过目标的表观模型对预测的位置进行搜索,从而确立目标下一时刻准确出现的位置。

在跟踪中常使用的目标动态模型有一阶动态模型、二阶动态模型、自适应速度模型等。为了能够描述目标可能发生的多种动态性,一些学者提出了相互作用的多个模型(Interacting Multiple Model,IMM)来描述目标的运动,此模型利用多个跟踪器来井行地跟踪目标,其中每[30]一个跟踪器使用不同的目标动态模型。Bar-Shalom等设计了一个评价标准来判定不同模型描述目标运动的准确性,另外,还分析了多个运动模型如何组合,以及不同跟踪器如何结合起来能够得到最好的跟踪结果。由于 IMM 采用了多个跟踪器,从而使该方法需要消耗大量的计算资源。

在一些情况下,例如体育运动视频跟踪、人机交互视频跟踪等,我们井不能准确地知道目标的动态特性,此时一般采用随机步长(Random-Walk)模型或近似匀速模型来描述目标的运动特性。1.2.3 目标状态估计模型

目标跟踪问题可以看作是对目标状态随时间的统计估计。在视觉跟踪中,当确定了目标表观模型和目标动态模型后,通过目标状态估计模型可以连续估计目标在视频中的状态。从统计学角度,目标当前的状态被表示成目标状态空间中的一个概率密度函数(Probability Density Function,PDF),跟踪就是按照新的测量来递归估计目标的后验分布。

如果假设目标的动态过程和测量过程是线性的、高斯的,则目标后验概率可以通过卡尔曼滤波(Kalman Filter,KF)计算得到。然而,目标跟踪大多为非线性、非高斯过程,卡尔曼滤波中的线性、高斯假设则过于严格,如果直接利用卡尔曼滤波的假设应用于视觉跟踪中,一般会导致卡尔曼滤波的性能退化。

为了解决非线性问题,有学者提出了扩展卡尔曼滤波[31](Extended Kalman Filter,EKF)。EKF是采用参数化的解析形式对系统的非线性模型进行线性近似。一般利用一阶Taylor展开对非线性部分进行线性化。为了获得更好的近似效果,又引入更高阶的Taylor展开。然而,随着阶数的增加,求解的复杂度也越来越高。EKF有两个明显的缺点:(1)在对系统模型和测量模型的线性化过程中,Taylor展开只是在一个点上进行展开,井没有考虑所有的点;(2)假设先验和后验概率都是服从高斯分布的,实际模型中的非线性会导致后验概率不服从高斯分布和在多步传播后引起多模态,这破坏了EKF中高斯假设,从而导致滤波性能退化甚至使滤波完全失效。

为了更好地处理测量模型和系统状态转换模型的非线性,一些学者将加权统计线性回归(Weighted Statistical Linear Regression)方法引入到卡尔曼滤波中,通过一组确定性采样点(Sigma 点集合)来捕获系统的相关统计参数。这一类改进的卡尔曼滤波统称为Sigma点卡尔曼滤波。根据sigma点选取的不同,主要分为无迹卡尔曼滤波[32](Unscented Kalman Filter,UKF)和中心差分卡尔曼滤波(Central-[33]difference Kalman Filter,CDKF)。UKF 是在无迹变换(Unscented Transform,UT)的基础上,基于卡尔曼滤波框架而建立,利用确定性采样来逼近状态的后验概率密度,而不对非线性函数进行近似,避免了雅可比矩阵的计算。与 EKF 类似,UKF中的后验概率是通过高斯分布近似,但是这个高斯分布是通过Sigma点集合来描述的。在传播过程中,这些点通过真正的非线性系统传播,利用这些点描述的后验概率的期望与方差的准确性达到了Taylor展开三次式。相对于EKF中的近似只是准确到Taylor展开一次式,UKF有了很大的提高,而且[33]UKF的计算复杂度比EKF小。Norgarrd等提出了中心差分卡尔曼滤波,它利用Sterling内插公式对非线性函数作多项式逼近,与EKF相比在不增加计算量的前提下,提高了滤波精度,且比UKF有稍高的理论精度,更加易于实现。

考虑到一个非高斯分布可以被足够多的高斯分布组成混合高斯分布来近似,一些学者利用高斯混合模型对多模后验概率进行建模,提[34]出了高斯和滤波(Gaussian Sum Filter,GSF)。高斯和滤波在准确性上比利用单个高斯模型更加准确,但是它在传播过程中,混合高斯模型的每一个元都是基于EKF的,这就将EKF的缺点引入了高斯和滤波中,而且,混合高斯模型中单独高斯的个数难以确定,如果观测噪声和系统噪声都是采用高斯混合模型来近似,则随着时间的推移,后验概率中混合高斯的组成元的个数呈指数增加。

Sigma 点卡尔曼滤波、高斯和滤波均是采用高斯模型或者混合高斯模型来近似后验概率,这些模型均是参数模型。为此,一些学者提出了基于非参数的模型来近似后验概率,例如基于网格细胞的离散分布来近似后验概率、利用样条函数来近似后验概率、利用步长函数来近似后验概率、利用求积分的方法来近似后验概率等,这些方法均可称为基于网格的方法。由于基于网格的方法需要指定细胞的数目,而且网格需要充分的稠密才能够较好地近似后验概率,随着状态维数的增加,计算代价会越来越大。

上述介绍的算法虽然能够处理一些非线性问题,但是它们大都是基于高斯逼近的方法,而现实世界中的目标跟踪问题,大都是非线性、非高斯问题,采用均值和方差为特征显然不能精确描述目标状态的后验概率。[35]

直到1996年,Isard和Blake提出了条件概率传播(Condition Density Propagation,Condensation)算法,该算法可以有效计算目标的后验概率,而且不需要像卡尔曼滤波那样严格地限制条件。粒子滤[36]波(Particle Filter,PF)因为能灵活适应非线性动态模型和多模态观测模型,被认为是目前解决非线性、非高斯模型最成功的方法之一。相比于卡尔曼滤波,粒子滤波不需要假设目标的后验概率是服从高斯分布的,它通过选取一组具有相应权值的随机样本(粒子)来表示状态的后验分布。这些粒子通过在重要性概率密度函数上随机抽样得到,然后通过预测和更新两个步骤对目标状态进行估计。从本质上讲,粒[37]子滤波是基于序贯蒙特卡洛(Sequential Monte-Carlo,SMC)方法,而序贯蒙特卡洛方法的基础是重要性采样(Importance Sampling,IS)和序贯重要性采样(Sequential Importance Sampling,SIS)。然而,序贯重要性采样有个缺点就是粒子容易退化,即经过多次迭代后,仅有某一归一化重要权值趋于1,其他都趋于0,可以忽略不计。因此针对粒子退化现象,有学者对粒子滤波提出[38]了各种改进,如辅助粒子滤波(Auxiliary Particle Filter,APF)、正则化粒子滤波(Regularized Particle Filter,RPF)、无迹粒子滤波[39](Unscented Particle Filter,UPF)、马尔科夫链蒙特卡洛粒子滤波[40](Markov Chain Monte Carlo Particle Filter,MCMCPF)、基于遗传算法(Genetic Algorithm)的粒子滤波、粒子群优化粒子滤波(Particle Swarm Optimized Particle Filter,PSOPF)等,井将改进的粒子滤波与不同的表观模型和目标动态模型相结合应用于目标跟踪。

由于粒子滤波中的粒子大都是基于蒙特卡洛方法采样得到的,这样获得的粒子具有随意性,会造成粒子集合在状态空间积聚在一起或形成空隙,从而不能充分描述分布函数,降低了估计的精度。2006[41]年,Guo 和 Wang将拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法引入到非线性动态系统的估计中,提出了序贯拟蒙特卡洛方法。随后,关于拟蒙特卡洛滤波的各种改进算法被提出。如赵玲玲等[42]在粒子滤波预测阶段,从重要性分布中生成随机样本,权值更新后,根据权值分布确定样本个数,然后在以大权重样本为核心的多个子空间内进行拟蒙特卡洛采样,提出了一种快速拟蒙特卡洛粒子滤波,侯代文等[43]在序贯拟蒙特卡洛滤波的基础上,提出了基于均值漂移(Mean Shift,MS)的序贯拟蒙特卡洛方法,该算法采用基于均值漂移的方法将粒子向高似然区域移动,减少了粒子数目,降低了计算复杂度。1.3 多摄像机目标跟踪

由于摄像机数目的增加、视角的不同,多摄像机目标跟踪既包含了计算机视觉和信息融合的知识,也涉及了模式识别和人工智能的理论,是一个多学科交叉的研究问题。多摄像机目标跟踪根据摄像机之间有无重叠视域可以分为有重叠视域多摄像机目标跟踪和无重叠视域多摄像机目标跟踪。

有重叠视域多摄像机目标跟踪可以从不同角度对被跟踪目标进行观测从而获得关于目标更顽健的跟踪信息,有效地解决当目标发生遮挡或进入死角时目标容易跟丢的问题。但是,如何将不同视角摄像机获得的目标信息正确地对应起来是比较困难的。无重叠视域多摄像机目标跟踪一般应用于广域视频监控场景。在广域视频监控中,为了减少摄像机的数目,降低成本和计算量,通常只在重要的区域安装摄像机,每一个摄像机的视域仅覆盖一块需要监控的区域,通过合理地配置完成多摄像机目标跟踪。

由于摄像机数目的增加、摄像机之间的位置关系等因素,多摄像机目标跟踪的研究主要集中在目标匹配、摄像机标定及拓扑关系估计和数据关联3个部分。1.3.1 目标匹配

多摄像机目标跟踪中的目标匹配主要是对同一时刻出现在多个摄像机视域内的目标或者不同时刻不同摄像机视域范围内的目标进行匹配,从而实现目标的定位和识别。由于多摄像机目标跟踪中目标在不同摄像机前的颜色、形状以及摄像机参数、视角的不同,使得多摄像机目标跟踪中目标匹配与单摄像机目标跟踪中的目标匹配有较大的区别,导致传统的单摄像机目标跟踪中的目标匹配理论不再适用于多摄像机目标跟踪。多摄像机之间的目标匹配需要建立适合自己特殊问题的新的理论体系。目前己有的匹配方法主要包括基于几何的方法和基于识别的方法。

1.基于几何的方法

基于几何的方法又分为基于二维几何约束和基于三维几何约束。[44]Black等根据基于地表平面的单应矩阵约束,利用人体质心进行目[45]标匹配。Kelly等通过摄像机之间的协作来估计目标在环境三维模型中的位置,井通过估计得到的位置信息进行匹配,但是这种方法需[46]要事先知道关于环境的三维知识。梁华等提出了一种基于三焦点张量转移的多摄像机协同目标定位方法。

2.基于识别的方法

基于识别的方法首先是对目标进行特征提取井建立表观模型,估计目标在不同摄像机中表观模型之间的转移模型(Transfer Model),最后通过表观模型相似度估计来确定目标的匹配结果。这里,表观模型是指利用目标在不同摄像机前出现时表现出的特征所建立的模型。这些特征主要包括颜色特征、点特征、线特征、区域特征、几何特征、模型特征等。在己有的研究成果中,一般会选取这些特征中的一种或几种建立表观模型来进行目标匹配。在特征提取的过程中,某些特征需要先对摄像机进行标定,如点特征、几何特征等。然而,考虑到随着摄像机数量的急剧增加,对每个摄像机都进行标定和对应愈发变得困难,所以现有的研究工作大都采用不事先标定摄像机的方法进行特征抽取与匹配,如提取目标颜色特征。然而颜色特征的使用会带来以[47]下几个问题:(1)当不同目标的颜色相同或相近时容易产生“误配”;(2)视角光线变化时,颜色随之产生差异;(3)不同类型的摄像机或不同的参数设置,导致对同一目标采集颜色不尽相同;(4)目标本身的颜色不单一时,不同视角可能对应不同的颜色。

为了弥补不同视频中同一目标的表观模型之间的变化差异,转移模型的估计就显得非常重要。另外,在衡量表观模型之间相似度的过[48]程中,有关相似度度量的不同方法也被提出。Kang等不仅在目标前景区域建立颜色分布模型及对特征点进行颜色建模,而且还结合了边缘特征来进行匹配建模,在相似度估计方面,他们采用Kullback-Leibler距离作为量度。[26]

2006年,Tuzel等构造了协方差特征,它以对称正定矩阵的形式来表示,有效融合了图像的颜色特征、图像梯度、边缘尺寸、滤波表示等。协方差特征包含了目标空间和统计特征,能够表示目标在不同视角和姿态下的不变特征。1.3.2 摄像机标定及拓扑关系估计

一般而言,摄像机标定主要是获取摄像机的内参与外参。多个摄像机标定可以通过两两标定摄像机,从而获得多个摄像机之间的关系。多个摄像机标定中,若每两个摄像机视域重叠,则可以通过传统[49]的摄像机标定方法确定两两摄像机之间的空间关系。Zhang利用棋盘作为标定物,对摄像机进行两两标定,从而确立多个摄像机之间的[50]拓扑关系。Svoboda 等基于传统的摄像机标定理论,利用激光指示器对至少3个摄像机组成的监视网络进行标定,标定过程只使用到了一个激光指示器,大大简化了标定过程,但是该方法只在所有摄像机有共同的视域时才适用。

随着视频监控应用领域的迅速拓广和监视区域的不断扩大,通过人工手段对摄像机标定越来越不能满足广域监控的需要,而且,当摄像机之间没有视域重叠时,传统的摄像机之间的标定方法也己经不再适用。即使使用事先标定好的摄像机来进行监控,摄像机之间的目标出入位置关系,事件连接关系和转移时间关系等拓扑关系也需要之后通过学习或其他手段来得到。因此,自动获取监控摄像机之间的拓扑关系就成为多摄像机视频跟踪研究的一个重要组成部分。多个摄像机的拓扑关系估计主要是获取多个摄像机之间的视觉图(Vision [51]Graph),即摄像机之间的空间拓扑和时间拓扑估计。

图1.1是一个视频监控网路的摄像机位置示意图,以及对应的视觉图,视觉图中如果两个摄像机能够从不同的角度观测到同样的场景,则两者之间有连接。图1.1 摄像机位置示意图和对应的视觉图

摄像机拓扑关系估计方法主要分为两类:(1)匹配单个目标外观或运动趋势(如运动速度);(2)建立事件进入和离开的过渡时间分布。

1.匹配单个目标外观或运动趋势

该方法主要通过利用可用的目标、可靠的视觉和运动特征来获取摄像机之间的目标关联。这个方法受视角变化引起的特征变化(如摄像机间、摄像机内光照变化)、摄像机视角、人的姿态引起的外观变化的影响。虽然不同的策略被引进来自适应和矫正特征变化,但是现实场景中的目标特征匹配仍然是一个众所周知的难题。因为即使特征变化能够被矫正或者降低影响,但是由于目标间严重遮挡等问题,使得用于匹配的可靠特征仍然难以寻找。更进一步,现在大多存在的方法是通过有监督或者无监督的学习来得到摄像机之间的关系,而这是建立在己知目标匹配关系的假设上的,很难自动可靠地建立目标之间的匹配。[52]

Javed等首先利用高斯分布对目标外观颜色进行建模,然后利用Parzen窗来估计转移时间概率分布,综合两者的信息对目标进行匹[53]配,从而实现目标在多摄像机之间的跟踪。Gilbert 和 Bowden提出利用非监督累加学习的方法来估计不同摄像机之间的时间关系和目标[54]在摄像机之间的出现关系。Motamed 和Wallart采用模糊时间间隔来表示己观测目标在下一摄像机中出现的可能性,这种可能性通过运动方程估计得到。

2.建立事件进入和离开的过渡时间分布

该方法通过建模不同摄像机视角下检测到的进入和离开事件的过[55]渡时间分布,获取摄像机之间的拓扑关系估计。Pasula等在给定拓扑结构约束的场景中,通过在线EM方法对时间转移分布进行学习。[56]Ellis等通过对多摄像机监控网络的目标观测数据进行非监督学习,自动建立起摄像机之间的时空拓扑关系。该算法由于只考虑了时间和空间的信息,因此不受摄像机本身特性和观测方向等因素的限制。[57]Tieu等受Ellis方法的启发,把不确定对应和贝叶斯方法相结合,减少了假设条件,提出了一个更一般的拓扑关系估计算法。Van Den [58]Hengel等首先假设所有的摄像机都存在潜在的连接关系,然后通过观测把不可能的连接去掉,实验证明该方法在学习大规模摄像机网络拓扑关系方面,尤其是在学习样本较少的情况下,具有较好的效果。1.3.3 数据关联

数据关联是把目标的外观特征和摄像机的拓扑关系特征相融合,最终实现目标在整个监控区域的持续跟踪。为了能在多摄像机广域监视下对目标持续跟踪,必须考虑目标在不同摄像机之间的交接问题。目标交接中的关键问题是如何找到下一个要交接的摄像机以及使摄像机交接的次数在整个跟踪过程中最小。

多摄像机目标跟踪中的数据关联从本质上讲属于信息融合问题。因此,许多经典的信息融合框架和方法均可被用来解决这个问题。其中主要使用的算法有基于贝叶斯估计模型的方法、卡尔曼滤波、粒子滤波等。

1.有重叠视域数据关联[59]

Du等将序贯置信传播(Sequential Beliedf Propagation)和粒[60]子滤波算法相结合,用于跟踪重叠视域多摄像机目标。Qu 等提出[61]分布式贝叶斯目标跟踪算法。Cai 等建立了每个目标的跟踪置信度,当跟踪置信度低于设定阈值时,系统开始在摄像机网络中进行全局搜索,井激活对当前跟踪目标的跟踪置信度高的摄像机进行跟踪。[62]Munoz-Salinas 等将贝叶斯滤波与 Dempster-Shafer 证据理论相结[63]合,提出了证据滤波用于解决室内多摄像机多目标跟踪。冯巍等利用最大似然准则对多视角目标跟踪问题进行建模,通过将似然函数分解为本地似然函数和远程似然函数,从而求解得到目标的状态。范[64]晶晶等提出了一种基于卡尔曼滤波在线目标信息时空交互算法,通过多摄像机的几何限制建立空间目标位置信息状态转移方程,得到了当前视角对于目标的估计结果。

2.无重叠视域数据关联[65]

Huang等通过观测不同摄像机内的目标出现时的特征,建立目标的概率分布,这些特征包括目标出现和离开摄像机视域的时间以及目标颜色的平均色调、饱和度、强度以及直方图,最后采用基于贝叶斯理论的方法来匹配和识别相邻两个摄像机之间的目标。Kettnaker[66]等利用贝叶斯方法对多摄像机系统中的目标建立模型,利用求解线性规划问题的思路来求解模型的最大后验概率,从而实现目标跟[55]踪。Pasula等把Huang的方法拓展到用多个摄像机估计多个目标的情况,利用马尔科夫链蒙特卡洛仿真的方法求解模型的最大后验概[52]率。Javed 等提出了目标表观模型和拓扑关系的估计方法,利用有向图求解模型的最大后验概率。该方法不需要事先标定摄像机,对目标的运动方向也没有特殊要求,所有这些信息都通过对训练数据集的[67]监督学习得到。Chilgunde等建立了基于卡尔曼滤波的多摄像机目标跟踪算法,卡尔曼滤波不仅被用于跟踪摄像机视域内的目标,当目标离开摄像机视域时仍然对其进行目标跟踪,然后通过对目标的形状、运动、位置等特征进行高斯建模来实现目标在摄像机之间的匹配。[68]Leoputra等在事先己知的摄像机拓扑关系的基础上,提出了基于粒[46]子滤波的多摄像机目标跟踪算法。梁华等提出了一种基于三焦点[69]张量转移的多摄像机目标匹配方法。刘少华等提出了一种基于最小费用流模型的目标关联算法,该算法能够估算井修正基于二分图最大匹配算法求解过程中效用函数偏差导致的错误的数据关联。程咏梅[70]等提出了基于决策级融合的图像传感器目标关联算法,该算法首先给出目标多个特征的描述,将每一个特征作为证据理论中的一个证据,定义了它们的基本置信指派函数,然后利用Dempster组合规则融合目标多个特征基本置信指派值,得到融合后目标的基本置信指派,进一步利用融合决策规则得到融合后的结果,完成目标关联。1.4 红外图像中目标的跟踪

红外成像(Infrared Imaging)技术是依靠接收目标自身的红外热辐射来工作的,它具有完全被动、作用距离远、易于隐蔽、可昼夜工作等优点。随着红外成像技术的不断发展,红外成像系统己被广泛应用于红外精确制导、预警、视频监控、搜索和跟踪等多种军事及民用

[71]领域。

基于红外成像的目标检测与跟踪,作为红外精确制导和预警等领域的一项重要技术,在现代防御领域中具有十分重要的地位。尤其是复杂背景下红外目标的检测和跟踪(Infrared Target Detection and Tracking under Complex Background)一直是近年来研究的热门课题,它是提高红外精确制导和预警等系统性能的关键,对其深入研究有着重要的理论意义和实用价值。

高端科学技术的发展对现代军事领域的影响是十分广泛和深刻的,科技的进步促进和推动了战争模式的变革。以精确制导(Precision Guidance)技术为例,以雷达、激光为代表的基于主动搜索和跟踪的武器系统,由于容易暴露载机或导弹本身的位置信息,己逐步被红外或电视等以被动方式工作的系统所代替。

基于红外成像的制导是利用红外探测器检测目标的红外辐射,来捕获红外目标图像的制导技术,其图像质量与电视相近,但却可以在电视制导系统难以工作的夜间和低能见度下作战。同时,红外成像制导系统还具有设备简单可靠、体积小、重量轻;不易暴露,隐蔽性好;分辨率高、抗干扰性强等优点。因此,目前红外制导己成为精确制导技术的一个重要发展方向。红外制导的导弹在发射后,母机驾驶人员可以不必再管导弹,驾驶母机退出战区,而导弹利用目标本身的红外辐射(如飞机与火箭的喷管、坦克的发动机、舰船的锅炉及烟囱等)可对目标进行自动瞄准和跟踪,这样有利于消灭敌人、保全自己。而且,导弹越接近目标,来自目标的红外辐射越强,制导精度就越高,大大提高了命中率。据不完全统计,目前各国己生产和试制的红外制导导弹(包括空对空、地对空、空对地和反坦克导弹等)己超过50种。例如,美国的“响尾蛇”、法国的“魔术”、苏联的“环礁AA-2”等空对空导弹,美国的“小懈树”及“尾刺”、苏联的“环礁-7”、法国的“西北风”等防空导弹均采用红外自动寻的制导技术。目前,红外制导技术的发展趋势是确保在复杂战场环境和恶劣天气的情况下,提高目标检测及跟踪的能力,增大作用距离,使武器能在防区外攻击目标。

近年来,基于红外技术的预警(Early Warning)系统在国外也受到了各方面的高度重视,为此投入大量的人力和资金保证了其快速的发展及改进。例如,携带红外成像设备的照相侦查卫星比一般卫星可获得更多的地面目标情报信息,且能识别伪装目标,同时在夜间还能对地面的军事行动进行监控。导弹预警卫星利用红外检测器可检测导弹飞行时发动机尾焰的红外辐射,及时、准确地判断敌方导弹的方向,迅速报警,从而为拦截来袭导弹提供了宝贵的预警时间。海湾战争中,美国的“爱国者”导弹拦击伊拉克的“飞毛腿”导弹,红外预警卫星就起了极大的作用。此外,利用携带红外侦查装置的有人或无人驾驶的侦察机可有效对地方军队及其活动情况、阵地布局、地形等进行侦察与监视,为作战提供可靠的情报。总地来说,我国红外预警系统的研究工作与国外相比起步较晚,目前还存在较大的差距。国内在20世纪70~80年代进行的相关研究,由于缺少高灵敏度的红外检测器和高性能的信号处理器等硬件的支持,整个红外预警系统始终未能达到实用化水平。自20世纪80年代末开始,随着各种相关技术的快速发展,我国红外预警系统有了很大的突破。20世纪90年代,国家投入资金对苏-27飞机上的光电雷达OJIC-27进行了国产化的引进,在借鉴OJIC-27光电雷达设计技术的基础上,国家开展了“九五”重点预研项目“机载红外搜索跟踪系统”。而“十五”期间,国防领域重点研究开发的一些关键技术中就包括远程预警检测技术和作战飞机的检测跟踪技术,同时还在多目标跟踪和攻击、抗电磁干扰和隐身等方面[72]进行了深入的研究。在今后一段较长的时期内,红外预警系统还将获得更多的关注和研究。

基于红外成像的精确制导和预警系统,离不开高性能的红外目标[73]检测与跟踪技术的支持。红外目标的检测与跟踪概括来说就是利用红外传感器从指定视场中接收目标和背景的红外辐射,产生对应不同温度分布的实时红外图像,然后通过检测算法对红外图像实施精确目标检测,同时对目标进行实时、顽健的跟踪。有效的目标检测与跟踪技术为节约战斗力及保障地面设施免受打击起到了决定性的作用,因此,研究具有顽健性的红外目标检测与跟踪技术现己成为各国国防及相关安全监控领域备受关注的课题。

由于红外传感器受到大气热辐射、较远作用距离及检测器噪声等影响,其检测到的目标信号相对较弱,特别是在非平稳起伏背景干扰下,目标甚至被大量复杂的背景杂波及噪声所淹没,目标对比度或信噪比很低。当红外目标所处的背景中高灰度值成分较多,且各种灰度成分变化较为剧烈时,该背景就被称为“复杂背景”。由于复杂背景下目标对比度或信噪比很低,且缺乏有效的形状和结构信息,因此检测难度大;同时目标在运动过程中,可能发生的光照变化、目标被遮挡或其他原因造成的目标暂时丢失等情况又增加了跟踪的难度。正因为红外成像的特点及目标检测和跟踪的困难性,深入研究复杂背景下红外目标的检测和跟踪问题现己成为红外精确制导和预警等研究领域中一项富有挑战性和实际意义的课题。

除了军事领域之外,红外目标检测与跟踪技术还可应用于工业、农业、医学、交通等民用领域。例如,在医学成像系统中,利用红外目标检测技术可以在医学造影图像中识别异常目标点,这有助于病症的及早发现和治疗。在日常的安防监控系统中,利用红外技术进行感兴趣目标的自动检测和跟踪,可不受夜间条件等限制,因此也受到了国内外的普遍关注和研究。另外,在人员搜救、工业探伤、地质分析等领域中,有效的红外目标检测和跟踪技术能够帮助人们有效提取感兴趣的目标区域,为生产和生活提供必要的指导和帮助。

另外,红外图像序列中的人体目标跟踪,作为重要部门监控、高级人机交互、人体运动分析、人体行为理解等领域的一个先决条件,成为红外目标跟踪领域中一个重要的研究分支,受到了国内外研究学[74,75]者的广泛关注。与可见光成像系统相比,红外成像系统具有独特的优点:首先它不受夜间条件的约束,从而打破了传统可见光摄像机只能在白天应用的限制;其次红外成像系统在一定程度上消除了颜色、纹理、光照等因素对目标的影响。因此,在红外图像序列中进行人体跟踪有着十分重要的意义。其中,复杂背景下红外人体目标的跟踪一直是困扰该领域研究进程的关键问题之一,当人体目标处于复杂背景下时,由于受到背景杂波或噪声的干扰,目标对比度或信噪比较低,增加了跟踪的难度。1.5 智能视频监控系统1.5.1 智能视频监控的背景和意义

视频监控是信息获取理论与技术研究的一个重要内容,也是计算机视觉理论与技术研究的一个重要方向。它能提供直观、准确、及时和内容丰富的信息,因而具有广泛的应用前景。随着软硬件资源的增加和相关理论研究水平的提高和发展,数字化、网络化、智能化己成为视频监控的重要特征。

传统的视频监控系统己经在众多军事和民用领域应用,如边防、重要军事设施及银行、商店、车站、码头等一些重要的公共场所。虽然在这些场合下均设有监控摄像机,但实际的监控任务仍需要较多的人工完成。对于监控人员来讲,由于受到自身生理上的限制,无法全天候对监控场景进行实时预警;对于监控系统来讲,由于没有经过分析处理的原始视频数据中含有大量的冗余数据,长期积累下来需要大量的存储设备对其进行存储。同时,也造成了大量视频数据的浪费。这些都使得传统视频监控系统存在报警精度低、响应时间长、录像数据分析困难等缺陷,从而导致视频监控系统实用性降低。

与传统监控系统相比,智能视频监控(Intelligent Video Surveillance,IVS)系统能够很好地解决以上问题。它借助于计算机强大的数据处理能力,对视频场景中的海量数据进行高速处理,自动抽取与监控场景有关的关键信息,进而对感兴趣目标的行为进行分析和描述。智能监控系统能够发现监控场景中的异常情况,井能够以最快和最佳的方式发出警报。

当前智能视频监控技术研究主要涉及摄像机标定、目标检测、目标跟踪、行为识别与描述等。其中,由于监视场景的复杂性、摄像机系统的差异及运动目标间相互运动的复杂性等多种问题,使得对于目标跟踪的研究变得困难。同时,在目前的技术研究体系中,目标跟踪也是核心技术之一。它是后续各种高级处理,如目标行为分析和识别、视频图像压缩编码等高层次视频处理和理解的基础。

目标跟踪的实质是通过对摄像机拍摄到的视频序列进行分析,计算出目标在每帧图像中的位置、大小和运动速度。其难点在于图像是从三维空间到二维平面的投影,本身存在信息损失,而且运动目标井不是一个确定不变的信号,它在跟踪过程会发生位移、旋转、放缩等各种复杂的变化。除此之外,图像信息往往会受到复杂背景、各类噪声、遮挡、光照等因素的影响。因此,研究和设计开发能够应对复杂环境的各种变化,精确、快速和稳定地跟踪单个和多个视频运动目标的理论和方法不仅是重要的理论研究课题,而且对于促进视频监控系统的应用具有重要意义和作用。1.5.2 智能视频监控系统

由于视频监控系统具有广泛的应用前景,引起许多国家的高度重视,也研制出一些比较实用的监控系统。下面介绍几种典型的视频监[76]控系统。

1.VSAM系统

在1996年~1999年间,美国国防高级研究项目署(DARPA)设立了以卡内基梅隆大学(CMU)为首、麻省理工学院(MIT)等十几所高等院校和研究机构参加的视频监控重大项目VSAM(Video [77]Surveillance and Monitoring)。其主要目标是利用视频理解、网络通信、多种传感器融合等技术实现对未来城市、战场等的自动监控。VSAM采用分布式主动视频传感器对宽广的场景进行监控,处理结果发送到控制中心,通过GUI实现人机交互与用户预警。VSAM包含了许多先进的视频理解技术,它采用分层自适应减背景法和三帧帧差法对运动物体进行实时检测,同时采用基于图像区域匹配的方法对目标进行跟踪;在目标识别方面采用神经网络和线性判别分析相结合的方法实现人、车和校园警车等的识别;其次还有人体步态分析;主动摄像机控制与协作等。

2.W4系统[78]

W4系统是马里兰大学负责的VSAM子项目的研究成果。它是一个实时视频监控系统,主要对室外环境中的多人运动进行实时监测、跟踪与监视。此外,W4还能自动判断人体是否携带物品。它对多人之间以及人和物体之间的交互事件具有很好的识别效果,如物品遗失、交换物品等。但是它只适用于单色视频资源,如单目灰度摄像机和红外摄像机拍摄的视频,因此适合在晚间使用。

W4 将形状分析和目标跟踪结合起来,在视频帧中定位运动人体和人体的各部位(头、四肢、躯干等)。它基于图像帧的最大最小灰度和每个像素的时间标准差对背景进行建模,然后联合空间区域重叠度检测和动态模板匹配对前景目标进行匹配。同时对人体的图像外观构建二阶运动模型,从而在遮挡情况下进行准确跟踪。

3.Pfinder系统[79]

Pfinder是MIT媒体实验室开发的实时人体跟踪与行为理解系统。它基于颜色和形状特征建立多类别统计模型,在自由视点条件下构造人体部位。Pfinder进行了大量的应用实验表明其在复杂环境下能够进行顽健、可靠的人体跟踪与理解。Pfinder己经被成功应用在许多领域,比如手语识别、交互式游戏等。

Pfinder联合颜色相似度和空间接近度对场景目标进行分块,井用块的二阶统计特性(形状和外观)来描述块的特征,构建块动态模型。然后使用基于最大后验概率的方法计算每个像素与2D模型的似然度,借助支持地图(Support Map)来判定像素属于哪个类别,从而进行人体部位的检测和跟踪。

4.ADVISOR

ADVISOR(Annotated Digital Video for Surveillance and [80]Optimized Retrieval)是欧盟信息社会技术的Framework 5程序委员会设立的一个视频监控和检索重大项目。该系统的目标是开发一个公共交通(如机场、地铁)的安全管理系统,涵盖了人群和个人行为模式的分析、人机交互等研究。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载