信息融合中估计算法的性能评估(txt+pdf+epub+mobi电子书下载)


发布时间:2021-02-26 13:47:30

点击下载

作者:毛艳慧

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

信息融合中估计算法的性能评估

信息融合中估计算法的性能评估试读:

前言

在科学和工程领域,随着信息融合理论和技术的不断完善和成熟,估计算法作为数据融合技术的重要组成部分,在图像融合、目标识别、目标跟踪等领域发挥着重要作用。与大量的估计算法的开发形成鲜明对比的,是对这些算法的评估研究的开展相对滞后,这在将来很可能成为制约估计算法发展的瓶颈。对估计算法进行性能评估的研究,对于图像融合、目标识别、目标跟踪等领域无疑都具有重要理论和现实意义。

在评估估计问题的研究中,尽管之前已有人做了一些工作,但是其研究结果大都片面、零碎,能广泛应用的成果非常有限。性能评估是参照一定标准对评估对象的性能优劣进行评判和比较的一种认知过[21]程,它也是推进信息融合技术发展的重要手段。由于信息融合所涉及的应用范围很广泛,在信息融合的不同级别或层次,就会有不同的评估指标;即使针对同一级别,文献资料中定义的评估度量指标也各不相同。与估计算法的发展情况相比,目前对其评估问题仍缺乏理论上的分析和足够的重视,很多研究仅仅将估计算法评估作为研究算法时的附属品,没有单独论述和全面看待评估问题,且缺乏统一的评估标准。

在估计算法的性能评价中,现有的度量指标大都基于对估计误差的某种平均,通过平均值“大”或“小”的结果来表征估计器性能的“坏”或“好”的性能;但不同的估计器有不同的优化准则。本书围绕估计算法性能评估的理论与算法进行深入研究,从不同角度对估计算法进行评估,阐述几种具有互补性、综合全面的度量方法,旨在丰富和完善估计技术的性能评估理论,为估计技术在工程实践中的应用提供一定的理论参考和借鉴。

本书共8章,具体安排如下:

第1章简要介绍信息融合中状态估计技术的发展现状和估计算法性能评估的基本概念;

第2章概述基于误差值大小的度量;

第3章介绍误差度量在非线性量测模型转换方法评估中的应用;

第4章简要介绍适用于动态系统的动态误差谱度量;

第5章阐述动态误差谱度量在交互式多模型算法评估中的应用;

第6章阐述动态误差谱度量在非线性滤波算法评估中的应用;

第7章介绍基于估计误差聚集度理论的度量及其在估计性能评估中的应用,并通过仿真示例进行验证;

第8章介绍基于估计误差分布函数的度量及仿真示例。

本书的出版获西安石油大学优秀学术著作出版基金资助,并得到了西安石油大学科研创新团队(2015KYCXTD01)的资助,以及国家自然科学基金青年项目(51704238)的资助。

感谢西安石油大学程为彬教授在本书编写和出版过程中所给予的支持,同时感谢汪跃龙教授、高怡博士对本书编写和出版所做的贡献。此外,对电子工业出版社及相关编辑表示诚挚的谢意。

由于著者水平有限,书中难免存在错误和不足之处,恳请读者批评指正。著者2019年5月

第1章 绪论

1.1 信息融合概述

1.1.1 信息融合的基本概念

近半个世纪以来,随着信息科技的发展,信息融合技术日臻成熟。这一技术将不同来源、不同模式、不同媒质、不同时间、不同地点、不同表示形式的信息进行综合,减少多源信息间可能存在的冗余和矛盾信息,降低其不确定性,提高智能系统决策、规划、反应的快速性和正确性。

关于信息融合没有统一的定义,其中有代表性的定义如下:(1)Waltz等人给出的定义:对来自多元的信息和数据进行检测、关联、估计和综合等多级、多方面的处理,以得到精确的状态和身份[1-3]估计,以及完整、及时的态势评估的过程。(2)美国三军组织实验室理事联合会(Joint Directors of Laboratories,JDL)给出的早期定义:数据融合是对单源和多源的数据和信息进行关联、相关和组合,以得到更精细的位置和身份估计以[4]及完整而及时的态势评估的过程。JDL给出的修正定义:信息融合是在多级别、多方面对单源和多源的数据和信息进行自动检测、关联、相关、估计和组合的过程。JDL给出的最新定义为:信息融合是组合[5,6]数据或信息以估计和预测实体状态的过程。(3)文献[7]中的定义:多源信息融合主要指利用计算机进行多源信息处理,从而得到可综合利用信息的理论和方法,其中也包括对自然界人和动物大脑进行多传感信息融合机理的探索。其关键问题是通过一些理论或方法,对不同特征的数据进行处理,得到具有相关和集成特性的新的融合信息。(4)文献[8]给出的定义:信息融合是为了某一目的而对多个实体所包含的信息进行组合。

从信息融合定义的演变过程可以看出:一方面,虽然信息融合有多种定义,但其实质内容是基本一致的;另一方面,虽然信息融合的[9]定义越来越简化,但所包含的内容越来越宽广。这一技术在军用、民用等领域中都得到了广泛应用,如军事目标的检测、定位、跟踪与识别,以及神经网络、模式识别、图像融合、故障诊断等。在信息融[7-20]合技术发展过程中,涌现了大批优秀的研究成果和理论专著。1.1.2 信息融合中状态估计技术的发展现状

在目标跟踪中,传感器量测信息不仅包含有效信号,同时也包含随机观测信号和干扰信号。估计是指通过对一系列带有观测噪声和干扰信号的实际观测数据进行处理,从中得到所需的各种参量的估计值。通常,估计问题可分为两类:参数估计和状态估计。其区别在于,参数估计的对象是不随时间变化或只随时间缓慢变化的随机变量,而状态估计的对象是随时间变化的随机过程。

根据状态向量和观测向量在时间上存在的不同对应关系,状态估计问题可以分为预测、滤波和平滑。其中,预测是滤波的基础,而滤波是平滑的基础。

对于随机线性高斯系统,可以采用卡尔曼滤波(Kalman [21]Filtering,KF)。卡尔曼滤波是一种线性最小方差估计算法,具有递推性质,适合采用计算机求解。由于连续随机系统可以利用离散化[22]方法加以变换,以得到随机线性离散系统的状态方程,这里只讨论随机离散系统的状态估计技术中主要的几种滤波方法。

卡尔曼滤波是一种线性最优滤波算法,适用于线性高斯系统。对于非线性高斯系统,通常的做法是采用扩展卡尔曼滤波(Extended Kalman Filtering,EKF),即用泰勒级数展开的方法将非线性状态方程或量测方程展开,取其前一阶项或二阶项,将其变换为线性函数,然后采用卡尔曼滤波。扩展卡尔曼滤波算法的优点是运算速度高,在许多实际应用系统中其滤波精度较高,因此该算法常常被作为评价非线性滤波算法的基准算法。但由于该算法在转换过程中存在截断误差,属于次优算法,尤其对于强非线性系统,估计误差会进一步扩大甚至引起发散。此外,该算法需要计算非线性函数的雅可比矩阵,因此不适用于非线性函数不连续的情况。为了进一步提高非线性系统的滤波性能,克服扩展卡尔曼滤波算法的缺点,研究人员提出了许多非线性[23,24]算法,如无迹滤波(Unscented Filtering,UF)、求积分卡尔[25,27]曼滤波、容积卡尔曼滤波、粒子滤波(Particle Filtering,PF)、高斯和滤波、中心差分滤波等。[23,24]

无迹滤波算法由Julier和Uhlman提出。该算法要求过程噪声和量测噪声服从高斯分布(即正态分布)。其优点是不需要求解非线性函数的雅可比矩阵或者海森矩阵,尽管其运算时间比扩展卡尔曼滤波算法大一些,然而两者的时间复杂度属于同一数量级。无迹滤波算法的主要思想,是通过事先选定的和状态变量相关的点(Sigma点)及权值来表示状态向量的分布,然后将非线性变换加到这些点上,用原来的权值对变换后的点进行加权,从而获得状态变量的非线性变换。为了提高该算法运算过程的稳健性(又称鲁棒性),出现了[28]平方根无迹滤波算法。为了将噪声分布的非线性变换也加入到状态估计过程中,文献[29]给出了扩维形式的无迹滤波算法。此外,文献[30,31]推导了无迹滤波算法的平滑算法。

求积分卡尔曼滤波和容积卡尔曼滤波都属于确定性采样算法,它们能够处理其噪声为高斯分布的非线性滤波问题,属于两种较新型的[32-34]非线性滤波算法。求积分卡尔曼滤波算法的主要缺点在于:在运算过程中所需的求积分点的个数会随着状态向量维数的增加而呈指数增长,从而造成计算量随着状态向量维数呈指数增长的情况。容积卡尔曼滤波算法则不存在此问题,因为容积点的个数是状态向量维数的两倍;尽管随着状态向量维数的增大,运算时间也在增加,但是这种增长方式所带来的计算复杂度远远小于指数增长方式所带来的计算复杂度。这两种非线性滤波算法都有相应的均方根算法形式和扩维算[35-37]法形式。

粒子滤波算法属于随机采样算法,能够较好地处理强非线性和非[25-27]高斯系统的状态估计问题。该算法的核心思想是通过寻找一组在状态空间中传播的随机样本,对状态向量的后验概率密度进行近似,以样本均值代替积分运算,从而获得状态的最小方差估计。这些样本被称为“粒子”。假定k-1时刻系统的后验概率密度为f(x|k-1z ),依据一定规则选取n个随机样本点,则在k时刻获得量测信息k-1后,经过状态更新和时间更新,n个粒子的后验概率密度近似为f(x|kz)。随着粒子数目的增加,粒子集所表示的概率密度逐渐逼近状态k的概率密度。经典蒙特卡洛方法的核心思想就是将积分问题转换为有限样本点的概率转移累加过程,然而实际应用中f(x|z)可能是k1∶k多变量、非标准的分布,一般情况下不能写成解析形式;因此粒子抽样过程变得很困难。为此,研究人员借助于抽样算法(如重要性函数抽样算法)来解决该问题。所谓重要性函数,就是指概率分布与f(x|z)相同且易于抽样的分布函数。为了方便在计算机上运k1∶k算,序列重要性抽样(Sequential Importance Sampling,SIS)方法被提出,实现了重要性抽样过程的递推。粒子滤波的一个重要问题是粒子退化,而降低粒子退化最有效的方法是选取好的提议分布函数(Proposal Distribution Function);因此,研究人员提出了一系列改进[38]的粒子滤波算法,如EKF_PF、UKF_PF、辅助粒子滤波[39][40](Auxiliary Particle Filtering,APF)、高斯粒子滤波等。[41]

解决非高斯系统状态估计问题的另一种方法是高斯和滤波。该算法的主要思想,是用有限个高斯混合密度之和来近似作为状态的后验概率密度。如果系统是线性的,则并行使用多个卡尔曼滤波器,对每个卡尔曼滤波器的状态估计结果进行加权,获得最终估计;如果系统是非线性的,则需要对非线性方程进行一阶泰勒级数展开,然后采用多个扩展卡尔曼滤波器并行计算。

中心差分滤波方法的主要思想,是采用插值多项式展开代替泰勒级数展开。通常,采用斯特林(Stirling)内插公式将非线性模型按多项式展开,无须计算函数的偏导数。该方法可应用于任意函数,甚至当非线性函数不连续且存在奇异点时也能进行状态估计,其估计精度高于扩展卡尔曼滤波。

在科学和工程领域,状态估计技术不断完善和成熟,随之而来的是对这些技术、算法的性能如何进行评估,这是在应用中将面临的实际问题。而且,随着信息融合理论与技术的发展,这一问题将日益突出。因此,对估计算法的性能评估,对于信息融合理论与技术的发展具有重要意义。

1.2 估计算法性能评估简介

1.2.1 概述

随着信息融合技术的进步与不断发展,估计问题作为数据融合的重要组成部分,已逐渐成为信息融合理论中不可或缺的技术。在图像融合、目标识别、目标跟踪等领域,都离不开估计算法。与大量估计算法的研究形成鲜明对比的,是对这些领域估计算法的评估研究发展相对滞后,这很有可能在将来成为制约估计算法发展的瓶颈。近年来,随着这一技术被应用于越来越多的领域,对估计技术评估的研究需求变得愈加迫切。举例来说,在军事应用的目标跟踪问题中,估计技术不可或缺,且在很大程度上决定了目标跟踪系统的性能表现。对估计算法进行性能评估的研究,对于图像融合、目标识别、目标跟踪等领域无疑都具有重要意义。

简言之,估计算法性能评估的提出,既有理论上的必要性,更有实践中的迫切性。

性能评估是参照一定标准对评估对象的性能优劣进行评判比较的[42]一种认知过程,也是推进信息融合技术发展的重要手段。由于信息融合所涉及的应用范围广泛,在信息融合的不同级别或层次,就会有不同的评估指标;即使针对同一级别,不同文献资料中定义的评估度量指标也不相同。目前,信息融合中对估计算法的性能评估,主要有解析分析法、蒙特卡洛实验法、半实物仿真法、全实物仿真法和实[9,12]验验证法。

解析分析法是一种理论分析的方法,即通过各种方法建立起关于一个或多个性能评估指标的数学模型,利用解析计算或数值求解得到该信息融合系统的效能评估指标的数值,从而对系统进行评估。该方法不需要大量计算,但缺少普遍使用的解析方法,一般只针对某种具体的方法进行分析评定。

蒙特卡洛实验法又称为统计实验法,它采用统计抽样理论近似求解实际问题,是通过大量的计算机模拟来检验系统的性能并归纳出统计结果的一种随机分析方法,其理论基础是概率论中的大数定律。该方法适用于各种情况,是目前信息融合系统性能评估中应用最广泛的一种方法。

半实物仿真法是一种在室内进行的仿真实验评估方法,它用硬件和软件来仿真信源和目标的电磁特性,由计算机控制实验系统,产生典型实验环境中的真实信号,把实际的信息融合系统放置在内场半实物仿真实验工具中,并利用计算机模拟系统工作或运动,以分析和评估信息融合系统的特性。这是一种介于蒙特卡洛实验法和实验验证法之间的方法。

实验验证法是把所研制的信息融合模型或系统放到实际应用环境中,通过实际检验对多源信息融合系统的性能进行评估。该方法可以客观、真实、较为全面地反映信息融合系统的效能特性,但成本较高,实现起来相对困难。

信息融合中估计算法的性能评估,其研究内容主要有图像融合的[43-48][49-51]性能评估、自动目标识别系统的性能评估、目标跟踪系统[52-58][59-63]的性能评估、对态势评估的性能评估,以及对融合系统的[64,65]整体性能进行评估。[18,

在评估估计问题的研究中,尽管之前已有人做了一些工作66-70],但其研究结果大都片面、零碎,能广泛应用的非常有限。与估计算法的发展情况相比,目前对评估问题仍缺乏理论上的分析和足够的重视,很多研究仅仅将估计算法的评估作为研究算法时的附属品,没有单独论述和全面地看待评估问题,因此也缺乏统一的评估标准。

在此领域,近年来涌现了很多新思路,出现了很多新成果。文献[71-73]指出广泛使用的均方根误差度量有诸多缺陷后,提出了几个可从不同方面揭示估计算法性能的度量指标,并对这些度量指标引入了两种分类方法:(1)绝对误差度量(没有参考量)、相对误差度量(有参考量)以及频次统计度量;(2)乐观(侧重于衡量性能有多好)、悲观(侧重于衡量性能有多差)和中立(既不乐观也不悲观)的度量。由于绝对误差度量只侧重于反映估计性能的某一方面,文献[74]对绝对误差度量指标进行了综合,提出了误差谱度量,并对乐观、悲观和平衡的度量进行了严谨的数学描述。这一度量可以绘出一条曲线,给出各方面的估计性能,同时还给出估计误差分布的相对期望水平。文献[75]对误差谱度量的性质和计算做了更进一步的研究,提出了通过梅林(Mellin)变换来解析计算误差谱。不同角度的性能比较可以在实践中帮助工程人员根据应用场景选择适合的估计器,文献[76,77]基于估计误差聚集度的概念,首先根据应用需求选择一个理想的误差分布,提出了相对于理想误差分布的相对聚集度度量与相对离散度度量;同时还考虑了用Pitman准则进行估计器性能比较,提出了利用估计器之间互信息的相对损失度量和相对增益度量。文献[78]对估计误差的中心趋势进行了评估,并提出了广义的加权平均欧几里得误差(Generalized Weighted Average Euclidean Error),该度量方法在度量估计误差中心趋势方面表现出了很好的稳健性。同时,文献[79-81]提出了估计器的可信度度量,以评估估计器所给出的估计误差协方差矩阵是否可信,并提出了检验可信度度量的准则——NCI(Noncredibility Indices,不可信度指标)和II(Inclination Indicators,倾向性指标)等。文献[82,83]应用了NCI这一可信度度量准则。文献[84]提出了用所谓的估计器排序矢量,考虑估计器之间的互信息,对估计算法进行排序。

由于对估计问题的度量近几年才慢慢得到重视,各种度量方法在理论上和应用上都有很多不完善的地方,因此需要国内外学者进行更加深入的探索和研究。相信在不久的将来,该领域一定会取得更加丰硕的成果。1.2.2 性能评估理论中的基本概念

对估计问题的性能评估,其首要任务是建立起性能评估指标体系和性能评估方法,而性能评估指标体系的建立和评估方法的开展,必然离不开对估计算法和性能评估理论的合理理解。所以,有必要首先介绍一下估计性能评估领域中的几个基本概念:性能评估、性能优化、性能分析。

在工程和应用科学研究中,一般认为有四个要素:问题、描述、[85]求解和评估。第一个要素是提出问题、确定问题、弄清问题;第二个要素是对提出的问题进行理论描述或建模,尤其是数学描述;第三个要素是在描述好的框架里通过各种技术手段进行求解,由于在研究中用到的描述往往有差异,而求解时用到的技术也往往不同,所以当某些理论假设在实际中不成立时,常常得不到最优解,取而代之的往往是次优解;而第四个要素研究的内容是对所求得的解的好坏优劣进行性能评估。

首先需要说明的是性能评估、性能优化、性能分析三者的关系;它们彼此紧密结合在一起,却又有着内在的不同。简单来说,性能优化是基于理论上的准则(即目标函数,通常是基于费用或者代价的数学描述),使目标函数值达到最优,并找出目标函数的最小值或最大值的过程;性能评估是基于设计好的性能度量准则对系统或者估计参数等进行优劣评定;而性能分析旨在开发一个性能模型,对影响系统性能的各因素进行内在的分析,以发现系统的潜在问题或者对系统的内部性能有较好的把握。

实际中的性能评估指标与进行性能优化时所用到的优化准则有着紧密的关系,它们都从某种意义上反映性能的优劣,但彼此又有区别[86]。性能评估度量就像一把量化性能的尺子,而优化准则在某种意义上定义了一个问题的解的最优性。优化准则作为开发和设计算法的基础,把估计问题转化成了优化问题;因此,相对严格的要求是它应当具备数学上的可解性,否则在优化时用起来将很困难。粗略地讲,大部分的优化准则作为估计器要优化的目标函数,应当具备数学上的可解性,而不仅仅是理论意义上的性能度量;但作为性能评估时用到的性能度量则完全不考虑这一点。

性能分析和性能评估之间同样有差异。性能分析所关心的是性能和影响性能好坏的因子之间的内在关系,一般通过定性或定量的分析,了解系统的各个因素对性能的影响,因而依赖于分析工具。目前,“性能分析”的概念在软件工程中用得相对较多。性能分析是以收集程序运行时的信息为手段研究程序行为的分析方法,是一种动态程序分析的方法。其目的在于决定程序的哪部分应该被优化,从而提高程序的速度或者内存使用效率,可由程序的源代码或是可执行文件来执行。而性能评估旨在客观地对性能或者行为进行评估,它依赖于性能度量的指标,要求这些指标可计算、有公正性,且能很好地解释。1.2.3 性能评估指标分类

1.绝对度量、相对度量与频次统计度量

在估计算法性能评估的研究中,现有的评估方法大多不参照任何参考量,而直接对估计误差做某种意义上的平均。我们称这一类指标为绝对误差度量。其中,广泛应用的均方根误差(Root Mean Square Error,RMSE)很容易受大的误差值主导,即在评估结果中过于关注大的估计误差。为了克服这一缺点,文献[71-73]提出了一些新的可供选择的绝对度量指标,如调和平均误差(Harmonic Average Error,HAE)、几何平均误差(Geometric Average Error,GAE)、平均欧几里得误差(Average Euclidean Error,AEE)、误差中位数(Median Error)和误差的众数(Mode)。

但是,在对估计算法进行评估时,这些度量指标明显受评估时具体场景的影响,包括估计量的幅值、数据精度,以及在估计器为贝叶斯估计器时的先验信息。因此,绝对误差度量指标适用于对整个估计系统的评估,而对估计算法的评估则不很理想。这里指的估计系统不仅仅包括估计算法,还包括量测子系统以及别的相关量。记x和分别为待估量和估计量,估计误差为,则当绝对估计误差为时,相对估计误差在待估量x=100时为1%,但在待估量x=2时却为50%。所以,相对估计误差度量更适合于估计算法的性能评估。

相对误差度量是相对于某一个参考量的,正如文献[73]指出的,相对误差常比绝对误差能更好地揭示估计器估计误差的内在特征。举例来说,随着估计量幅值的变化,期望一个估计器的相对误差比绝对误差更稳健是很容易让人接受的。给定两个问题各自的估计器和它们的性能,或者同一问题的不同场景,使用绝对误差度量来进行性能比较将是不合适的,但相对误差度量可以满足要求。因此,评估一个估计算法的性能一般应当使用相对于某一参考量的评估准则。在参考量的选取上,有很多方法:最常用的参考量是待估量的幅值;还可以选择量测误差,或者先验均值的误差。描述估计误差相对于某一参考量的最简单、最常用的方法,是采用相对于某一参考量的归一化。对任一参考量,都有两种形式:估计误差的平均/参考量的平均;估计误差/参考量的平均。这里的参考量可以是估计的幅值、先验误差、量测误差等。

绝对误差度量和相对误差度量常常是估计误差在某种意义上的绝对或相对的平均;而不同角度的性能比较可以帮助工程人员得到更好的理解,以选择更好、更符合需求的估计器。以军事应用中导弹拦截或者摧毁目标为例,其所关心的不是平均误差,而是估计量应当在被估量的一个邻域内才能保证目标被击中。考虑两个估计器:一个估计器的大部分估计值都在一个被估量期望的邻域内,但有少数值存在很大的误差;另一个估计器有很好的平均误差,但不能保证邻域内的估计量足够多。显然,第一个估计器更能符合要求。此时,频次统计度量就可以满足要求。

频次统计度量包括成功域与成功率、可行域与失败率,以及聚集[72,73]域与估计值落在聚集域内的概率(聚集概率)。此类度量指标可以刻画估计误差落在某一区域的概率大小,适用于Hit-or-miss场景下的评估。

上述三类度量指标在实际中的适用范围如表1-1所示。表1-1 度量指标的适用范围

2.悲观、乐观和中立的度量

如果一个度量受大的误差主导,就说这个度量是悲观的。换句话说,悲观的度量总是关注估计器某些差的方面的性能,即总是低估估计器的性能。乐观的度量正好与此相反,它受小的估计误差主导,所反映的是估计器好的方面的性能。而一个中立的度量则既不受大的误差主导,也不受小的误差主导,在给出评估结果时能同等考虑估计器好的性能和差的性能。举例来说,如文献[73]所述,工程界广泛使用的RMSE度量就是一个悲观的度量;调和平均误差(HAE)是一个乐观的度量,因为它总是关心较小的估计误差;我们常说的估计误差集合的中位数(又称中值)和估计误差的众数(Mode),既不受大的估计误差主导,也不受小的估计误差主导,因而是中立的度量。

3.综合的度量

因为RMSE、AEE、HAE、GAE等准则只侧重于反映估计性能的某一个方面,在比较两个估计器的性能时,它们甚至会给出相悖的比较结果。也就是说,给定两组估计误差A和B,用一个度量评估时A组好,但换为另一个度量时可能评估结果反而是B组好。因此,需要一个综合的指标,以对被评价对象进行客观、公正、合理、全面的评价。例如,如果要对我国各大学进行综合排名,就要对学校的教学质量、科研成果、师生素质和规模等进行多方面衡量;同样,要判断一个国家或地区发展的好坏,就要从经济、政治、文化、生态、人民生活等方面进行考察,建立相应的指标,采用一定的数学方法,进行综合比较与判断。[74]

在现有的估计算法度量指标中,误差谱度量就是一个综合性的度量。误差谱度量相比于绝对的性能评估准则,其优越性在于它是一个综合性的度量。误差谱度量可以综合考虑大的和小的估计误差,所以在期望对滤波器的性能有一个公正、综合的评估,即评估结果既不受小的误差值主导,又不受大的误差值主导时,就必须用误差谱这一综合性的度量指标。

在估计算法性能评估问题中,误差谱度量因其可以从多个角度同时揭示估计性能,可以同时反映估计器好的性能有多好以及差的性能有多差,因而是一个非常有效的度量;但由于它是针对参数估计的,有其应用上的局限性。在估计跟踪问题中,待评估的系统通常是动态系统,即系统状态是随着时间变化的。如何对动态系统进行评估并找到一个更加有效的度量方法呢?有学者提出动态误差谱(Dynamic Error Spectrum,DES)度量的概念;这一度量把同一时刻的多个评价指标“合成”为一个整体性的度量,因而在对动态系统进行评估时,它是非常有效的。

第2章 基于误差值大小的度量

在科学和工程领域,关于参数、信号、状态的估计算法的应用已经非常广泛;但无论估计算法或者估计器在理论上有多么可靠,都必须基于实际的需求,在实践中对它们的性能及特征进行评估,如有效性的保证、自身性能的证明或与其他估计器性能优劣的比较等。

对目标识别、目标跟踪和数据融合的性能评估指标的研究,历来[18,45-49]是国内外研究的重点,但现有针对估计性能方面的评估研究相对有限。估计算法性能评估的一个关键方面,是遵循公正、合理、物理含义明晰等原则,正确选择衡量算法性能的指标。在对估计算法的性能评估研究中,现有的评估方法多是直接对估计误差做某种意义上的平均。其中,广泛应用的均方根误差(Root Mean Square Error,RMSE)易受大的误差值主导。为了克服这一缺点,文献[73]给出了一些可供选择的绝对度量,如调和平均误差(Harmonic Average Error,HAE)、几何平均误差(Geometric Average Error,GAE)、平均欧几里得误差(Average Euclidean Error,AEE)、误差中位数(Median Error)和众数(Mode)。这些度量方法可以反映估计算法不同方面的性能。

2.1 绝对误差度量

下面介绍几个常用的绝对误差度量。2.1.1 均方根误差(RMSE)度量

目前工程中广泛应用的性能评估指标为均方根误差(RMSE)度量,其具体定义为式中,M为蒙特卡洛实验次数,“i”表示第i次蒙特卡洛实验,记x和分别为待估量和估计量,估计误差,。

均方根误差(RMSE)与标准差之间的关系如下:

标准差(均方差)反映的是估计值与均值的关系,而RMSE反映的是估计值与真实值之间的关系。因此,标准差用来衡量估计器估计结果自身的离散程度,而RMSE用来衡量估计器估计值同真实值之间的偏差;它们的研究对象和研究目的不同,但是计算过程类似。对于标量的无偏估计器来说,RMSE实际上是对估计误差标准差的有限样本近似,而标准差是概率分析中的一个重要参数;因此,RMSE对标量情况下的概率分析有很大意义。

然而,RMSE有着很大的缺陷。首先,它受数值大的估计误差主导,数值小的误差很容易被忽视掉;其次,通过RMSE的定义,RMSE度量在评估估计器时明显偏向于最小方差估计,即,其中Z表示所有的观测集。此外,RMSE没有很好的物理解释。文献[73]提出,应该用平均欧几里得误差(AEE)代替RMSE。2.1.2 AEE度量

1.AEE的定义和性质

欧几里得误差(AEE)是另一个可供选择的度量,其具体定义为

这一度量有着很好的物理解释:在几何上,是待估量x和估计量在物理空间中真实的算术平均距离;同时,AEE在估计误差为标量且服从高斯分布的情况下,可以转化为RMSE来满足概率分析的需要。让e=表示估计误差的欧几里得范数(即2范数),分别表示e的均值和方差,则有式中,=var(e)。AEE的期望值可以很好地表征估计误差。由于AEE和分别是估计误差的样本均值和的期望值,所以[52]AEE是的估计,且有着良好的性质:(1)无论的分布如何,AEE都是的无偏估计;(2)AEE是的最小二乘估计,即=AEE使最小;(3)AEE是的高斯-马尔科夫估计器,在所有的的线性无偏估计中都使最小;(4)若是随机的,且先验分布为均匀分布,则AEE是的最小均方误差估计和最大后验估计;(5)若为指数分布、泊松分布、伯努利分布或(近似)高斯分布,且均值为,则AEE是的最大似然分布和一个最小充分统计量。

2.RMSE和AEE的比较2

根据切比雪夫大数定律,随着M→∞,RMSE 和AEE(几乎肯定)分别趋向于标准差和期望值;再根据中心极限定理,随着222M→∞,RMSE 和AEE有渐近高斯分布,即:RMSE ~NE(e),2var(e),AEE~。

在受数值大的误差项主导的问题上,AEE较RMSE有很大改善,RMSE和AEE都关注大的误差,它们给出的评估结果均受大的误差主导。比如,100个误差项中有99个值是1,一个误差值是400,那么AEE给出的评估结果是5,而RMSE给出的评估结果将接近400,即:RMSE受大的误差项主导而几乎完全忽略了另外的99项。所以,RMSE作为一个度量是不公正、不理想的。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载