机器学习及其应用2017(txt+pdf+epub+mobi电子书下载)


发布时间:2020-11-02 22:55:11

点击下载

作者:高阳,陈松灿

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

机器学习及其应用2017

机器学习及其应用2017试读:

前言

为促进国内人工智能领域学者的交流,2002年,陆汝钤院士在复旦大学智能信息处理实验室发起组织了“智能信息处理系列研讨会”,并将“机器学习及其应用”列为当年支持的研讨会之一。是年11月,第一届研讨会邀请了10余位专家闭门研讨,在复旦大学成功举行。2004年11月周志华教授与王珏研究员在复旦大学主持举办了第二届“机器学习及其应用”研讨会。此次研讨会除邀请报告人外,还吸引了闻讯自发与会旁听的学者和研究生100余人。自此,研讨会的模式从闭门的学术讨论,走向了开放的学术交流。

由于当时机器学习受到的关注和支持较少,组织者和主办单位需承担较多压力,2005年研讨会移师南京大学软件新技术国家重点实验室,周志华教授和王珏研究员主持举办了第三届研讨会,吸引了来自全国近10个省市的250余人旁听。此次研讨会确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上,其他从简”的办会宗旨,同时确定了研讨会举办的时间,如无特殊,则为当年11月份的第一个周末。此后,组织者争取到兄弟单位给予协助,2006年、2007年分别由南京航空航天大学信息科学与技术学院、南京师范大学数学与计算机学院协办了第四届和第五届研讨会,两次均吸引了来自全国10余个省市的约300人旁听;2008年举行的第六届研讨会,适逢南京大学计算机学科建立50周年,与会人数达到了380余人;2009年和2010年在南京大学分别举行了第七、八届研讨会,均有约400余人旁听。这一时期为国内机器学习界的“垦荒”阶段,众多学者为研讨会做出了重要贡献。研讨会在国内机器学习领域乃至整个计算机领域逐渐产生了重要的影响,学界美名为“南京会议”。

随着国内科研条件的改善,机器学习逐渐获得更多关注和支持。为进一步推动机器学习在国内的发展,从2011年起,研讨会的举办地开始走出南京。2011年和2012年由张长水教授和杨强教授主持,清华大学自动化系、智能科学与系统国家重点实验室、清华大学信息科学与技术国家实验室(筹)举办第九届和第十届研讨会,两次会议均有500多人参加。2013年、2014年由张军平教授和高新波教授主持,分别在复旦大学计算机科学技术学院和上海市智能信息处理实验室举行了第十一届研讨会,在西安电子科技大学举办了第十二届研讨会,这两次会议分别达到600多人和800多人参加。2015年和2016年,研讨会再次回到南京大学举办,此时国内机器学习研究和应用已经发展到一个新的高峰,这两次会议均约有1400人参加。至此,研讨会已经成为备受国内机器学习及其相关领域研究人员关注的盛会。

研讨会自发起之日起,清华大学出版社敏锐地了解到这一学术动态。研讨会主要组织者与清华大学出版社达成共识,每两年对研讨会上专家交流的部分技术内容,经过整理,结集成书,以飨读者。十余年来,陆续出版了《机器学习及其应用》《机器学习及其应用2007》《机器学习及其应用2009》《机器学习及其应用2011》《机器学习及其应用2013》《机器学习及其应用2015》等系列书籍。本书是以上序列书籍的延续。

本书是对第十三届和第十四届中国机器学习及其应用研讨会交流内容的部分总结,共邀请了会议中的7位专家就其研究领域撰文,以综述的形式探讨了机器学习不同分支及相关领域的研究进展。全书共分7章,内容分别涉及矩阵回归模型、低秩子空间模型、随机优化等经典模型和优化方法,介绍了新型的标记分布机器学习范型,以及机器学习在图像描述、软件缺陷挖掘等方面的应用。

杨健教授介绍了几种全新的稳健回归模型,包括基于核范数的稳1健矩阵回归,基于推广幂指数分布的稳健矩阵回归,基于核-L范数的联合矩阵回归,以及基于树结构核范数的稳健矩阵回归。

林宙辰教授讨论了若干具有闭解的低秩模型,以及其在图像处理领域的诸多成功应用。

在大规模数据的机器学习算法中,随机近似是一种新兴的技术手段。张利军教授介绍了阶段混合梯度下降、随机临近梯度下降,能够有效降低学习算法的空间和时间复杂度。

张量结构往往用于刻画数据的多源关系。徐增林教授介绍了非参非线性张量分解,能够提高分解模型的精度。

图像描述是近年来有挑战性的任务。张长水教授介绍了基于注意力的递归神经网络编码器,刻画了图像和句子之间的编码关系。

和图像描述类似,大量的机器学习样本涉及标记多义性的问题。耿新教授详细介绍了一种新的机器学习范型——标记分布学习,为解决标记多义性开辟了一条新途径。

最后,黎铭副教授探讨了机器学习技术在软件缺陷挖掘中的创新应用,以及其中面临的若干挑战性问题。

本书概括了国内机器学习及其应用的最新研究进展,可供计算机、自动化、信息处理及相关专业的研究人员、教师、研究生和工程技术人员参考,也可作为人工智能、机器学习课程的辅助内容,希望对有志于从事机器学习研究的人员有所帮助。高阳 陈松灿2017年9月4日1稳健的矩阵回归模型与方法杨健 罗雷南京理工大学模式计算与应用实验室,南京2100941引言

随着网络和信息技术的不断发展,全球数据量呈现爆炸式增长。特别地,人类在最近两年产生的数据量相当于之前产生的全部数据量。这些海量、复杂的数据已经对社会经济、政治、文化以及生活等方面产生了深远的影响。如何有效地分析它们使其更好地为人类服务是一个亟待解决的问题。

近年来,机器学习方法已经渗透到了数据分析的各个方面,成为了其中的重要组成部分。它利用已知数据来学习和推理其中未知的、潜在的概率分布等重要信息,解释数据样本中变量(或特征)之间的关系。也就是说,它能从庞大的数据中揭示出数据的内在规律或本质结构。这种本质结构可方便人类对数据的理解,提高人类对数据的驾驭能力。为实现这一任务,我们首先要熟知数据分析中可能面临的问题。一方面,在实际的信号和图像采集与处理中,数据的维数越高,给数据的采集和处理带来越多的限制。大规模的数据不仅存在着较多的冗余、无关的属性,还会带来维数的灾难。另一方面,实际中数据往往结构复杂,例如采集的数据本身不完整或者存在大量的噪声,这导致了一些传统的数据处理技巧也许失效。

基于线性回归(linear regression, LR)分析的方法一直是机器学习领域的研究热点。它的目的是估计测试数据与训练数据之间的关系。值得注意的是,这种关系可理解成数据的一种内在结构。为避免过拟12合,一个正则项需要强加到LR模型中。基于L范数的正则项和基于L2范数的正则项是目前使用最广泛的两种正则项。L范数正则化的线性2回归一般称为脊回归(ridge regression)。该方法使用L范数的平方来约束表示系数,并使用同样的方式来刻画表示残差。最近,I. [1]Naseem等人将此方法应用于人脸识别并由此提出了线性回归分类器(LRC)。在这个方法中,他们先通过脊回归模型获得测试样本在每类训练样本中的表示系数,然后将测试样本分在离其最近的那一[2]类。事实上,一些以往的工作,诸如最近邻特征线、最近邻特征面[3]以及最近邻特征空间都可看作LRC的不同变体。1

L范数正则化的线性回归称为Lasso,它已被广泛地应用于稀疏[4]表示中。例如,J. Wright等人引入了稀疏表示分类器(SRC)。SRC使用所有训练样本作为一个字典来表示一个测试样本,并且假设表示系数是稀疏的,即这些稀疏的非零表示系数应该集中在与测试样本具有相同类型标签的训练样本上。为了得到一个稳健的模型,他们进一步假设噪声也是稀疏的,由此建立了推广的SRC模型。这个模型对随机像素损坏与块状遮挡的噪声具有一定的稳健性。A. Wagner等[5]人进一步推广了SRC模型,并将人脸对齐和识别统一到一个框架中。另一方面,一些近期的工作主要集中在探究稀疏在图像分类中的角色[6][7][8][9][8]上。J. Yang等人对SRC的合理性提供了一些理论性的解释并10得出一个结论:SRC的有效性是由L约束带来的,而不是L约束(原[9]本的稀疏限制)的作用。L. Zhang等人分析了SRC的运行原理且发1现:合作表示策略比基于L范数的系数约束扮演了更为重要的角色。于是,基于脊回归的思想,他们提出了合作表示分类器(collaborative representation classifier, CRC)。可是,CRC虽然具有速度上的优势,但并不能提供一种噪声移除的机制,所以它不是图像分类的一种稳健的回归方法。2

在LRC、CRC以及SRC模型中,表示余差使用误差向量的L范数12或者L范数来约束。从统计学来讲,L范数为服从高斯分布的数据提供了一种最优的刻画。但是,在现实的人脸识别中,表示误差的分布[10][11]是很复杂的,高斯分布无法完美地拟合它们。所以,以上方法[12]对现实中的噪声并不稳健。为解决这类问题,稳健回归分析应运而生。该方法是对传统的最小均方法在异常点存在情况下的一种改进,它提供给我们这样一个信息:什么是一个有效的观测,并且哪一种观测应被剔除。稳健回归的最初目的是用来拟合一个能够表示出大多数数据的模型。

M-估计是稳健回归中一种常用的技巧,在19世纪60年代由P. J. [13]Huber等人提出。选择权重函数对稳健回归的性能具有重要影响,[4]由此衍生了许多稳健回归模型,例如,推广的稀疏表示模型、稳健[10][14]稀疏编码模型(RSC)、基于相关熵的稀疏表示模型(CESR)[15]以及稳健的线性回归分类器(RLRC)。特别地,RLRC本质上是[16]一种Huber估计方法。此外,R. He等人统一了两种稀疏稳健回归模型,即在误差纠正中以SRC为代表的相加模型和在误差探测中以[16]CESR为代表的相乘模型。R. He等人还通过定义不同的半平方函数建立了一种半平方的人脸识别框架。该框架可同时执行误差纠正与探测任务。M-估计的稳健性体现在:异常像素值会被赋予一个小的权值来减小它们在编码过程中的影响,而对其他元素则赋予较大的权值。所以,与传统的最小均方法相比,稳健回归更适合处理实际中的噪声。但是,以上所提到的稳健回归方法都使用了一维的基于像素误差模型,即误差图像的每个像素都被独立地刻画。它们并没有考虑图像的二维结构信息。

不同于以上方法,本文将介绍几种全新的稳健回归模型。它们将图像的结构信息融入到建模中。这些方法包括:基于核范数的稳健矩1阵回归,基于推广幂指数分布的稳健矩阵回归,基于核-L范数的联合矩阵回归,以及基于树结构核范数的稳健矩阵回归。2基于核范数的稳健矩阵回归

基于像素的一维模型(例如,SRC,RSC和CESR)存在两个问题:首先,这类模型假设误差图像的每一个像素是独立同分布的。对于随机的像素损坏,由于噪声被独立地添加在每个像素上,所以这个假设是合理的。但是,对于许多实际的人脸变化,诸如遮挡、伪装或者由光照改变产生的阴影,这个假设不再成立。例如,由黑色围巾造成的遮挡,其中的像素值是0,那么,遮挡部分中理想的表示误差像素是相关的,因为现实图像中局部区域的像素一般是高度相关的。所[4][11][15]以,使用基于像素的一维误差模型(诸如SRC,RSC,RLRC等)来解决带有遮挡的图像分类任务在理论上是令人质疑的。

其次,单独地刻画误差的每个像素忽视了误差图像的整个结构,因为误差图像中的所有像素误差也许包含了有意义的结构信息(例如误差图像的秩)。在基于回归分析的人脸识别方法中,可以使用训练图像来表示一张测试图像。理想情况下,误差图像应该是一个零矩阵。因此,它自然是低秩的。在一般情形下,测试图像中存在光照改变和遮挡。事实上,光照和遮挡是影响人脸识别性能的关键因素。实际的光照改变,特别是诸如阴影的部分光照改变一般会导致一个低秩(或者近似低秩)的误差图像,这与满秩的原始图像形成了鲜明的对比。诸如眼镜与围巾遮挡也会导致一个低秩的误差图像。以上所提及的回归方法可独立地处理每一个误差像素,因此无法反映这类结构信息。

为了充分利用误差图像的低秩结构信息,这里介绍我们所提出的一种基于二维图像矩阵的误差模型。相反地,以前的方法,诸如脊回归、Lasso或者稳健回归,都是基于向量的途径。也就是说,为了处理矩阵形式的二维图像,我们在使用诸如回归的方法时,必须提前将图像转化成向量。在转化阶段,一些结构信息(例如,误差图像的秩)也许会丢失。本节的矩阵回归方法不需要矩阵到向量的转化过程。它通过最小化余差图像的秩来挖掘图像的结构信息,并以此来决定回归系数。为便于优化,秩函数最小化问题一般可转化成核范数最小化问题。根据这一想法,表示余差图像的最小核范数可作为一个准则。因此,此方法也称为基于核范数的矩阵回归(nuclear norm based matrix regression, NMR),其具体形式如下:pp×q×q1n

给定n个图像矩阵A,…,A∈R和一个图像矩阵B∈R,则1nB可被A,…,A线性地表示,即12n其中,χ,χ,…,χ表示稀疏的集合,E表示余差。np×q

定义从R到R的映射如下:那么,公式(1)变为

公式(3)或者公式(1)给出了线性矩阵回归模型的一般形式,它们与传统的线性向量模型形成了鲜明的对比。

在许多应用中,余差图像B-Α(x)在最优解处是典型低秩的(或近似低秩的)。考虑到核范数是秩函数在单位球上的凸包,本节将解决以下核范数最小化问题来评估回归系数:*其中,‖X‖表示矩阵X的核范数,即X的所有非零奇异值之和。此外,我们可在公式(4)上增加一个类似脊回归的正则项,由此获得了正则化的矩阵回归模型:其中,λ>0是一个平衡参数。公式(5)可使用交替方向乘子法ζ(ADMM)来解决,其主要迭代过程被总结在算法1中。这里,D(Q)p×q(ζ>0)表示矩阵Q(∈R)的奇异值收缩算子(详细定义见文献[17]),Vec(·)是一个将矩阵转化为向量的操作符,I是一个单位矩阵。此外,我们可以使用文献[18]中类似的途径来设置算法1的终止条件。算法1 使用ADMM解决NMR[19]

但是,传统的ADMM方法仅能获得一个O(1/k)的收敛率,其[20]中k代表迭代次数。所以,我们将使用一种加速的ADMM来获得模型(5)的最优解,此算法能达到平方收敛。考虑到加速的(Fast)ADMM的收敛条件要求目标函数是强凸的,我们在模型(5)上添加一个平方项,从而得到一个近似的NMR模型如下:[17]其中,γ,θ>0。J. Yang等人已经说明,在一定条件下,模型(5)与模型(6)的解是一致的。算法2列出了解决公式(6)的详细过程,其终止条件类似于算法1。算法2 使用Fast ADMM解决NMR[17]

在NMR的建模动机中,J. Yang等人使用了“低秩”的概念,这是源于对由遮挡造成的误差图像的一个直观的描述。实际上,NMR并不局限于“低秩”的误差图像,因为它不直接优化秩函数而是优化误差的核范数。比起秩函数,核范数能对误差图像提供一种更加可行的刻画,因为它在刻画近似低秩的误差图像的时候仍然是有效的。这些误差图像也许是代数满秩的,但它的奇异值接近于0。例如,在光照改变的情形下,假如人脸是几何光滑的,那么误差图像中的像素则是高度相关的。所以,由光照改变造成的误差图像一般是近似低秩的。

我们知道一个矩阵的核范数是它的所有奇异值的和,也就是奇异11值向量的L范数。从概率分布的角度来讲,L范数对满足拉普拉斯2(Laplacian)分布的随机向量提供了一种最优的刻画,而L范数对高[10][21]斯(Gaussian)分布是最优的。所以,如果一个误差图像的所有奇异值满足Laplacian分布,那么核范数对误差图像提供了一种最[17]优的刻画方式。幸运的是,J. Yang等人在人脸图像上证实了这一现象确实存在。在分类器的设计中,NMR用核范数来度量测试图像与重构图像之间的误差。一系列的实验结果证明了NMR对结构性的噪声具备一定的鲁棒性。3基于推广幂指数分布的稳健矩阵回归

前一节的分析表明了,基于核范数的矩阵回归可有效地反映噪声图像的二维结构,特别是低秩结构。我们知道,这种低秩结构仅是二维空间结构的一种特殊情形。而在实际应用中,图像水平噪声中像素之间的依赖关系则更普遍。因此,本节将从这类噪声分布的本质出发,寻求一种更一般的稳健回归方法。

实际上,以上所涉及的回归方法都属于多变量分析的范畴。众所周知,多变量分析所考察的对象主要是独立正态分布的数据。但是,在实际应用中,当数据的基本分布具有长尾属性的时候,误差矩阵的正态性和独立性假设也许是不适合的。于是,B. M. G. Kibria和M. S. [21]Haq提出了线性的多元t-errors模型来拟合实际的数据。S. Basu等[22]人在语音识别领域使用多元幂指数分布作为一种长尾的分布。通[23]过假设观测值是依赖的,M. H. Liu将向量的幂指数回归模型推广到矩阵变量的形式。这些研究表明:为了描述实际应用中的观测数据,依赖且长尾的分布假设是十分重要的。

对于许多实际中的人脸变化,诸如遮挡、伪装或者由光照改变所带来的阴影,它们所产生的误差图像的像素之间一般是高度相关的[11](文献[30]中举出了一个例子)。由于独立性假设不再成立,RSC[14][24]和CESR无法显示出优势。为解决这一问题,X. X. Li等人探索了连续性遮挡的本质结构并提出了一种结构的稀疏误差编码模型。K. [25]Jia等人将一类结构性稀疏诱导的范数引入到SRC框架中来拟合一[26]些结构性的噪声。Y. Deng等人通过先发现遮挡的最佳匹配块,然[27]后使用拉普拉斯方法来完成人脸识别。W. Deng等人使用一个辅助的类内变化字典来表示训练图像和测试图像之间的变化,并将这一方法应用在每类中含有很少的甚至一个训练图像的情形。此外,一些学[28]者从字典学习的角度来研究结构性的噪声。例如,M. Yang等人通过预先学习的余差映像来探测人脸遮挡的像素,然后使用不包含遮挡[29]像素位置的新的字典来完成分类任务。W. Ou等人提出的途径与文献[28]类似,不同之处在于他们同时学习了一个干净的字典和一个含有噪声的字典,然后将这个干净的字典应用于分类任务中。[30]PQ

不同于以往的方法,本节我们所提出的SL使用了一种依赖的矩阵分布来刻画由遮挡、伪装或者光照改变所产生的结构性噪声。这种依赖的矩阵分布可写成:其中,C>0是一个正比例常数,p>0是给定的参数。在文献[30]中,Luo等人证实了分布(7)能够刻画噪声像素之间的依赖关系。因此,误差矩阵的空间结构信息得以充分保留。此外,该方法假设表示系数是独立的且服从相同的高斯分布(q=2)或者拉普拉斯分布(q=1)。通过最大后验概率估计,并引入一个辅助变量E,我们最终可获得如下模型:其中,代表一个矩阵的shatten-p范数。这里,我们主要讨论三种情形:p=1/2,2/3和1。解决模型(8)的主要迭代过程被总结在算法3中,其中步骤2中的具体形式可参考文献[30]。pqL算法3 使用ADMM解决S可以证明,算法3在p=1处全局收敛,在p<1时局部收敛。一系列实验结果证实了算法3能够有效地处理带有结构性噪声的图像分类问题。此外,与p=1相比,它在p<1时能够取得更好的效果。41基于核-L范数的联合矩阵回归

前两节已经强调了噪声的结构信息对鲁棒回归建模的重要性。为了有效地处理结构性的噪声,一些学者在建模中融入了一些额外的技[31]巧。例如,Morelli Andrés等人使用压缩感知提出了一种迭代的遮[32]挡探测算法。X. X. Li等人引入了部分迭代重加权稀疏编码,它能[33]够精确地探测出与整个训练集相关的遮挡区域。R. Min等人先实施了显式的遮挡分析,然后从非遮挡区域完成人脸识别任务。J. X. Mi[34]等人先将一张图像分成几块,其中,遮挡块由一个指示器决定,然后样本非遮挡块用作分类的特征依据。这些方法的共同特点是需提前探测出遮挡的位置。但是,对于许多实际的噪声,准确地探测出它们在图像中的位置是一项艰巨的任务。

不同于以上途径,基于回归的方法直接刻画噪声而不需要考虑噪[4][17]1声所处的位置,例如,SRC使用L范数来描述稀疏噪声,NMR借助核范数来拟合结构性噪声。可是,这些方法仅适合处理单一结构的噪声。我们知道,实际的噪声结构是复杂的,不仅具备一些稀疏属性,11还可能隐藏一些结构信息。我们所提出的NLR(nuclear-L norm [35]1joint matrix regression)结合了SRC和NMR的各自优势,采用核-L范数来刻画一类混合噪声,即稀疏噪声加上结构性噪声。

近年来,关于混合噪声的研究一直是图像处理中的热点问题。例[36]如,Y. Xiao等人将中值类型的滤波器与字典学习相结合来恢复被[37]高斯和脉冲混合噪声损坏的图像。J. Liu等人提出了一种加权的字典学习途径来实现混合噪声移除任务。这种方法将稀疏字典学习、图像重构、噪声聚类以及参数估计融入到一个框架中。J. L. Jiang等人[38]采纳一种加权的编码技巧来同时移除高斯和脉冲噪声。随后,J. [39]L. Jiang等人借助加权的低秩模型提出一种全新的混合噪声移除方法。这个方法同时保留了图像的全局结构和局部边界信息。但是,这些混合噪声移除模型仅仅适合点状噪声,他们仍然需借助传统的高斯噪声移除方法来完成降噪任务。此外,它们在单一的图像上实施降噪任务,并没考虑其他信息。因此,这些方法不适合模式表示(或分类)任务。[35]1

幸运的是,NLR能够同时处理混合噪声的移除和模式分类任务。它从两个不同的角度来考虑混合噪声。一方面,它将混合噪声看作一个整体,并使用一种推广的矩阵变量分布来描述这类噪声。这个[35]分布是推广的矩阵Slash分布与拉普拉斯分布的线性组合,即这里υ是一超参数,C'是正比例常数。借助最大后验概率估计并引入辅助变量E和Z,我们可获得以下模型:11其中,A(x)=(Vec(A(x));A0;(2-τ)x),B(z)=(0;110;-(2-τ)z),C(E)=(Vec(E);Vec(E);0),D(Z)11=(0;-Vec(Z);0),E=(Vec(B);0;0),且τ∈{1,2},α,1β>0。1

模型(10)被称为同时式的核-L范数联合回归模型1(simultaneous nuclear-L norm joint matrix regression model, 11SNLR)。算法4总结了解决SNLR的详细过程。1R算法4 使用ADMM解决SNL1

另一方面,NLR假设这类混合噪声是两种独立成分的叠加,即,结构性噪声和稀疏噪声,并分别使用推广的矩阵Slash分布和独1立的拉普拉斯分布来刻画每个成分。类似于SNLR的推导方式,我们可以获得以下模型:22其中,A(x)=(Vec(D(x));(2-τ)x),B(z)=(0;-(2-τ)211212z),C(E)=(Vec(E);0),D(E)=(Vec(E);0),11E=(Vec(B);0)且τ∈{1,2},α,β>0。

因为误差矩阵E被分解成两部分,我们称式(11)为分解式的核-11L范数联合矩阵回归模型(decomposed nuclear-L norm joint matrix 1regression model, DNLR)。解决此模型的算法被总结在算法5中。1R算法5 使用ADMM解决SNL

一般情况下,算法4和算法5拥有比SRC或者RSC更低的复杂[41][42][43]度。我们在AR、Extended Yale B以及Multi-PIE数据库上一系1列人脸识别实验证明:与其他方法相比,NLR可处理更多类型的噪11声且性能更优越。并且我们发现,DNLR的性能比SNLR更加稳定。5基于树结构核范数的稳健矩阵回归

前几节所介绍的模型都属于矩阵回归的范畴,主要区别在于它们采用了不同的方式来建模误差矩阵。事实上,这些方法都可认为稀疏表示模型不同角度的推广。但是,基于稀疏表示的模型几乎都是独立处理每一个变量,却不考虑变量在输入特征向量中的位置。从而,变量之间的关系和结构常被忽视。可是,很多的实际应用都要受益于这种结构先验。因此,将数据的结构与稀疏性结合起来是令人期待的。基于这个目的,组Lasso强调了稀疏系数之间的组或者块结构的依赖[44][45]关系,从而推广了一般的Lasso。L. Meier等人将组Lasso推广到Logistic模型中,并且提出了一种针对高维问题的有效算法。通过将[46]网格结构嵌入到字典中,R. Jenatton等人推广了稀疏PCA。但是,以上工作都无法解释为什么组结构会具备一定的优势。为此,J. Z. [47]Huang等人针对强组稀疏信号提供了令人信服的理论依据来解释组Lasso为什么要优于标准的Lasso。基于结构相关的编码复杂度,J. [48]Z. Huang等人进一步发展了一般的理论来学习结构性稀疏。此外,[49]R. Baraniuk等人对如何建立可靠的结构信号恢复算法提供了一些建议。

容易看出,在每一组内部,组稀疏并没有利用到稀疏性。换言之,如果一个组参数是非零的,那么这个组的所有元素都非零。所以,J. [50]Friedman等人提出了一个稀疏组Lasso来兼顾组水平以及特征(或[50]元素)水平的稀疏性。使用J. Friedman等人的观点,N. Simon等人[51]在回归问题中建模了组间和组内的稀疏性。更值得一提的是,X. [52]Zhu等人在视频数据中考虑了更多的先验知识,并且将图理论融入到稀疏组Lasso中。为了进一步加强组Lasso的稳健性,一些学者给[53][54]出了组Lasso的重叠版本。他们已经在大量的应用中显示出了优势。除了以上介绍的组结构,一些更复杂的组结构已经广泛地应用于[55]实际问题中。例如,P. Zhao等人引入了Composite Absolute Penalties(CAP)族。这个方法强调了变量间的预设定的组结构和分[56]层的关系。随后,Liu等人提出了一个有效的算法来处理树结构的[57]组Lasso。X. Cai等人将组稀疏和图稀疏放入同一的框架中,并提出了一个有效的算法来解决这个问题。关于结构性稀疏更多的应用,请参考文献[58][59][60]。

以上的方法都局限于表示系数或者字典的稀疏特性,并没考虑到[4][1][9]余差项的结构信息。事实上,在SRC、LRC以及CRC等基于回归的方法中,如何刻画余差项在模型的性能方面具有重要的影响。在SRC中,误差图像中的像素一般被假设服从独立的拉普拉斯或高斯分[10]布。但是,由实际变化所导致的误差图像是非常复杂的,这些已知的分布(例如,独立的拉普拉斯或者高斯分布)不足以描述它们。[25][24]一些近期的方法,包括SSRC、SSEC都主要用来处理结构性的噪声,但它们无法提供有效刻画噪声的合理解释。与这些方法相比,基于核范数的回归模型(Nuclear norm based Matrix Regression, [17]NMR)是处理人脸识别中光照和遮挡问题的简单而有效的方法。它使用核范数来刻画误差图像的结构特性。但是,NMR主要侧重于误差图像的全局结构。众所周知,误差图像上的局部结构信息也是很[61]关键的。

本节所介绍的树结构核范数逼近(Tree-Structured Nuclear norm [62]Approximation, TSNA)模型能够有效地处理空间连续的矩阵变量。它不仅考虑矩阵变量的全局结构,也考虑其局部结构。首先,我们需要在误差矩阵E上定义一个索引树T(见文献[62]),其中,,,包含了深度i的所有节点。在TSNA中,每一组被假设服从以下分布

公式(12)可认为是向量变量的Kotz-Type(V. K. T.)分布的一种推广,它属于椭圆等高分布的范畴。文献[63]已声明,Kotz-Type分布比多变量的正态分布有更重的尾部区域,因此它对异常点是稳健的。

如果将带有先验(12)的每一组认为是一个独立的事件,我们期待所有的事件同时发生。由统计学的基本原则,矩阵变量E的先验可写为

公式(13)被命名为分层的Kotz-Type分布,它将树结构嵌入推广到矩阵变量的Kotz-Type分布中。比起一些独立的分布,分层的Kotz-Type分布更接近于图像水平噪声的本质属性,因为它融合了不同水平的二维结构。假设稀疏服从拉普拉斯分布,则由最大后验概率估计,我们可以获得以下模型:其中,。此模型可通过推广的交替方向乘子法[64](EADMM)来解决。详细流程如算法6及算法7。1

TSNA从分层结构的角度分别推广了SRC、NMR以及NLR。NMR仅强调了水平0的结构,即它考虑了误差图像的全局结构却忽视了局部结构。SRC仅提炼了最后一个水平的结构。这对应于这个假设:1误差的像素是独立地产生的。这与实际的观测矛盾。至于NLR,它结合了水平0和水平d的结构(即,最后的水平),而误差图像的其他水平的结构仍然被忽视。TSNA将不同水平的二维结构融合在一个框架中。因此,比起其他方法,它更适合处理结构性的噪声。算法6 使用EADMM解决TSNA算法7 计算算法6中的步骤3

值得注意的是,SSRC也使用了树结构来拟合误差图像。可是,2∞在这个方法中,L或者L范数被用于刻画每一组。像前文的分析,这些向量范数无法完美地描述每一组的内部结构。而TSNA源于依赖的矩阵分布,所以,与SSRC相比,它能够更充分地强调每一组像素之间的依赖关系。即,TSNA与SSRC的不同之处在于对带有树结构先验的误差图像的每一组的刻画途径。TSNA将表示余差的TSN范数与2每类系数的L范数之比用于测量重构图像与每类之间的距离。一系列的实验结果表明,在处理遮挡的人脸识别问题时该方法表现出了优越的性能,尤其是在人脸图像中存在块状遮挡时优势更加明显。6结束语

基于回归的方法是分析数据的有效途径。特别是最近几年,伴随着稀疏表示和低秩表示这股潮流,回归分析方法已经引起了越来越多人的重视。关于回归分析的大量算法被相继地提出来解决实际的问题。同时,关于这些算法或者模型的理论性分析也取得了长足的进展。但至少在目前,基于回归分析的方法依然存在一些值得进一步研究的问题。(1)模型的泛化能力:目前的方法都是聚焦于特定的噪声,可是,现实中的噪声是千变万化的。所以模型的假设也许并不与实际情形相吻合。此外,基于回归的方法对图像的对齐程度具有较高的要求,并且需要依赖于一定数量的训练样本。在实际应用中,这些要求也许很难满足。这就需要我们提高回归分析方法的泛化能力,使其能够应付仅含有少量样本、图像不对齐以及噪声多变的实际问题。(2)大规模数据问题:处理大规模数据是近年来比较热门的话题。但是在现有的硬件条件下,如何降低算法的时间复杂度以及加快算法收敛率是一个亟待解决的问题。现存的回归分析算法的运行时间对数据规模具有很强的依赖性。虽然一些在线的、分布式的或者随机的算法能够处理以上面临的难题,但它们也许导致较低的精确度。因此,开发一种能够高效地解决大规模数据的回归方法是未来的一个重要研究方向。(3)方法的融合:近两年来,深度的回归方法已经成为一项重要的研究课题。其基本思想是将回归方法与深度学习相结合来学习更好的特征。但是,这类方法具有大量的参数需要调试。此外,如果样本存在大面积的遮挡,此类方法的优势并不明显。所以,如何寻找一种更好的算法框架与回归方法相融合来提升回归方法的性能是一项有趣的尝试。参考文献

[1] Naseem I, Togneri R, Bennamoun M. Linear regression for face recognition. IEEE Trans. on PAMI, 2010, 32 (1) : 2106-2112.

[2] Li S Z, Lu J. Face recognition using the nearest feature line method. IEEE Trans. on Neural Networks, 1999, 10 (2) : 439-443.

[3] Chien J T, Wu C C. Discriminant waveletfaces and nearest feature classifiers for face recognition. IEEE Trans. PAMI, 2002, 24 (12) : 1644-1649.

[4] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation. IEEE Trans. on PAMI, 2009, 31 (2) : 210-227.

[5] Wagner A, Wright J, Ganesh A, et al. Toward a practical face recognition system: robust registration and illumination via sparse representation. IEEE Trans. PAMI, 2012, 34 (2) : 372-386.

[6] Rigamonti R, Brown M, Lepetit V. Are sparse representations really relevant for image classification? In: CVPR, 2011: 1545-1552.

[7] Shi Q, Eriksson A, Hengel A, et al. Is face recognition really a compressive sensing problem? In: CVPR, 2011: 553-560.1

[8] Yang J, Zhang L, Xu Y, et al. Beyond sparsity: the role of L-optimizer in pattern classification. Pattern Recognition, 2012, 45: 1104-1118.

[9] Zhang L, Yang M, Feng X. Sparse representation or collaborative representation: which helps face recognition? In: ICCV, 2011: 471-478.

[10] Yang M, Zhang L, Yang J, et al. Robust sparse coding for face recognition. In: CVPR, 2011: 625-632.

[11] Yang M, Zhang L, Yang J, et al. Regularized robust coding for face recognition. IEEE Trans. on Image Processing, 2013, 22 (5) : 1753-1766.

[12] Bhar L. Robust regression. 2008. In: Parsad R, Gupta V K, Bhar L M, et al., (eds) . Advances in Data Analytical Techniques. Indian Agricultural Statistics Research Institute. http://www.iasri.res.in/ebook/EBADAT/index.htm. Accessed 1 July 2010.

[13] Huber P J. Robust estimation of a location parameter. The Annals of Mathematical Statistics, 1964, 35 (1) : 73-101.

[14] He R, Zheng W S, Hu B G. Maximum correntropy criterion for robust face recognition. IEEE Trans. on PAMI, 2011, 33 (8) : 1561-1576.

[15] Naseem I, Togneri R, Bennamoun M. Robust regression for face recognition. Pattern Recognition, 2012, 45 (1) : 104-118.

[16] He R, Zheng W, Tan T, et al. Half-quadratic based iterative minimization for robust sparse representation. IEEE Trans. PAMI, 2014, 36 (2) : 261-275.

[17] Yang J, Luo L, Qian J J, et al. Nuclear norm based matrix regression with applications to face recognition with occlusion and illumination changes. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017, 39 (1) : 156-171.

[18] Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 2011, 3: 1-112.

[19] He B, Yang H. Some convergence properties of a method of multipliers for linearly constrained monotone variational inequalities. Oper. Res. Let., 1998, 23: 151-161.

[20] Goldstein T, O'Donoghue B, Setzer S, et al. Fast alternating direction optimization methods. SIAM J. Imag. Sci., 2014, 7 (3) : 1588-1623.

[21] Kibria B M G, Haq M S. The multivariate linear model with matrix-t error variables. J. Appl. Statist. Sci., 2000, 9: 266-277.

[22] Basu S, Miccheli C A, Olsen P. Power exponential densities for the training and classification of acoustic feature vectors in speech recognition. Comput. Graph. Statist., 2001, 10 (1) : 158-184.

[23] Liu M H. Multivariate non-normal regression models, information complexity, and genetic algorithms: a three way hybrid for intelligent data mining. Ph. D. dissertation, The University of Tennessee, Knoxville 2006.

[24] Li X X, Dai D Q, Zhang X F, et al. Structured sparse error coding for face recognition with occlusion. IEEE Trans. on Image Processing, 2013, 22: 1889-1990.

[25] Jia K, Chan T H, Ma Y. Robust and practical face recognition via structured sparsity. In: ECCV, 2012: 331-344.

[26] Deng Y, Dai Q, Zhang Z. Graph Laplace for occluded face completion and recognition. IEEE Trans. on Image Processing, 2011, 20 (8) : 2329-2338.

[27] Deng W, Hu J, Guo J. Extended SRC: Under sampled face recognition via intra class variant dictionary. IEEE Trans. PAMI, 2012, 34 (9) : 1864-1870.

[28] Yang M, Feng Z, Shiu S C K, et al. Fast and robust face recognition via coding residual map learning based adaptive masking. Pattern Recognition, 2014, 47 (2) : 535-543.

[29] Ou W, You X, Tao D, et al. Robust face recognition via occlusion dictionary Learning. Pattern Recognition, 2014, 47 (4) : 1559-1572.

[30] Luo L, Yang J, Qian J J, et al. Robust image regression based on the extended matrix variate power exponential distribution of dependent noise. IEEE Trans. on Neural Networks and Learning Systems, 2016, 28 (9) : 1-15.

[31] Andrés A M, Padovani S, Tepper M, et al. Face recognition on partially occluded images using compressed sensing. Pattern Recognition Letters, 2014, 36: 235-242.

[32] Li X X, Dai D Q, Zhang X F, et al. Face recognition with continuous occlusion using partially iteratively reweighted sparse coding. In: ACPR, 2011: 293-297.

[33] Min R, Hadid A, Dugelay J L. Efficient detection of occlusion prior to robust face recognition. The Scientific World Journal, 2014: 1-10.

[34] Mi J X, Lei D, Gui J. A novel method for recognizing face with partial occlusion via sparse representation. Optik-International Journal for Light and Electron Optics, 2013, 124 (24) : 6786-6789.

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载