大维随机矩阵谱理论在多元统计分析中的应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-12 07:47:35

点击下载

作者:姜丹丹,白志东

出版社:知识产权出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大维随机矩阵谱理论在多元统计分析中的应用

大维随机矩阵谱理论在多元统计分析中的应用试读:

前言

近几十年,随着计算机科学技术的飞速发展,大维数据分析在现代科学研究中越来越突显其重要性,如在生物学的微阵列数据、金融学的股票市场分析、无线通信网络等新兴领域中,都出现了关于大维海量数据的统计问题。遗憾的是,经典的统计工具和统计方法却滞后于数据信息的发展,不能简单同步地应用于大维数据分析中,其根本原因是经典的统计极限理论是建立在样本量n远远大于变量维数p的假设下得到的结论。当经典的多元统计方法应用于大维数据分析时,会出现两种情况:经典的极限理论结果根本不可以应用,如检验的第一类错误可能会趋于1等;即使可以应用,其功效也会很低。虽然对于维数不是很大的情况,人们也早就创立了各种降维方法,如变量选择、主成分分析、因子分析等,但是这些方法还是无法适用于维数非常大的情况。本书在样本量和变量维数成比例增长的假设下,应用随机矩阵理论方法对经典的似然比检验作出必要而有效的修正,提出了相对于维数具有稳健性的修正似然比检验方法,使之适用于大维数据的统计分析,从而弥补由于维数升高而产生的理论缺失。

本书共6章。第1、2章主要介绍研究的背景和意义,以及大维随机矩阵理论的一些基本概念和主要理论结果。第3章探讨了关于大维数据的协方差矩阵的检验问题,包括单个总体大维协方差矩阵的修正似然比检验、双总体大维协方差矩阵的修正似然比检验以及多个总体大维协方差矩阵的检验等。第4章对大维均值变量进行统计分析,归纳为一般情况,提出了高维数、多变量的大回归分析的修正似然比检验,同时作为其特例,给出了大维多总体均值检验的修正方法;另外,还提出了两种关于回归系数的渐近正态检验。第5章介绍了在变量维数很大、甚至分组变量的组数也很大的情况下,分组变量的独立性检验;并在大维架构的假设下,提出了大维分组变量独立性的修正似然比检验和迹检验,同时将这两种检验方法与经典的似然比检验进行比较。第6章对未来的研究方向作出了进一步的探讨。

借本书出版之际,我们要特别感谢东北师范大学史宁中教授、郭建华教授、张宝学教授、陶剑教授、高巍教授、郑术蓉教授,在本书编写过程中,他们给予了鼓励、支持和帮助,并提出了许多宝贵的意见,在此表示衷心感谢。

本书可作为统计学及与统计学相关专业的本科生、硕士生、博士生的学习用书,也可作为研究大维数据统计分析的科研人员的参考用书。由于作者水平有限,不当之处在所难免,恳请广大读者提出宝贵意见,我们将作进一步改进。作者2014年7月  第1章绪论1.1 大维数据分析

本书主要介绍当变量维数很高时,应用大维随机矩阵谱分析理论对多元统计分析中一些经典问题的修正。众所周知,多元统计分析的问题主要依赖于经典的中心极限定理,而经典的中心极限定理是以假定维数很小为前提的。当维数升高时,中心极限定理会发生怎样的变化?维数的高与低又会使多元统计问题产生怎样不同的结果?……这一系列问题都是本书所要探究的。然而首当其冲的是为什么要研究高维数的情况,这与大维数据分析的发展密不可分。

随着现代科学技术的飞速发展,计算机科学成为20世纪极速发展的领域之一,并且广泛应用于其他领域。计算速度的提升和海量数据的储存促进了更多领域的深层发展,大维数据也随之出现在诸如农业科学的高分辨率图像、生物学的微阵列数据、金融业的股票市场分析及无线电通信信号网络等多个研究领域。比如,在无线通信的研究中,一个很重要的通过随机矩阵来描述大维数据的模型就是直接序列码分多址模型(DS-CDMA):

式中:y是接收到的信号;s是第i个用户的原始输入信号;i是第i个用户的展频数码;是传输过程中附加的复正态白噪声序列。假设随机变量s,s,…,s是独立的,且E(s)=E(|s|12qii2=1),上述模型就可以写为y=Hs+w(1.2)

式中:H=(h,h,…,h)是个p×q维矩阵;s=(s,s,12q12…,s)',(.)'表不矩阵的转置。通过观察接收到的信号y来估计原q始输出信号的信息。具体的应用和分析,可参见相关文献(Bai、Fang和Liang,2009)。在解决这一类实际问题中,透过计算机窗口可以收集、储存并分析大量数据,过去难以企及的海量计算也得以实现。

尽管计算机为统计分析带来诸多好处,但由此产生的问题也纷至沓来。其中最重要的问题就是经典的统计分析工具面临大维数据的挑战,是否依然行之有效?如果答案是否定的,又将如何对其进行修正和创新?事实上,在多元统计分析中,存在两种截然不同的极限结果:一种是在假定维数很小、样本量远远大于维数的前提条件下成立的经典极限理论;另一种是大维极限理论。大维极限理论的出现是由于当维数很高时,统计量的极限行为发生质的改变,使得经典极限理论所描述的结果或者表现很差,或者完全失效(趋于无穷)。下面用Bai和Silverstein(2006:3)中的一个例子,来解释这个问题。

例1.1 假设X(i=1,2,…,p;j=1,2,…,n)是标准正态随ij机变量,构成了一个来自于p维标准正态分布的样本,样本量为n,均值为p维零向量,协方差矩阵为单位矩阵I。记样本协方差矩阵为p

多元统计分析中一个重要的统计量为

式中:是样本协方差矩阵S的特征根。n

当维数p固定时,令n→∞,有,故统计量T→0,a.s.进一步,利用函数ln(1+x)的泰勒级数展开,可以得到依分布收敛:

当然,这个结果是在假设维数p相对于样本量很小的前提下才成立的。

然而,当p/n→y∈(0,1)且n→∞时,利用定理2.1中S的极限n谱分布的结果(见2.1节),依概率1有

这说明:当p,n→∞时,用任意一个正态分布作为统计量T的极限分布,都会是完全错误的。

为了解决这个问题,人们曾提出了降维的方法,通过降低变量维数,保留主要影响因素,以求达到经典统计方法对维数的要求。相对于经典统计方法,降维方法的可行性和优点显而易见,所以直到今天它仍然被广泛应用。但是,假设现在需要对10个变量进行分析,若保留其中3个变量,信息量尚可。如果是对300个变量进行分析,仍旧保留3个变量,保留的信息量仅有1%左右。信息量的大量流失导致降维方法的不稳定。如果想提高信息量保留率,如提高到10%,那么还剩下30个变量需要分析,仍然属于大维问题。所以人们仍旧孜孜不倦地追求大维数据分析更完善的方法。直到20世纪40年代,随机矩阵理论的发展和完善为解决大维数据分析问题开辟了更广阔的研究领域,因此,随机矩阵理论也在多个研究领域中得到进一步发展。1.2 随机矩阵理论

随机矩阵理论起源于量子物理的发展和研究,到20世纪50年代,大维随机矩阵极限谱分析的研究已经受到世界许多数学家和统计学家的关注。其中一个较为世人瞩目的工作就是,Wigner(1955,1958)首次将随机矩阵与量子物理结合起来,证明了随机Wigner矩阵标准化以后的经验谱分布的期望收敛到半圆律,这就是著名的高斯(Wigner)矩阵的半圆律。后又由Grenander(1963)和Arnold(1967,1971)等人多方面推广了这一结果。Bai(1999)给出了几乎处处收敛的推广结果。

除了Wigner矩阵以外,大维样本协方差矩阵同样备受关注,其中具有开创性的研究就是Marčenko和Pastur(1967)发现了大维样本协方差矩阵的极限谱分布,这就是著名的MP律。随后关于大维样本协方差矩阵的极限谱分布的一些工作相继出现,如Grenander和Silverstein(1977)、Wachter(1978)、Jonsson(1982)、Yin和Krishnaiah(1985)、Yin(1986)、Bai和Yin(1988)及Silverstein(1995)等人的研究。另外,大维随机F矩阵的极限谱分布的研究,也在Wachter(1980),Silverstein(1985),Yin(1986),Bai、Yin和Krishnaiah(1986,1987)等人的工作中得到发展。

20世纪80年代后期,随机矩阵理论的研究重心开始由某一族随机矩阵极限谱分布的存在性及具体表达形式等转移到大维随机矩阵的二阶极限定理,如线性谱统计量的中心极限定理、特征极值的极限分布等。在这方面Bai和Silverstein(2004)给出了大维样本方差矩阵线性谱统计量的中心极限定理。Zheng(2008)在此基础上进一步研究了大维F矩阵的线性谱统计量的中心极限定理。本书正是基于这些极限理论将大维随机矩阵谱理论应用于多元统计分析问题,对经典的似然比检验进行修正,提出新的有效检验办法以弥补维数升高带来的影响。1.3 主要内容和结构安排

通过绪论前两节的介绍,我们了解了大维数据分析在现代科学领域中的重要性,以及亟待新的统计工具、新的极限理论来解决大维问题的研究形势。本章阐述了随机矩阵的起源和发展,介绍了有关大维随机矩阵谱分析的主要文献,从而全面认识了大维随机矩阵谱分析的研究现状和发展方向。

第2章中主要介绍大维随机矩阵理论的一些基本概念和主要理论结果,包括经验谱分布、线性谱统计量等概念、大维样本协方差矩阵和F矩阵的极限谱分布,以及它们的线性谱统计量的中心极限定理。

第3章中探讨了关于协方差矩阵的检验问题,首先从理论上解释为什么经典的似然比检验不再适用于大维情况,然后利用第2章的结果提出新的修正似然比检验,最后通过模拟试验来说明修正方法的优越性。讨论包括以下几个方面:单个总体大维协方差矩阵的修正似然比检验;双总体大维协方差矩阵的修正似然比检验,及其适用于大维非正态数据的广义情况,并与文献Schott(2007)的方法进行了对比;还讨论了多个总体大维协方差矩阵检验的问题。

第4章对大维均值变量进行统计分析,归纳为一般情况,提出了高维数、多变量的大回归分析的修正似然比检验,同时作为其特例,给出了大维多总体的均值检验的修正方法。另外又提出了两种关于回归系数的渐近正态检验,并通过模拟试验对提出的这几种新方法和经典的似然比检验进行了比较。

第5章介绍了在变量维数很大、甚至分组变量的组数也很大的情况下,分组变量的独立性检验。在大维架构的假设下,提出了大维分组变量独立性的修正似然比检验和迹检验,并将这两种检验方法与经典的似然比检验进行比较。

第6章总结了本书的主要工作,并对未来的研究工作做了一些展望,粗浅地探讨了几个待解决的问题。  第2章大维随机矩阵的极限理论

这一章主要介绍后文工作中涉及的一些大维随机矩阵理论中的基本概念和结果。随机矩阵理论起源于量子物理的研究,而量子的能级是通过一些物理观测值组成的矩阵的特征根来间接反映的,这就决定了大维随机矩阵的谱分析在大维随机矩阵理论中占有很重要的位置。下面给出的是经验谱分布的定义:

定义 2.1(经验谱分布)设p×p的方阵M有实特征根,则可以定义一维的分布函数为矩阵M的经验谱分布(ESD):

式中:I{·}代表示性函数。

通常情况下,所考虑的随机矩阵在一定条件下其经验谱分布M收敛到其极限谱分布(LSD)F。为了估计参数θ=∫f(x)MdF(x),一般采用统计量

来估计参数θ,这里的称为随机矩阵M的线性谱统计量(LSS)。2.1 大维样本协方差矩阵和F矩阵的极限谱分布

在多元统计分析中,很多重要的统计量都可以表示成样本协方差矩阵经验谱分布的函数,对这些统计量极限行为的研究等价于研究样本协方差矩阵极限谱分布,因此样本协方差矩阵的极限谱分布在多元统计推断中尤为重要。假设X=(x,x,…,x)是来自某个p维高12n斯分布N(μ,Σ)的一个样本,其中x=(x,x,…,x)'。样本ppi1i2ipi协方差矩阵定义为

其中,。通常情况下,在大维随机矩阵谱分析中样本协方差矩阵也可简化定义为

这是由于是个秩为1的矩阵,因此的存在与否并不影响协方差矩阵的极限谱分布。在大维随机矩阵谱分析的研究中,样本协方差矩阵的极限谱分布函数的研究由来已久。1967年,Marčenko和Pastur首次成功地研究了样本协方差矩阵的极限谱分布,也就是著名的MP律。后续的工作在第1章中有所介绍,这方面最新的理论成果是Bai(1999)对复随机变量大维样本协方差矩阵极限谱分布的研究,其结果是Yin(1986)工作结果由实向复的一个推广。下面是这个定理的表述:

定理2.1(Bai,1999) 假设X={x,1≤i≤p,1≤j≤n}是由均值为0,ij2方差为σ的独立同分布的复随机变量组成的二维阵列,则当p/n→y∈(0,1)时,样本协方差矩阵S的经验谱分布依概率1收敛到极限谱ny分布F(x)其密度函数为

且当y>1时,在原点有点测度。22

定理2.1就是参数为y和σ的MP律。当参数σ=1时,称其为标准的MP律。Bai和Silverstein(2004)将上述结果推广到样本协方差矩阵元素独立但不同分布的情况,在拥有共同均值和方鐘的假设下,添加了条件:对任意的∈>0,有

使得定理2.1的MP律依然成立,证明详见Bai和Silverstein(2006:46)。

在多元统计分析中,另一个很重要的矩阵就是F矩阵。设是两组分别由均值为0、方差为1的独立同分布的复随机变量组成的二维阵列,记ξ=(ξ,ξ,…,ξ)'及η=(η,η,…,η)'。对i1i2ipij1j2jpj任意的整数n、n,变量(ξ,ξ,…,ξ)和(η,η,…,η)1212n112n2可以看做是分别来自于某个p维多元分布的两组独立的样本,样本量分别为n和n。两组样本的协方差矩阵分别记作S和S,即1212

就是所谓的F矩阵。为了使S有逆矩阵存在,要求n>p,这里的22n=(n,n)。12

最初在S和S是两个相互独立的Wishart矩阵的条件下,由12Waditer(1980)给出了F矩阵的极限谱分布。其具体表达形式可在Bai、Yin和Krishnaiali(1987),Silverstein(1985)及Yin、Bai和Krishnaiah(1983)等工作中找到。若除去对S和S的Wishart假设,12依赖Bai和Yin(1993)对样本协方差矩阵最小特征值强极限的研究以及Yin(1986)的结果,米用Bai、Yin和Krishnaiali(1987)中的方法,可以证明在S和S适当的矩条件下,F矩阵的极限谱分布与在Wishart12假设下得到的相同。这方面的工作有Yin和Krishnaiali(1983),Bai、Yin和Krishnaiah(1986),Silverstein(1995),Bai和Silverstein(1995),以及Yin(1986)。下面给出的F矩阵极限谱分布的表述定理,是依据Bai和Silverstein(2006:72)给出的:

定理2.2(Bai和Silverstein,2006) 假设是两组分别由均值为0、方差为1的独立同分布的复随机变量组成的二维阵列,且对任意固定的∈>0,有(n)满足类似的条件,则当kjy1,时,多元F阵U的经验谱分布依概率1收敛到极限谱分布Fny2其密度函数为

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载