统计学习方法(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-09 08:20:14

点击下载

作者:李航

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

统计学习方法

统计学习方法试读:

版权信息书名:统计学习方法作者:李航排版:辛萌哒出版社:清华大学出版社出版时间:2012-03-01ISBN:9787302275954本书由清华大学出版社有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —前 言

计算机与网络已融入到了人们的日常学习、工作和生活之中,成为人们不可或缺的助手和伙伴。计算机与网络的飞速发展完全改变了人们的学习、工作和生活方式。智能化是计算机研究与开发的一个主要目标。近几十年来的实践表明,统计机器学习方法是实现这一目标的最有效手段,尽管它还存在着一定的局限性。

作者一直从事利用统计学习方法对文本数据进行各种智能性处理的研究,包括自然语言处理、信息检索、文本数据挖掘。近20年来,这些领域发展之快,应用之广,实在令人惊叹!可以说,统计机器学习是这些领域的核心技术,在这些领域的发展及应用中起着决定性的作用。

作者在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做过关于统计学习的报告和演讲。在这一过程中,同学们学习热情很高,希望得到指导,这使作者产生了撰写本书的想法。

国内外已出版了多本关于统计机器学习的书籍,比如,Hastie等人的《统计学习基础》。该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深奥。统计学习范围甚广,一两本书很难覆盖所有问题。本书主要是面向将统计学习方法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘及相关领域的研究与开发的科研人员与学生。

本书力求系统而详细地介绍统计学习的方法。在内容选取上,侧重介绍那些最重要、最常用的方法,特别是关于分类与标注问题的方法。对其他问题及方法,如聚类等,计划在今后的写作中再加以介绍。在叙述方式上,每一章讲述一种方法,各章内容相对独立、完整;同时力图用统一框架来论述所有方法,使全书整体不失系统性。读者可以从头到尾通读,也可以选择单个章节细读。对每一方法的讲述力求深入浅出,给出必要的推导证明,提供简单的实例,使初学者易于掌握方法的基本内容,领会方法的本质,并准确地使用方法。对相关的深层理论,则仅予以简述。在每章后面,给出一些习题,介绍一些相关的研究动向和阅读材料,列出

参考文献

,以满足读者进一步学习的需求。本书第1章简要叙述统计学习方法的基本概念,最后一章对统计学习方法进行比较与总结。此外,在附录中简要介绍一些共用的最优化理论与方法。

本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语言处理等专业的大学生、研究生。

本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶宇等人分别审阅了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮助。在此向他们表示衷心的感谢。在本书写作和出版过程中,清华大学出版社的责任编辑薛慧给予了很多帮助,在此特向她致谢。

由于作者水平所限,书中难免有错误和不当之处,欢迎专家和读者给予批评指正。来函请发至ml-book-hangli@hotmail.com。李 航2011年4月23日符号表R实数集nRn维实数向量空间,n维欧氏空间H希尔伯特空间X输入空间Y输出空间x∊X输入,实例y∊Y输出,标记X输入随机变量Y输出随机变量 , y),T={(x11 , y),…,(x训练数据集22,y)}(xNNN样本容量 , y)(x第i个训练数据点ii(1)(2),x,x=(x输入向量,n维实数向量(n)T)…,x(j)x的第j分量输入向量xiiP(X), P (Y)概率分布P(X , Y)联合概率分布F假设空间f∊F模型,特征函数, w模型参数, w,w=(w12权值向量T)…,wnb偏置J(f)模型的复杂度Remp经验风险或经验损失Rexp风险函数或期望损失L损失函数,拉格朗日函数学习率||·||范数L11, ||·||||·||范数L22(x· )向量x与的内积H(X) , H(p)熵H(Y | X)条件熵S分离超平面,a,a=(a12拉格朗日乘子,对偶问题变量T)…,anai对偶问题的第i个变量K(x , z)核函数sign(x)符号函数I(x)指示函数Z(x)规范化因子第1章统计学习方法概论

本章简要叙述统计学习方法的一些基本概念。这是对全书内容的概括,也是全书内容的基础。首先叙述统计学习的定义、研究对象与方法;然后叙述监督学习,这是本书的主要内容;接着提出统计学习方法的三要素:模型、策略和算法;介绍模型选择,包括正则化、交叉验证与学习的泛化能力;介绍生成模型与判别模型;最后介绍监督学习方法的应用:分类问题、标注问题与回归问题。1.1 统计学习

1.统计学习的特点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。

统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

赫尔伯特·西蒙(Herbert A. Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。

2.统计学习的对象

统计学习的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

在统计学习过程中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。

3.统计学习的目的

统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。

对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

4.统计学习的方法

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

本书主要讨论监督学习,这种情况下统计学习的方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习方法的步骤如下:(1)得到一个有限的训练数据集合;(2)确定包含所有可能的模型的假设空间,即学习模型的集合;(3)确定模型选择的准则,即学习的策略;(4)实现求解最优模型的算法,即学习的算法;(5)通过学习方法选择最优模型;(6)利用学习的最优模型对新数据进行预测或分析。

本书以介绍统计学习方法为主,特别是监督学习方法,主要包括用于分类、标注与回归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着极其广泛的应用。

5.统计学习的研究

统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)及统计学习应用(application of statistical learning)三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。

6.统计学习的重要性

近20年来,统计学习无论是在理论还是在应用方面都得到了巨大的发展,有许多重大突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。

统计学习学科在科学技术中的重要性主要体现在以下几个方面:(1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具。(2)统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究表明,利用统计学习模仿人类智能的方法,虽有一定的局限性,但仍然是实现这一目标的最有效手段。(3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用。1.2 监督学习

统计学习包括监督学习、非监督学习、半监督学习及强化学习。本书主要讨论监督学习问题。

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)。计算机的基本操作就是给定一个输入产生一个输出,所以监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富、应用最广泛的部分。1.2.1 基本概念

1.输入空间、特征空间与输出空间

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。

每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。

在监督学习过程中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入、输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入、输出变量所取的值用小写字母表示,输入变量的取值写作x,输出变量的取值写作y。变量可以是标量或向量,都用相同类型字母表示。除特别声明外,本书中向量均为列向量,输入实例x的特征向量记作(i)(i)

x表示x的第i个特征。注意,x与x不同,本书通常用x表示多ii个输入变量中的第i个,即

监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为

测试数据也由相应的输入与输出对组成。输入与输出对又称为样本(sample)或样本点。

输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。

2.联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。注意,在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

3.假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。

监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数(decision function)Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作P(y|x)或Y=f(x)。1.2.2 问题的形式化

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction)。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程,由学习系统与预测系统完成,可用图1.1来描述。图1.1 监督学习问题

首先给定一个训练数据集n

其中(x,y),i=1,2,…,N,称为样本或样本点。x∊x⊆R是输入的iii观测值,也称为输入或实例,y∊是输出的观测值,也称为输出。i

监督学习中,假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。

在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布(Y|X)或决策函数Y=(X)。条件概率分布(Y|X)或决策函数Y=(X)描述输入与输出随机变量之间的映射关系。

在预测过程中,预测系统对于给定的测试样本集中的输入x,N+1由模型或y=(x)给出相应的输出N+1N+1y。N+1

在学习过程中,学习系统(也就是学习算法)试图通过训练数据集中的样本(x,y)带来的信息学习模型。具体地说,对输入x,一个iii具体的模型y=f(x)可以产生一个输出f(x),而训练数据集中对应的输i出是y,如果这个模型有很好的预测能力,训练样本输出y和模型输ii出f(x)之间的差就应该足够小。学习系统通过不断的尝试,选取最好i的模型,以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测也有尽可能好的推广。1.3 统计学习三要素

统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成,可以简单地表示为

方法=模型+策略+算法

下面论述监督学习中的统计学习三要素。非监督学习、强化学习也同样拥有这三要素。可以说构建一种统计学习方法就是确定具体的统计学习三要素。1.3.1 模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。

假设空间用表示。假设空间可以定义为决策函数的集合

其中,X和Y是定义在输入空间x和输出空间上的变量。这时通常是由一个参数向量决定的函数族:n

参数向量取值于n维欧氏空间R,称为参数空间(parameter space)。假设空间也可以定义为条件概率的集合

其中,X和Y是定义在输入空间x和输出空间上的随机变量。这时通常是由一个参数向量决定的条件概率分布族:n

参数向量取值于n维欧氏空间R,也称为参数空间。

本书中称由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。为了简便起见,当论及模型时,有时只用其中一种模型。1.3.2 策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。

首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

1.损失函数和风险函数

监督学习问题是在假设空间中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。

统计学习常用的损失函数有以下几种:(1)0-1损失函数(0-1 loss function)(2)平方损失函数(quadratic loss function)(3)绝对损失函数(absolute loss function)(4)对数损失函数(logarithmic loss function)或对数似然损失函数(loglikelihood loss function)

损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载