基于深度置信网络的分类方法(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-22 19:41:02

点击下载

作者:周树森

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

基于深度置信网络的分类方法

基于深度置信网络的分类方法试读:

前言

21世纪初,机器学习领域出现了一系列基于多层神经网络架构的学习方法,称为深度学习方法。深度学习的最大特点,就是把一个复杂的认知问题分解为几层简单问题,通过对简单问题的大运算量处理,得出规律,进人下一“层”,逐层运算处理,直到触达事物本质。深度置信网络作为经典的深度学习方法,可以包含较多隐藏层,可以更好地学习各种复杂数据的结构和分布,引起了广泛关注。深度置信网络本身采用的是无监督学习机制,可以采用先以无监督学习进行抽象,后以有监督学习进行分类的方法提升分类性能。探讨如何使用深度学习方法来解决分类问题,特别是基于半监督学习的分类问题的研究工作具有重要的现实意义。

本书提出了一系列基于深度置信网络的分类方法,使用半监督学习方法和监督学习方法来提升分类性能。

第一,区分深度置信网络。深度置信网络方法在数据压缩中取得了很好的效果,但是在分类方面的性能还有待提升。本书基于深度置信网络方法,提出了一种新的半监督学习方法,称为区分深度置信网络。该方法使用一个新的深层架构来集成深度置信网络的抽象能力和指数损失函数的区分能力,可以使用少量的标注数据达到比较好的分类效果。在人工合成和现实生活中图片数据集上的实验表明,区分深度置信网络可以通过使用大量的未标注数据来大幅度提升它的分类能力。

第二,自适应深度置信网络。区分深度置信网络主要解决半监督学习问题,而没有解决如何用深度学习方法进行有效的监督学习的问题。本书基于区分深度置信网络和深度自动编码方法,提出了一种新的监督学习方法,称为自适应深度置信网络。该方法使用无监督学习方法来构建输出层,与使用随机数初始化输出层的经典方法相比,分类结果得到了提升。在手写数字、手写字母和现实生活中图片数据集上的实验表明,自适应深度置信网络的分类结果优于经典机器学习方法和区分深度置信网络方法。

第三,量子深度置信网络。量子神经网络是一个将模糊集和传统神经网络很好地结合起来的分类方法。为了进一步提升监督学习方法的性能,本书在自适应深度置信网络和量子神经网络基础上,提出了量子深度置信网络方法。该方法使用一个新的深层架构来集成深层架构的抽象能力和量子神经网络的模糊表示能力。在多个现实应用数据集上的实验表明,量子深度置信网络的分类能力明显高于经典神经网络、模糊神经网络、区分深度置信网络和自适应深度置信网络方法。

第四,主动深度置信网络。为解决半监督学习中的有效样本选择问题,本书将自适应深度置信网络和主动学习方法相结合,提出了一种新的半监督学习方法,称为主动深度置信网络。该方法使用同一个深层架构来进行半监督学习和主动学习,使深层架构在主动学习过程中进行迭代训练,逐步提高抽象和分类能力。本书将主动深度置信网络成功地应用到情感分类任务中,实验结果表明,主动深度置信网络的性能优于经典半监督学习方法、主动学习方法,对本书前面提出的深度学习方法也有性能上的改进。

第五,主动模糊深度置信网络。为了进一步提升主动深度置信网络的性能,本书将主动深度置信网络与模糊学习方法相结合,提出了主动模糊深度置信网络。该方法继承了深层架构优异的数据抽象能力和模糊集优异的分类能力。本书将该方法成功地应用到情感分类任务中,实验结果表明,主动模糊深度置信网络获得了所有对比方法中最好的性能。

最后,本书将深度学习方法应用到手写中文识别中,提出了一个有效的手写中文识别方法,称为基于深层架构的手写识别方法。该方法将深层架构的抽象能力和指数损失函数的分类能力相结合,使用深层架构进行粗分类,然后使用改进的二次分类函数进行细分类。在三个手写中文识别数据库上的实验表明,基于深层架构的手写识别方法可以通过深层架构来提升分类性能,识别正确率优于经典的手写中文识别方法,从而进一步验证了基于深度置信网络的分类方法解决大规模实际应用中的分类问题的能力。

本书的相关研究和出版得到了国家自然科学基金(No. 61300155,61170161)、鲁东大学校基金(No. LY2013004)资助。另外,本书的编写还得到鲁东大学信息与电气工程学院院长邹海林教授、哈尔滨工业大学深圳研究生院王晓龙教授和陈清财教授的大力支持,在此对这些同志的鼓励和帮助表示衷心的感谢。

限于作者的学识水平,书中难免有不妥和疏漏之处,恳请各位专家、同仁和读者不吝赐教和批评指正。

作者邮箱zhoushusen®gmail.com。周树森2015年6月于烟台摘要

最近,机器学习领域出现了一系列基于多层神经网络架构的学习方法,称为深度学习方法。深度置信网络作为经典的深度学习方法,可以包含较多隐藏层,可以更好地学习各种复杂数据的结构和分布,引起了广泛关注。但由于深度置信网络本身采用的是无监督学习机制,因此,探讨如何使用深度学习方法来解决分类问题,特别是基于半监督学习的分类问题的研究工作还比较少。

本书提出了一系列基于深度置信网络的分类方法,使用半监督学习和监督学习方法来提升分类性能。研究内容主要包括以下几方面:

第一,区分深度置信网络。深度置信网络方法在数据压缩中取得了很好的效果,但是在分类方面的性能还有待提升。本书基于深度置信网络方法,提出了一种新的半监督学习方法,称为区分深度置信网络。该方法使用一个新的深层架构来集成深度置信网络的抽象能力和指数损失函数的区分能力,可以使用少量的标注数据达到比较好的分类效果。

第二,自适应深度置信网络。区分深度置信网络主要解决半监督学习问题,而没有解决如何用深度学习方法进行有效的监督学习的问题。本书基于区分深度置信网络和深度自动编码方法,提出了一种新的监督学习方法,称为自适应深度置信网络。该方法使用无监督学习方法来构建输出层,与使用随机数初始化输出层的经典方法相比,分类结果得到了提升。

第三,量子深度置信网络。量子神经网络是一个将模糊集和传统神经网络很好地结合起来的分类方法。为了进一步提升监督学习方法的性能,本书在自适应深度置信网络和量子神经网络基础上,提出了量子深度置信网络方法。该方法使用一个新的深层架构来集成深层架构的抽象能力和量子神经网络的模糊表示能力。

第四,主动深度置信网络。为解决半监督学习中的有效样本选择问题,本书将自适应深度置信网络和主动学习方法相结合,提出了一种新的半监督学习方法,称为主动深度置信网络。该方法使用同一个深层架构来进行半监督学习和主动学习,使深层架构在主动学习过程中进行迭代训练,逐步提高抽象和分类能力。

第五,主动模糊深度置信网络。为了进一步提升主动深度置信网络的性能,本书将主动深度置信网络与模糊学习方法相结合,提出了主动模糊深度置信网络。该方法继承了深层架构优异的数据抽象能力和模糊集优异的分类能力。

最后,本书将深度学习方法应用到手写中文识别任务中,提出了一个有效的手写中文识别方法,称为基于深层架构的手写识别方法。该方法将深层架构的抽象能力和指数损失函数的分类能力相结合,使用深层架构进行粗分类,然后使用改进的二次分类函数进行细分类。

关键词:深度学习,监督学习,半监督学习,主动学习,文本分类,图像分类,手写识别Abstract

Recently, deep learning methods, one kind of learning method which based on multilayer neural networks, were proposed. Deep belief networks (DBN) is a typical deep learning method, which is usually composed of many hidden layers, has better capability of learning complex structures and distributions of real data sets than traditional neural networks. However, because of the unsupervised learning mechanism used in DBN, there is still few research on using deep learning method to solve classification problems, especially semi-supervised classification problems.

To improve the classification performance of semi-supervised and supervised learning, this book proposes several classification methods based on deep belief networks. The main contents of this book are as follows.

First, discriminate deep belief networks are proposed. DBN has reached good performance in data compression, however, the data classification performance is need to be improved. We propose a new semi-supervised learning method, discriminate deep belief networks, which uses a new deep architecture to integrate the abstraction capability of DBN and the discriminative capability of the exponential loss function. It helps the method reaching good classification performance by using fewer labeled data.

Second, adaptive deep belief networks are proposed. Discriminate deep belief networks are used to solve semi-supervised learning problems, and cannot solve supervised learning problems with deep learning method efficiently. We propose a supervised learning method based on deep learning. This supervised learning method is referred to as adaptive deep belief networks, and is based on discriminate deep belief networks and deep autoencoder. This method uses an unsupervised learning method to construct the output layer. Compared with classical random initialization methods, this method can obtain a higher classification accuracy.

Third, quantum deep belief networks are proposed. Quantum neural networks is a classification method that combines the merits of fuzzy sets and traditional neural networks methods. To further improve the performance of supervised learning, we propose the quantum deep belief networks, based on adaptive deep belief networks and quantum neural networks. This method uses a new deep architecture to integrate the abstraction ability of deep architecture and fuzzy representation ability of quantum neural networks.

Fourth, active deep belief networks are proposed. To solve the effective sample selection problem, we propose a new semi-supervised learning method, active deep belief networks, based on adaptive deep belief networks and active learning method. This method uses the same deep architecture for semi-supervised learning and active learning, and iteratively trains it in active learning procedure, improves the abstraction and classification ability step by step.

Fifth, active fuzzy deep belief networks are proposed. To improve the performance of active deep belief networks method continuously, we propose a new semi-supervised learning method, active fuzzy deep belief networks, based on active deep belief networks and fuzzy learning method. This method inherits the powerful abstraction ability of deep architecture and powerful fuzzy classification ability of fuzzy sets.

At last, we apply deep learning methods in handwritten Chinese character recognition mission, and propose an effective handwritten Chinese character recognition method, handwriting recognition based on deep architecture. This method integrates the abstraction ability of deep learning method and discriminative ability of exponential loss function, uses deep architecture for coarse classification and modified quadratic discriminant function for fine classification.

Key words: Deep learning, Supervised learning, Semi-supervised learning, Active learning, Text classification, Image classification, Handwriting recognition第1章绪论1.1 引言

模式识别领域的研究者一直尝试让计算机来识别人类的文字、声音和图像,让人机可以更自然地交互。这方面的工作主要分成三个分支:文本处理、语音识别和图像分类。文本处理指的是让计算机对已经录入的文档进行理解,这涉及情感分类、观点分类等领域。语音识别是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。图像分类根据图像信息中所反映的不同特征,把不同类别的目标区分开来。最具代表性的图像分类应用是手写识别,它将印刷或者书写在一定媒介上的文字的图像形式转化为计算机可以处理的符号表示。例如,英文字母用8位ASCII编码表示,汉字用16位Unicode编码表示。

近年来机器学习领域的飞速发展让许多人认为神经网络已经过时,甚至消亡了。但是,最新在由多个神经网络的隐藏层组成的深层架构上的研究成果表明,要下这种结论还为时过早[1]。深层架构由许多层非线性运算组成[2],例如在神经网络中由许多隐藏层组成,或在复杂架构中重复使用许多子模块[3]。深度学习指的是对深层架构进行训练并调整里面的参数来完成机器学习任务。

对于深度学习合理性的一个比较可信的理论支持来自神经科学,人类也是用类似的方法来观察和感知世界的。例如,视网膜上的视觉信息传到丘脑外侧膝状核,再映射到后头部的脑叶里的初级视觉皮层。初级视觉皮层,也叫作V1,分为6个功能不同的层,标号从1到6。第4层,也叫作颗粒层,它从外侧膝状核接收大多数视觉信息,可以进一步分成4层,标号为4A、4B、4Cα和4Cβ。V1携带一组时空特征,例如方向,发送给纹状皮质V2。然后V2通过强大的连接发送给V3、V4、V5,同样通过反向传播连接反馈给V1[4]。所以即使对于最简单的视觉信息的产生,也经过了数十层皮层的处理以及大约1.4亿神经元的参与[5]。在这里,丘脑内处理物体关注和感知的神经元并没有被计算在内。

理论分析也表明,与浅层环路相比,深层架构更加高效,因为它们可以表示大多数常用函数,特别是简洁有效的学习有高度变化性的函数[6]。例如,为了给d维奇偶函数建模,高斯支持向量机(SVM)需要用O(d2d)个参数,而深度学习只需要用O(d2)个参数,使用O(log2d)个隐藏层[7]。Bengio和LeCun认为深层架构具有以非局部方式泛化的潜能,例如,超越近邻,这对于需要人工智能的复杂任务能否取得进展起到关键作用[8]。

深度学习方法可以用来进行数据分类、数据压缩等,已经应用到图像和文本处理等多个领域。但是探讨如何使用深度学习方法来解决分类问题,特别是基于半监督学习的分类问题的研究工作还比较少。本书尝试在模式识别领域的最新研究成果——深度置信网络的基础上,改进优化算法,与模糊学习、主动学习等方法相结合,在方法上进行基础性的调整,将深层架构的学习能力进一步提升,并将研究的方法应用于多个新的领域,来解决现实中图像分类、文本分类和手写识别等方面的问题。1.2 机器学习方法

机器学习方法包括监督学习、无监督学习和半监督学习方法三类,本书主要采用监督学习和半监督学习方法来解决现实应用中的各种分类问题。下面分别介绍分类问题的监督学习和半监督学习方法研究现状。1.2.1 监督学习方法

监督学习是一种以建立数据与其对应标签的映射关系为目标,利用已标注数据来构建分类器的方法。经典的监督学习方法分为两类:生成学习方法(generative algorithms)和判别学习方法(discriminative algorithms)。

生成学习方法首先使用无监督学习方法对类条件概率密度p(x|y)建模,然后使用贝叶斯理论[9]预测已知数据x时y产生的概率:实际上,p(x|y)p(y)=p(x,y)是数据的联合概率密度,通过它可以产生已标注数据(xi,yi)。常用的生成学习方法包括贝叶斯[10,11]和高斯混合模型[12]等。John和Langley在贝叶斯分类器中使用统计方法进行非参数密度估计,大大降低了错误率。Heckerman等人在学习贝叶斯网络时将用户知识和统计数据相结合,简化了对用户先验知识的编码过程[11]。Rasmussen给出了一个不限制节点个数的高斯混合模型,解决了如何找出合适的结点个数的难题[12]。

判别学习方法不需要估计xi是如何产生的,只要集中精力解决p(y|x)的概率分布。常用的判别学习方法包括决策树[13]、最大熵模型[14]、人工神经网络[15,16]和支持向量机[17]等。Qumlan归纳了已经应用到各种各样系统中的决策树方法,讨论了决策树方法的缺陷并提出解决方案[13]。Berger等人描述了一种基于最大熵模型的统计方法,并将其应用到自然语言处理中[14]。Hecht-Nielsen介绍了反向传播神经网络的相关理论知识[15]。Yao提出了一种进化人工神经网络方法,它将人工神经网络与进化搜索方法(例如遗传算法)巧妙地结合起来[16]。Cortes和Vapni介绍了当训练数据不可分时支持向量机的训练方法,并将支持向量机的性能与各种各样的经典学习方法进行了比较[17]。

本书主要是在人工神经网络方法基础上,研究隐藏层的层数增加时的深度学习方法。现在经典的神经网络方法不能通过增加隐藏层的层数的方法来提高性能[18],为了学习更复杂的函数来表示更高层次的抽象特征,我们需要深层架构[3]。深层架构在表示特殊函数时所需要的计算单元和参数比浅层架构更加高效[19]。但是,在深层架构中很难优化权值。Hinton等人[2]最近提出的基于层与层之间的贪心无监督学习方法很好地解决了这个问题。关于基于深层架构的深度学习方法的研究现状,将在1.3节中详细介绍。1.2.2 半监督学习方法

在现实生活的各种应用中,我们经常会碰到标注数据非常难以取得,或者需要付出高昂的金钱或时间成本来标注数据的情况[20],而大量的未标注数据却很容易得到。例如,在基于内容的图像检索中,用户通常只给出一个样例图片来检索,要求系统返回与该图片类似的多个图片。所以这时我们有很多未标注的图片存在数据库中,但是只有一张标注的图片,就是用户给出的要检索的图片[21]。为了解决这个问题,使用大量未标注数据,和已标注数据一起来构建更好的分类器的半监督学习方法成为比较好的选择。由于半监督学习只需要少量人力参与标注数据,并且能得到更高的正确率,从而在理论和实践上都得到越来越广泛的关注[22]。

经典的半监督学习方法包括自训练(self-training)[20,23-26]、协同训练(co-training)[27-29]、三组式训练(tri-training)[30]、再生模型(generative models)[31-33]、图算法(graph-based algorithms)[34-37]和直推式支持向量机(transductive support vector machines, TSVM)[38-43]。最早想把未标注数据用到分类问题的是自训练方法[20],这是一个可以应用到大多数已有分类器上的包装方法[24],经常被用到像自然语言处理等问题的现实任务中[25]。Nle等人提出了一个全新的半监督直交区分分析方法,它通过一个特殊设计的标注传播方法将标注信息从未标注数据传到已标注数据[26]。协同训练方法[27-29]分别在两个不同的数据特征上训练两个学习器,例如两个独立分布的属性集。用户用在每一个分类器上预测的未标注数据的标签来扩充另一个分类器的训练集。为了降低协同训练方法在效率和多个特征方面的需求,三组式训练方法从原始的标注数据集中产生三个分类器,并使用对未标注数据投票决定其标签的方法来进一步优化这些分类器[30]。协同训练和三组式训练方法都是利用未标注数据中的有用信息来提高网页分类和可视化数据分析等应用的性能。使用再生模型的期望最大方法(expectation maximization)[31]结合期望最大和朴素贝叶斯分类器,通过从大量的未标注数据中选择数据标注后加入已标注数据,来扩充初始时少量的已标注数据集,从而提高性能。非参数贝叶斯方法[32]为再生模型使用高斯方法,并且借助了马尔科夫链蒙特卡罗方法的最新研究成果。Patel等人提出了一种新的方法,使用稀疏高斯回归方法来解决半监督两类分类问题[33]。图最小分割方法[34]使用数据之间的相似性验证来构建一个图,然后通过最小化相似样例对的个数的方法来分割属于不同标签的子图。Jebara等人通过实验研究了基于图构建方法的主流半监督学习方法,发现b-matching方法在没有明显增加时间复杂度的前提下,取得了比别的方法更好的预测正确率[35]。Zhang等人提出了一种原型向量机方法,是一种可扩展的基于图形方法的大规模半监督学习方法[36]。Baghshah和Shouraki提出一种基于核方法,使用一个非线性变换的度量学习方法[37]。Chapelle和Zien提出一种基于图距离的方法,以降低各个类之间地区的密度为目标,然后训练一个直推式支持向量机[39]。Sindhwani等人提出了一种策略,把直推式学习和监督学习方法转换成半监督学习方法[40]。Li等人提出了两个版本的meanS3VM方法,通过最大化标签均值之间的距离的方法进行优化[41]。第一个是基于多个核的学习方法,第二个是基于交替优化的方法。Collobert优化了TSVM方法,使它能够在大规模数据库上运行[42]。另外,半监督学习被应用到各个领域中,例如,进化数据[44],文本分类[45],词性标注[46],空间雕刻[47],图像的分割[48]、标注[49]、分类[50,51]和检索[52,53]。

现在,大多数半监督学习方法使用浅层架构来解决问题[54],例如核方法[38,39,55,56]。但是,由多层非线性操作组成的深层架构在半监督学习中表现更好[3,57]。Weston等人将浅层架构的方法应用到深层架构中,已经在半监督学习任务中取得了比较好的结果。许多试验验证支持深层架构在解决比较难的学习问题上有比较好的表现的论点[7,54]。理论分析也表明,与浅层架构相比,深层架构更加高效,因为它们可以紧凑高效地表示大多数函数,特别是有高度变化性的学习函数[6]。另外,神经科学也提供证据表明人类视觉和感知系统提取特征用的多层神经元与现在设计的深层架构很类似[58]。关于基于深层架构的深度学习方法的研究现状,本书将在1.3节中详细介绍。1.3 深度学习方法

深度置信网络(Deep Belief Networks, DBN)[2]是一个包括很多隐藏层的神经网络模型[59]。在DBN等深层架构中很难优化权值,Hinton等人提出了一种贪心无监督训练方法来解决这个问题并取得了很好的结果。DBN的学习过程分为两步:一层层抽取输入信息的无监督学习和用固定标签微调整个网络的监督学习[2]。这种分两步学习的方法降低了学习深层架构多个隐藏层参数的难度,更重要的是,使DBN更加自然地适合做半监督学习。图1-1给出了DBN的结构样例,这是一个有三个隐藏层h1、h2和h3的深层架构。x是输入数据,y是对应输入数据的标签。在第一步,DBN对每两个紧靠着的神经网络层配对,用输入层来训练两层之间的参数,构建输出层。这种一层层构建的方法是通过一个叫作限制玻尔兹曼机(Restricted Boltzmann Machines, RBM)的模型实现的,它是一个两层循环神经网络,层内各个结点互不连接,输出层各个结点与输入层的各个结点有无方向的对称性连接,如图1-2所示[60]。用贪心无监督学习方法逐层训练后,深层架构底层的原始特征被组合成更加紧凑的高层次特征。在第二步,整个深层架构被一个对比唤醒睡眠方法通过全局梯度下降策略优化。图1-1 深度置信网络结构图图1-2 限制玻尔兹曼机结构图

为了进一步提高DBN的性能,机器学习领域的研究人员做了大量工作。Lee等人开发了一种DBN的稀疏变种方法,用来如实模仿视觉区V2的特定属性[61]。Salakhutdinov和Murray使用退火重要性取样(AIS)方法来有效地估计RBM的分割函数[62]。Vincent等人基于使学习到的特征对输入数据的局部损坏有很强的鲁棒性的想法,为无监督学习数据特征提出一种新的训练规则[63]。Rama等人利用图形处理器使DBN的学习时间大大缩短[64]。Larochelle等人做了一系列实验,证明基于DBN的深层架构能解决有很多变化因素的比较困难的问题[6]。

现在,DBΝ已经被成功地应用到不同的现实生活领域中,例如文本表示[65-66]、音频事件分类[67-70]和各种各样的可视化数据分析任务[71-74]。Salakhutdinov和Hinton用DBN通过文档的词频信息来学习大规模文档集合,并取得了很好的结果[65]。Hinton和Salakhutdinov使用改进后的DBN进行文档压缩,不同大小的文档用相同长度的二进制编码表示,可以用来进行文档检索[66]。Ballan等人使用DBN来处理足球广播中的视频信息,取得了比SVM更好的结果[67]。Seide等人将DBN与隐马尔科夫模型相结合,将音频识别的性能提高了33%[68]。Hinton等人总结了DBN代替高斯混合模型,与隐马尔科夫模型相结合,在语音识别领域所取得的成果[69]。Hutchinson等人提出了一个新的深层架构来进行语音识别,多个模块被堆叠在一起,一个双线性映射被用来连接每个模块的隐藏层和输出层[70]。Horster和Lienhart用DBN来进行图像降维,并将降维后的信息作为图像检索的索引使用[71]。Torralba等人使用深层架构进行图像压缩,每一张图片只需要使用比较小的数据量来表示,从而可以进行快速检索[72]。Bazzani等人使用改进后的DBN来处理视频图像,进行物体的追踪与识别[73]。Tang等人将DBN用于视觉感知领域,在只出现一次的人脸识别数据集上表现良好[74]。另外,这种先无监督学习后监督学习的两步走的模式,使DBN在训练数据不足的半监督学习任务中有很好的表现[57]。DBN-rNCA是一个将DBN深层架构和邻里成分分析(NCA)技术相结合的半监督学习方法[57]。实验结果显示,使用大量的未标注数据,DBN-rNCA明显提高了手写数字识别结果。Ranzato和Szummer使用半监督深度自动编码方法来提取文档特征,在标注数据比较少的数据集上取得了比较好的结果[75]。

近年来,出现了一系列基于卷积网的深度学习方法,在各种现实应用中取得了较好的结果。Ranzatο等人给出了一种基于卷积网的无监督学习方法,它可以通过多层卷积滤波、非线性运算和特征子采样等来学习多层稀疏特征[76]。Yu等人使用一个有效的基于核方法的优化算法来训练卷积网,在正确率和速度方面都取得了比较好的结果[77]。Mobahi等人给出了一个基于卷积网的深度学习方法来处理序列化数据,特别是提取在未标注视频数据中自然存在的时间相关性信息时取得了很好的结果[78]。Lee等人提出了一种卷积深度置信网络方法,它同时训练整个深层架构来降低总的误差,在抽取少量特征来表示比较大的图片方面取得了很好的结果[79]。卷积深度置信网络也可以用来进行各种各样的音频数据分类[80]。Zeiler等人利用卷积网在稀疏约束条件下从图像中自动抽取中层特征[81]。Ji等人提出了一种全新的三维卷积神经网络来进行行为识别,它通过三维卷积运算从时间和空间维度中提取特征[82]。Kavukcuoglu等人给出了一种无监督学习多层架构稀疏卷积特征的方法,在许多可视化数据识别和检测任务上性能有明显提升[83]。LeCun等人描述了一种新的无监督学习方法并成功地应用到可视化物体识别和机器人的视觉导航中,它利用新的非线性机制使得卷积网只需要很少量的标注样例进行训练[84]。Le等人对深层架构的训练方法进行优化,降低了时间复杂度,提高了分类正确率[85]。1.4 本书的研究内容

本书主要研究基于深度学习的监督学习和半监督学习方法来解决分类问题。研究内容主要包括两个方面:基于深度置信网络的方法和基于主动学习的深度学习方法。

在基于深度置信网络的方法方面,包括以下三个方面的内容:(1)区分深度置信网络研究。深度置信网络方法是经典的深度学习方法,本书基于深度置信网络方法,提出了一种新的半监督学习方法,称为区分深度置信网络。该方法使用一个新的深层架构来集成深度置信网络的抽象能力和指数损失函数的区分能力,可以使用少量的标注数据达到比较好的分类效果。在人工合成数据和现实图片数据上的实验表明,区分深度置信网络可以通过使用大量的未标注数据来大大提升它的分类能力。(2)自适应深度置信网络研究。本书基于区分深度置信网络和深度自动编码方法,提出了一种新的监督学习方法,称为自适应深度置信网络。该方法使用线性限制玻尔兹曼机来构建输出层,与使用随机数初始化输出层的经典方法相比,分类结果得到了提升。在手写数字、手写字母和图像识别数据集上的实验表明,自适应深度置信网络的分类结果要优于经典机器学习方法和区分深度置信网络方法。(3)量子深度置信网络研究。本书基于自适应深度置信网络和量子神经网络方法,提出了一种新的监督学习方法,称为量子深度置信网络。该方法使用一个新的深层架构来集成自适应深度置信网络的抽象能力和量子神经网络的模糊表示能力。在多个现实应用数据集上的实验表明,量子深度置信网络的分类能力明显高于经典神经网络、模糊神经网络、区分深度置信网络和自适应深度置信网络方法。

在基于主动学习的深度学习方法方面,包括以下两个方面的内容:(1)主动深度置信网络研究。本书将自适应深度置信网络和主动学习方法相结合,提出了一种新的主动学习方法,称为主动深度置信网络。该方法使用同一个深层架构来进行半监督学习和主动学习,使深层架构在主动学习过程中进行迭代训练,逐步提高抽象和分类能力。本书将主动深度置信网络方法成功地应用到情感分类任务中,实验结果表明,主动深度置信网络的性能优于经典半监督学习、主动学习方法和本书前面提出的深度学习方法。(2)主动模糊深度置信网络研究。本书将主动深度置信网络与模糊学习方法相结合,提出了一种新的半监督学习方法,称为主动模糊深度置信网络。该方法继承了深层架构优异的数据抽象能力和模糊集优异的分类能力。本书将主动模糊深度置信网络方法成功地应用到情感分类任务中,实验结果表明,主动模糊深度置信网络的性能要优于经典半监督学习、主动学习、主动深度置信网络方法和本书前面提出的深度学习方法。

最后,本书将深度学习方法成功地应用到手写中文识别系统中。提出了一个有效的手写中文识别方法,称为基于深层架构的手写识别方法,它将深度学习的抽象能力和指数损失函数的分类能力相结合,利用深层架构进行粗分类,然后使用改进的二次分类函数进行细分类。在三个手写中文识别数据库上的实验表明,基于深层架构的手写识别方法可以通过深层架构来提升分类性能,识别正确率优于经典的手写中文识别方法。

本书所提出的六种分类方法之间的关系如图1-3所示。图1-3 六种分类方法之间的关系图(1)将深度置信网络和指数损失函数相结合,提出了区分深度置信网络方法。(2)将区分深度置信网络和深度自动编码方法相结合,提出了自适应深度置信网络方法。(3)将自适应深度置信网络和量子神经网络相结合,提出了量子深度置信网络方法。(4)将自适应深度置信网络和主动学习相结合,提出了主动深度置信网络方法。(5)将主动深度置信网络和模糊学习相结合,提出了主动模糊深度置信网络方法。(6)将自适应深度置信网络应用到手写中文识别系统中,提出了基于深层架构的手写识别方法。

这六种方法随着所结合算法的逐渐增多,算法复杂性也逐渐增加,以增加训练时间为代价,逐步提高分类性能。

本书的主要创新点包括以下几个方面:(1)提出了区分深度置信网络和自适应深度置信网络方法,分别用半监督学习和监督学习方法来解决图像分类问题,提高了深层架构在多个不同规模数据集上的分类性能。(2)提出了一种新的监督学习方法:量子深度置信网络,将量子计算与模糊技术融入自适应深度置信网络,来解决图像分类问题。以增加训练时间为代价,进一步提升深层架构的分类性能。(3)提出了基于自适应深度置信网络、模糊学习和主动学习方法的主动模糊深度置信网络方法,来有效解决情感分类问题,在五个情感分类数据集上均获得最优结果。(4)在上述研究基础上,提出了一种基于深层架构的手写识别方法,来有效解决手写中文识别问题,进一步提高了手写中文识别的正确率。1.5 本书的结构安排

本书总共分为7章,每章内容如下:

第1章为绪论部分。首先简单介绍了课题研究的背景、意义。然后重点阐述了机器学习方法和深度学习方法的研究现状。最后概述了本书的研究内容和主要创新点。

第2章研究了区分深度置信网络方法。首先介绍了区分深度置信网络的结构图。其次详细介绍了区分深度置信网络中用到的无监督学习方法和监督学习方法,并给出区分深度置信网络的算法流程。最后,在小规模人工数据集、中规模图片数据集和大规模手写数字数据集上与其他相关方法进行比较,证明了区分深度置信网络的性能优于前面的经典半监督学习方法和深度学习方法。

第3章研究了自适应深度置信网络方法。首先介绍了自适应深度置信网络的结构图。其次详细介绍了自适应深度置信网络中用到的无监督学习方法和监督学习方法,并给出自适应深度置信网络的算法流程。最后,在中规模图片数据集、中规模手写字母数据集和大规模手写数字数据集上与其他相关方法进行比较,证明了自适应深度置信网络的性能优于前面的经典监督学习方法、深度学习方法和区分深度置信网络方法。

第4章研究了量子深度置信网络方法。首先介绍了量子深度置信网络的结构图。其次详细介绍了量子深度置信网络中用到的监督学习方法,并给出量子深度置信网络的算法流程。最后,在小规模花数据集和诊断数据集、大规模手写数字数据集上与其他相关方法进行比较,证明了量子深度置信网络的性能优于前面的经典深度学习方法、量子神经网络方法、区分深度置信网络方法和自适应深度置信网络方法。

第5章研究了主动深度置信网络方法。首先描述了主动学习要解决的问题。其次详细介绍了主动深度置信网络中用到的主动学习方法,并给出主动深度置信网络的算法流程。最后,在五个情感分类数据集上与其他相关方法进行比较,证明了主动深度置信网络的性能优于前面的经典半监督学习方法、主动学习方法和本书前面提出的深度学习方法。

第6章研究了主动模糊深度置信网络方法。首先描述了模糊深度置信网络的结构图。其次详细介绍了模糊深度置信网络中用到的参数提取方法和模糊深度置信网络方法,并给出模糊深度置信网络的算法流程。另外,本书将模糊深度置信网络与主动学习方法相结合,提出了主动模糊深度置信网络方法。最后,在五个情感分类数据集上与其他相关方法进行比较,证明了主动模糊深度置信网络的性能优于前面的经典机器学习方法、主动学习方法、主动深度置信网络方法和本书前面提出的深度学习方法。

第7章将深度学习方法成功地应用到手写中文识别系统中。首先描述了使用深层架构的手写识别系统的结构图。其次介绍了如何将深层架构应用到手写识别系统中,并与别的模块协调工作。最后,通过在三个经典的手写中文数据库上的多个实验表明,本书所提出的手写中文识别方法的性能要优于前面的两个经典手写中文识别方法。第2章区分深度置信网络方法2.1 引言

本章基于经典的深度学习方法——深度置信网络(DBN),提出了一种新的半监督学习方法,称为区分深度置信网络(Discriminative Deep Belief Networks, DDBN)。

本章的贡献主要包括以下两个方面的内容:(1)本章提出了一种有效的半监督学习分类方法DDBN,它有以下三个特点。第一,DDBN使用一个新的深层架构来集成DBN的抽象能力和指数损失函数的区分能力。深层架构被贪心无监督学习方法一层层地构建起来,然后参数空间被梯度下降监督学习方法进一步优化。第二,对于无监督学习方法,DDBN继承了DBN的优势,在从高维特征空间降维到低维空间时可以将重要信息很好地保留下来,特别是在对复杂结构进行建模时。所以,它可以利用大规模的无标注数据来提高系统的泛化能力。第三,对于监督学习方法,DDBN通过一个新的目标函数利用反向传播策略来直接优化整个深层架构的分类性能。所以,它可以使用少量的标注数据来达到比较好的分类效果。(2)本章将提出的半监督学习方法成功地应用到可视化数据分类任务中,并且观察到几个重要的特性。第一,DDBN在标注数据不足时,可以通过大量的未标注数据来大大提高其在人工合成数据和现实应用数据上的学习能力。第二,实验证明,深层架构在表示大多数普通函数时比较高效,同时也能够有效地解决比较难的学习问题。第三,先前大多数深度学习方法在深层架构规模和深度上的研究与其真实的学习能力相差甚远。这个发现与神经科学中的证据表明,深层架构的学习能力至少在可视化数据分析方面被严重低估了。本章将基于现实应用层面解释一些新的想法,在理论和应用方面使深度学习技术有突破性进展。

本章内容按如下顺序组织:2.2节描述了本章将要解决的图像分类问题及其研究现状;2.3节详细介绍了区分深度置信网络的架构、训练方法;2.4节通过在人工数据和可视化数据上的多个实验,与先前的半监督学习方法和深度学习方法比较,证明了区分深度置信网络的有效性;最后是本章的小结部分。2.2 图像分类

多媒体数据的迅速增多以及多媒体技术的显著发展导致对可视化数据分析和理解的需求越来越大。为了对多媒体数据进行自动语义分析,多媒体领域的研究人员用机器学习方法,例如分类方法,进行尝试。在多媒体分析领域,图像分类是一个重要的研究方向[86],它根据图像中的不同特征,把不同类别的图像区分开来。将大量图片分在许多指定的类里面是一个很重要的、很有挑战性的任务[87]。

经典的图像分类系统包括预处理、特征提取和分类三部分。预处理可以去除图像中的噪声。特征提取指的是提取图像中的灰度、颜色、纹理、形状和位置等底层特征。分类指的是利用机器学习领域的相关方法对图像进行分类,详见1.2节。对于图像分类方法和技术的详细介绍请参见Lu等人的综述[88]。近年来,针对不同的需求环境,出现了许多新的图像分类方法。Li等人提出了一种只需要很少的训练图片的新的图像分类方法,它是一种基于贝叶斯的增量学习方法,在101类图像分类实验中取得了很好的结果[89]。Yu和Wong集成多个分类器分别利用不同的底层和高层抽象特征对图片进行分类,设计了一系列规则将多个分类器的结果进行汇总[90]。Lu等人给出了一个新的图像分类表示方式,首先用期望最大方法提取特征,然后用训练自适应增强(adaboost)分类器选择最有区分性的特征[91]。Yang等人提出了一种扩展空间金字塔匹配方法,利用稀疏编码技术大大降低了算法时间复杂度[92]。Yang等人提出了一种自适应主动学习方法来降低图像分类中对大规模标注数据的依赖[87]。Zhang等人集成主动学习和多视图学习方法的优势,提出了一种多视图主动学习方法来解决多标签图像分类问题[86]。Liu等人先用监督流形学习模型对图像进行降维,然后根据降维后的特征进行图像分类[93]。Machajdik和Hanbury首先提取底层图像特征并组合成高层情感特征,然后对图片进行情感分类[94]。

本书主要是基于图像的灰度信息,用深度学习相关方法进行图像分类,验证本书提出的基于深度学习的监督和半监督学习方法的有效性。2.3 区分深度置信网络

本节基于经典深度学习方法DBΝ,提出了一种新的半监督学习方法DDBN。首先描述了区分深度置信网络需要解决的半监督学习问题;其次给出了区分深度置信网络的结构图,讨论了区分深度置信网络的贪心无监督学习方法和监督学习方法;最后描述了区分深度置信网络的算法流程。2.3.1 半监督学习问题描述

X是一个样例数据集,可以表示为其中,L是标注数据的数量,U是未标注数据的数量,D是每个数据的特征个数。X的每一列是一个数据x。一个拥有所有特征的数据可以看作是空间中的一个向量,其中第j个坐标对应第j个特征。

Υ是与L个标注数据对应的标签数据集,可以表示为其中C是数据集中的类别数。Υ的每一列是一个在空间中的向量,其中第j个坐标对应第j个类别。

本章将用深层架构使用L个标注数据和U个未标注数据训练构建Χ→Υ的映射函数。训练后,当一个新的数据x输入时,深层架构可以使用映射函数确定x对应的标签y。2.3.2 区分深度置信网络结构

为了解决2.3.1节提出的半监督学习问题,本节给出了一种新的半监督学习方法DDBN。图2-1给出了DDBN的结构图,它是一个全连接定向的多层神经网络,包括一个输入层h0,N个隐藏层h1,h2,…,hN和顶部的一个标签层。输入层h0有D个单元,等同于数据x中特征的个数。标签层有C个单元,等同于标签数据y中的类别数。W={w1,w2,…,wN+1}是深层架构中需要学习的参数。隐藏层的个数和每个隐藏层中的结点数需要根据经验设置。寻找映射函数X→Y的问题在这里可以转换成为深层架构寻找参数空间W。图2-1 区分深度置信网络结构图

DDBN的训练过程可以分为两步:(1)DDBN以RBM为基本模块,使用贪心无监督方法一层层地将深层架构构建起来。U个未标注数据和L个已标注数据被用来寻找N层网络的参数空间W。(2)DDBN使用梯度下降方法基于指数损失函数对深层架构进行训练。参数空间W被L个标注数据进一步优化。2.3.3 区分深度置信网络的无监督学习方法

如图2-1所示,DDBN的深层架构被RBM一层层地构建起来。RBM是一个两层的递归神经网络,随机二进制输入与随机二进制输出通过对称的权值相连[60]。DDBN以RBM为基本模块进行构建,是因为它比较适合对人类的视觉系统建模。如Hinton所说,有多个理由确信我们的视觉系统包含多层生成模型,其中从上到下的连接可以用来从高层表示中产生低层的图像特征,从下到上的连接可以用来推断产生低层图像特征的高层表示[95]。单个细胞记录[96]和皮层区的交互连接都表明多层架构中每层比较复杂的特征可以影响到下面的层[97]。生动的视觉形象和梦中景象都表明视觉系统可以进行自上而下的生成学习[98]。有关RBM的详细描述请参见Hinton等人的文章[2,62]。

在区分深度置信网络深层架构中,定义能量状态(hk-1,hk)为其中θ=(w,b,c)是模型参数:是隐藏层hk-1中的单元s和隐藏层hk中的单元t之间的对称连接参数,k=1,2,…,N-1。bs是隐藏层hk-1中第s个偏置,Ct是隐藏层hk中第t个偏置。Dk是第k层的结点个数。

hk-1发生的概率是其中Z(θ)表示归一化常数。

hk和hk-1的条件概率是第t个单元为1的概率是包含hk-1和的逻辑函数:第s个单元为1的概率是包含hk和的逻辑函数:其中逻辑函数为对隐藏层产生的概率的对数相对于模型参数wk进行求导,通过CD方法得到[99]其中〈•〉P0表示对于数据分布的期望,〈•〉PM表示从输入数据开始,运行Gibbs采样Μ次后的数据分布。

然后参数wk可以通过以下步骤调整:其中是动量,η是学习率。

以上都是通过一个样例数据x进行讨论的。在区分深度置信网络系统中,深层架构被所有的标注数据和未标注数据一个个地输入到h0进行训练而构建起来。输入数据从低到高一层层地构建网络,在每一层,参数空间wk都是被第k-1层计算得到的数据构建。

通过以上方法计算得到参数wk后,隐藏层可以在一个数据x从h0输入后,通过以下公式计算得到:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载