Keras深度学习实战(txt+pdf+epub+mobi电子书下载)


发布时间:2021-03-07 21:43:26

点击下载

作者:(意大利)安东尼奥·古利(Antonio Gulli), (印度)苏伊特·帕尔(Sujit Pal)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

Keras深度学习实战

Keras深度学习实战试读:

前言

本书特为软件工程师和数据科学家编写,书中简明而全面地介绍了目前的神经网络、人工智能和深度学习技术。本书的目标

这本书展示了基于Keras框架、以Python编码的20多种有效的神经网络。Keras是一个模块化的神经网络库,它能运行于谷歌的TensorFlow和Lisa实验室的Theano的后端之上。

本书循序渐进地介绍了简单线性回归、传统多层感知机,以及更复杂的深度卷积网络和生成对抗网络等监督学习算法。另外,本书还介绍了自动感知机和生成式网络等非监督学习算法,并详细阐述了回归网络和长短期记忆网络(LSTM)。本书后续章节将陆续介绍Keras的各种函数API,以及用户实例在现有的丰富的函数库没有涵盖的情况下,如何自定义Keras。本书还探讨了用前面提到的模块构造更大型、更复杂的系统。本书最后介绍了深度强化学习和如何应用其构建游戏AI。

练习的应用程序代码包括新闻分类、文本句法分析、情感分析、人工文本合成,以及语音标注。我们也探讨了图像处理技术,包括如何识别手写数字图像、图像的自动归类,以及基于相关图像注释的高级对象识别。我们还提供了一个面部凸点检测识别的实例。声音识别包括了对来自不同讲话者的离散语音识别。强化学习则被用来构建一个可以自主玩游戏的深度Q学习网络。

实验是本书的核心,通过多个变量改变输入的参数、网络模型、损失函数和优化算法,我们得以逐步改进神经网络的学习性能。我们还会比较不同CPU和GPU运行条件下的训练效率。深度学习和机器学习、人工智能的区别

人工智能是一个非常广泛的研究领域,主要研究如何让机器表现出人类的认知能力,例如学习行为、和环境的主动交互、演绎推理、计算机视觉、语音识别、问题解决、知识展现、感知能力等(更多信息请参考《Artificial Intelligence: A Modern Approach》,作者S. Russell和P. Norvig,Prentice Hall,2003)。通俗来讲,人工智能就是任何让机器模仿人类的智能行为的技术。人工智能从计算机科学、数学和统计学等学科中获得了很大的启发。

机器学习是人工智能的一个分支,主要研究如何使机器在不必额外编程的情况下,学会执行特定任务(更多信息请参考《Pattern Recognition and Machine Learning》,作者C. M. Bishop,Springer,2006)。事实上,机器学习的核心思想在于可以通过创建算法让机器通过数据进行学习并预测数据。现在的机器学习有3个大的分类:第一种是监督学习,机器通过已知的输入和对应的预期输出进行样本训练,以对全新的未知数据进行有意义的预测;第二种是无监督学习,机器只能通过输入的数据,在没有外界监督的情况下自己发现有意义的结构;第三种是强化学习,机器作为同环境进行交互的代理,学习哪些行为能获得奖赏。

深度学习是利用人工神经网络进行机器学习的方法论里的一个特定子集,如图0.1所示。而人工神经网络的灵感来自于人类大脑神经元的结构(更多信息请参考文章《Learning Deep Architectures for AI》,作者Y. Bengio,Found. Trends,vol. 2,2009)。非正式地讲,deep这个词通常指的是人工神经网络中存在多个层次,但这种说法已随着时间的推移而改变。4年前,10层就是一个很高效的深度学习网络,而今天,至少几百层的网络才被认为是深度的。图0.1

深度学习对机器学习来说是一次真正的海啸(更多信息请参考《Computational Linguistics and Deep Learning》,作者C.D.Manning,Computational Linguistics,vol. 41,2015),它虽然只有相对较少的巧妙的方法,却被成功地应用到非常多的不同的领域(图像、文本、视频、语音和视觉),显著改进了过去几十年的技术发展水平。深度学习的成功还因为现在有了更多的可用于训练的数据(如来自ImageNet的图像),以及可用于高效数值计算的相对低廉、可用的GPU。谷歌、微软、亚马逊、苹果、脸书,以及其他很多公司每天都在应用这种深度学习技术进行大量的数据分析。目前,此类专项工作不再局限于纯学术研究领域以及大型工业化公司,它已经成为软件产业里一个不可分割的部分,读者应该对此有所掌握。本书不要求特定的数学背景知识,但我们将假设读者是一个Python程序员。本书涵盖的内容

第1章,神经网络基础,讲述神经网络的基础知识。

第2章,Keras安装和API,展示如何在AWS、Microsoft Azure、Google Cloud,以及你自己的机器上安装Keras,并提供对Keras API的概览。

第3章,深度学习之卷积网络,介绍卷积网络的概念。这是深度学习的一个重要创新,最初的构想是为了图像处理,但现在在文本、视频和语音等多领域都有成功的应用。

第4章,生成对抗网络和WaveNet,介绍了利用生成对抗网络来合成如同人类自己产生的数据。我们还会介绍WaveNet,这是一个可用于生成高质量人类语音以及乐器音的深度神经网络。

第5章,词嵌入,讨论词向量相关的一套深度学习方法,用于检测词汇和相似语义词汇组的关系。

第6章,循环神经网络RNN,讲述循环神经网络的技术和应用,这是一类优化过的用于处理文本等序列化数据的网络。

第7章,其他深度学习模型,简要介绍Keras API、回归网络,以及自动编码机等。

第8章,游戏中的AI,教你如何进行深度强化学习,以及如何用Keras构建基于奖赏反馈的街机游戏玩儿法的深度学习网络。

第9章,结束语,快速回顾本书内容,并向用户介绍Keras 2.0的新特性。本书的阅读前提

为了让您流畅地阅读各个章节,你需要准备以下软件:

TensorFlow 1.0.0或者更高版本;

Keras 2.0.2或者更高版本;

Matplotlib 1.5.3或者更高版本;

Scikit-learn 0.18.1或者更高版本;

NumPy 1.12.1或者更高版本。

推荐硬件清单如下:

32位或者64位架构;

2GHz以上CPU;

4GB RAM;

至少10GB硬盘空间。本书的目标读者

如果您是有经验的机器学习数据科学家或者有过神经网络实践的人工智能程序员,您会发现这是一本很好的关于Keras深度学习的入门教材。

阅读本书需要一些Python的知识。资源与支持

本书由异步社区出品,社区(https://www.epubit.com/)为您提供相关资源和后续服务。配套资源

本书提供如下资源:● 本书源代码;● 书中彩图文件。

要获得以上配套资源,请在异步社区本书页面中点击,跳转到下载界面,按提示进行操作即可。注意:为保证购书读者的权益,该操作会给出相关提示,要求输入提取码进行验证。提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息,点击“提交”按钮即可。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区在线提交投稿(直接访问www.epubit.com/selfpublish/submission即可)。

如果您是学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。关于异步社区和异步图书“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT技术图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT技术图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社近30年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。异步社区微信服务号  第1章 神经网络基础

人工神经网络表示一类机器学习的模型,最初是受到了哺乳动物中央神经系统研究的启发。网络由相互连接的分层组织的神经元组成,这些神经元在达到一定条件时就会互相交换信息(专业术语是激发(fire))。最初的研究开始于20世纪50年代后期,当时引入了感知机(Perceptron)模型(更多信息请参考文章《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》,作者F. Rosenblatt,Psychological Review,vol. 65,pp. 386~408,1958)。感知机是一个可以实现简单操作的两层网络,并在20世纪60年代后期引入反向传播算法(backpropagation algorithm)后得到进一步扩展,用于高效的多层网络的训练(据以下文章《Backpropagation through Time: What It Does and How to Do It》,作者P. J. Werbos,Proceedings of the IEEE, vol. 78,pp. 1550~1560,1990;《A Fast Learning Algorithm for Deep Belief Nets》,作者G. E. Hinton,S. Osindero,Y. W. Teh,Neural Computing,vol. 18,pp. 1527~1554,2006)。有些研究认为这些技术起源可以追溯到比通常引述的更早的时候(更多信息,请参考文章《Deep Learning in Neural Networks: An Overview》,作者J. Schmidhuber,Neural Networks,vol. 61,pp. 85~117,2015)。直到20世纪80年代,人们才对神经网络进行了大量的学术研究,那时其他更简单的方法正变得更加有用。然后,由于G.Hinton提出的快速学习算法(更多信息,请参考文章《The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting》,作者S. Leven,Neural Networks,vol. 9,1996;《Learning Representations by Backpropagating Errors》,作者D. E. Rumelhart,G. E. Hinton,R. J. Williams,Nature,vol. 323,1986),以及2011年前后引入GPU后使大量数值计算成为可能,开始再度出现了神经网络研究的热潮。

这些进展打开了现代深度学习的大门。深度学习是以一定数量网络层的神经元为标志的神经网络,它可以基于渐进的层级抽象学习相当复杂的模型。几年前,3~5层的网络就是深度的,而现在的深度网络已经是指100~200层。

这种渐进式抽象的学习模型,模仿了历经几百万年演化的人类大脑的视觉模型。人类大脑视觉系统由不同的层组成。我们人眼关联的大脑区域叫作初级视觉皮层V1,它位于大脑后下方。视觉皮层为多数哺乳动物所共有,它承担着感知和区分视觉定位、空间频率以及色彩等方面的基本属性和微小变化的角色。据估计,初级视觉层包含了1亿4000万个神经元,以及100亿个神经元之间的连接。V1层随后和其他视觉皮层V2、V3、V4、V5和V6连接,以进一步处理更复杂的图像信息,并识别更复杂的视觉元素,如形状、面部、动物等。这种分层组织是1亿年间无数次尝试的结果。据估计,人类大脑包含大约160亿个脑皮质神经细胞,其中10%~25%是负责视觉信息处理的(更多信息,请参考文章《The Human Brain in Numbers: A Linearly Scaled-up Primate Brain》,作者 S. Herculano-Houzel,vol. 3,2009)。深度学习就是从人类大脑视觉系统的层次结构中获得了启发,前面的人工神经网络层负责学习图像基本信息,更深的网络层负责学习更复杂的概念。

本书涵盖了神经网络的几个主要方面,并提供了基于Keras和最小有效Python库作为深度学习计算的可运行网络实例编码,后端基于谷歌的TensorFlow或者蒙特利尔大学的Theano框架。

好的,让我们切入正题。

在本章,我们将介绍以下内容:● 感知机● 多层感知机● 激活函数● 梯度下降● 随机梯度下降● 反向传播算法1.1 感知机12n

感知机是一个简单的算法,给定n维向量x(x, x, …, x)作为输入,通常称作输入特征或者简单特征,输出为1(是)或0(否)。数学上,我们定义以下函数:

这里,w是权重向量,wx是点积(译者注:也称内积、数量积或标量积),b是偏差。如果你还记得基础的几何知识,就应该知道wx+b定义了一个边界超平面,我们可以通过设置w和b的值来改变它的位置。如果x位于直线之上,则结果为正,否则为负。非常简单的算法!感知机不能表示非确定性答案。如果我们知道如何定义w和b,就能回答是(1)或否(0)。接下来我们将讨论这个训练过程。第一个Keras代码示例

Keras的原始构造模块是模型,最简单的模型称为序贯模型,Keras的序贯模型是神经网络层的线性管道(堆栈)。以下代码段定义了一个包含12个人工神经元的单层网络,它预计有8个输入变量(也称为特征):from keras.models import Sequentialmodel = Sequential()model.add(Dense(12, input_dim=8, kernel_initializer='random_uniform'))

每个神经元可以用特定的权重进行初始化。Keras提供了几个选择,其中最常用的选择如下所示。● random_uniform:初始化权重为(–0.05,0.05)之间的均匀随

机的微小数值。换句话说,给定区间里的任何值都可能作为权重。● random_normal:根据高斯分布初始化权重,平均值为0,标准

差为0.05。如果你不熟悉高斯分布,可以回想一下对称钟形曲线。● zero:所有权重初始化为0。

完整选项列表请参考Keras官网。1.2 多层感知机——第一个神经网络的示例

在本章中,我们将定义一个多层线性网络,并将其作为本书的第一个代码示例。从历史上来看,感知机这个名称是指具有单一线性层的模型,因此,如果它有多层,我们就可以称之为多层感知机(Multilayer perceptron,MLP)。图1.1展示了一个一般的神经网络,它具有一个输入层、一个中间层和一个输出层。图1.1

在图1.1中,第一层中的每个节点接收一个输入,并根据预设的本地决策边界值确定是否激发。然后,第一层的输出传递给中间层,中间层再传递给由单一神经元组成的最终的输出层。有趣的是,这种分层组织似乎模仿了我们前面讨论过的人类的视觉系统。全连接的网络是指每层中的每个神经元和上一层的所有

神经元有连接,和下一层的所有神经元也都有连接。1.2.1 感知机训练方案中的问题

让我们来考虑一个单一的神经元如何选择最佳的权重w和偏差b?理想情况下,我们想提供一组训练样本,让机器通过调整权重值和偏差值,使输出误差最小化。为了更加的具体,我们假设有一组包含猫的图像,以及另外单独的一组不包含猫的图像。为了简单起见,假设每个神经元只考虑单个输入像素值。当计算机处理这些图像时,我们希望我们的神经元调整其权重和偏差,使得越来越少的图像被错误识别为非猫。这种方法似乎非常直观,但是它要求权重(和/或偏差)的微小变化只会在输出上产生微小变化。

如果我们有一个较大的输出增量,我们就不能进行渐进式学习(而非在所有的方向上进行尝试——这样的过程称为穷举搜索——我们不知道是否在改进)。毕竟,小孩子是一点一点学习的。不幸的是,感知机并不表现出这种一点一点学习的行为,感知机的结果是0或1,这是一个大的增量,它对学习没有帮助,如图1.2所示。

我们需要一些更平滑的东西,一个从0到1逐渐变化不间断的函数。在数学上,这意味着我们需要一个可以计算其导数的连续的函数。图1.21.2.2 激活函数——sigmoid

sigmoid函数的定义如下:

如图1.3所示,当输入在(−∞,∞)的区间上变化时,位于(0,1)区间上的输出值变化很小。从数学的角度讲,该函数是连续的。典型的sigmoid函数如图1.3所示。图1.3

神经元可以使用sigmoid来计算非线性函数σ(z=wx+b)。注意,如−z果z=wx+b是非常大的正值,那么e→0,因而σ(z)→1;而如果z=wx−z+b是非常大的负值,e→∞,因而σ(z)→0。换句话说,以sigmoid为激活函数的神经元具有和感知机类似的行为,但它的变化是渐进的,输出值如0.553 9或0.123 191非常合理。在这个意义上,sigmoid神经元可能正是我们所要的。1.2.3 激活函数——ReLU

sigmoid并非可用于神经网络的唯一的平滑激活函数。最近,一个被称为修正线性单元(Rectified Linear Unit,ReLU)的激活函数很受欢迎,因为它可以产生非常好的实验结果。

ReLU函数简单定义为f(x)=max(0,x),这个非线性函数如图1.4所示。对于负值,函数值为零;对于正值,函数呈线性增长。图1.41.2.4 激活函数

在神经网络领域,sigmoid和ReLU通常被称为激活函数。在“Keras中的不同优化器测试”一节中,我们将看到,那些通常由sigmoid和ReLU函数产生的渐进的变化,构成了开发学习算法的基本构件,这些构件通过逐渐减少网络中发生的错误,来一点一点进行调12m整。图1.5给出了一个使用σ激活函数的例子,其中(x, x, …, x)为12m输入向量,(w, w, …, w)为权重向量,b为偏差,表示总和。图1.5

Keras支持多种激活函数,完整列表请参考Keras官网。1.3 实例——手写数字识别

在本节中,我们将构建一个可识别手写数字的网络。为此,我们使用MNIST数据集,这是一个由60 000个训练样例和10 000个测试样例组成的手写数字数据库。训练样例由人标注出正确答案,例如,如果手写数字是“3”,那么“3”就是该样例关联的标签。

在机器学习中,如果使用的是带有正确答案的数据集,我们就说我们在进行监督学习。 在这种情况下,我们可以使用训练样例调整网络。测试样例也带有与每个数字关联的正确答案。然而,这种情况下,我们要假装标签未知,从而让网络进行预测,稍后再借助标签来评估我们的神经网络对于识别数字的学习程度。因此,如你所料,测试样例只用于测试我们的网络。

每个MNIST图像都是灰度的,它由28×28像素组成。这些数字的一个子集如图1.6所示。图1.61.3.1 One-hot编码——OHE

在很多应用中,将类别(非数字)特征转换为数值变量都很方便。例如,[0-9]中值为d的分类特征数字可以编码为10位二进制向量,除了第d位为1,其他位始终为0。 这类表示法称为 One-hot编码(OHE),当数据挖掘中的学习算法专门用于处理数值函数时,这种编码的使用非常普遍。1.3.2 用Keras定义简单神经网络

这里,我们使用Keras定义一个识别MNIST手写数字的网络。我们从一个非常简单的神经网络开始,然后逐步改进。

Keras提供了必要的库来加载数据集,并将其划分成用于微调网络的训练集X_train,以及用于评估性能的测试集X_test。数据转换为支持GPU计算的float32类型,并归一化为[0, 1]。另外,我们将真正的标签各自加载到Y_train和Y_test中,并对其进行One-hot编码。我们来看以下代码:from __future__ import print_functionimport numpy as npfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers.core import Dense, Activationfrom keras.optimizers import SGDfrom keras.utils import np_utilsnp.random.seed(1671) #重复性设置#网络和训练NB_EPOCH = 200BATCH_SIZE = 128VERBOSE = 1NB_CLASSES = 10 #输出个数等于数字个数OPTIMIZER = SGD()#SGD优化器,本章稍后介绍N_HIDDEN = 128VALIDATION_SPLIT=0.2 #训练集中用作验证集的数据比例#数据:混合并划分训练集和测试集数据#(X_train, y_train), (X_test, y_test) = mnist.load_data()#X_train是60 000行28×28的数据,变形为60000×784RESHAPED = 784#X_train = X_train.reshape(60000, RESHAPED)X_test = X_test.reshape(10000, RESHAPED)X_train = X_train.astype('float32')X_test = X_test.astype('float32')# 归一化#X_train /= 255X_test /= 255print(X_train.shape[0], 'train samples')print(X_test.shape[0], 'test samples')#将类向量转换为二值类别矩阵Y_train = np_utils.to_categorical(y_train, NB_CLASSES)Y_test = np_utils.to_categorical(y_test, NB_CLASSES)

输入层中,每个像素都有一个神经元与其关联,因而共有28×28 = 784个神经元,每个神经元对应MNIST图像中的一个像素。

通常来说,与每个像素关联的值被归一化到[0,1]区间中(即每个像素的亮度除以255,255是最大亮度值)。 输出为10个类别,每个数字对应一个类。

最后一层是使用激活函数softmax的单个神经元,它是sigmoid函数的扩展。softmax将任意k维实向量压缩到区间(0, 1)上的k维实向量。在我们的例子中,它聚合了上一层中由10个神经元给出的10个答案。#10个输出#最后是softmax激活函数model = Sequential()model.add(Dense(NB_CLASSES, input_shape=(RESHAPED,)))model.add(Activation('softmax'))model.summary()

一旦我们定义好模型,我们就要对它进行编译,这样它才能由Keras后端(Theano或TensorFlow)执行。编译期间有以下几个选项。● 我们需要选择优化器,这是训练模型时用于更新权重的特定算

法。● 我们需要选择优化器使用的目标函数,以确定权重空间(目标函

数往往被称为损失函数,优化过程也被定义为损失最小化的过

程)。● 我们需要评估训练好的模型。

目标函数的一些常见选项(Keras目标函数的完整列表请参考官网)如下所示。● MSE:预测值和真实值之间的均方误差。从数学上讲,如果γ是

n个预测值的向量,Y是n个观测值的向量,则它们满足以下等式:这些目标函数平均了所有预测错误,并且如果预测远离

真实值,平方运算将让该差距更加明显。● Binary cross-entropy:这是二分对数损失。假设我们的模型在目

标值为t时预测结果为p,则二分交叉熵定义如下:−tlog(p)−(1−t)log(1−p)该目标函数适用于二元标签预测。● Categorical cross-entropy:这是多分类对数损失。如果目标值为i,ji,j

t时预测结果为p,则分类交叉熵是:该目标函数适用于多分类标签预测。它也是与激活函数

softmax关联的默认选择。

一些常见的性能评估指标(Keras性能评估指标的完整列表请参考官网)如下所示。● Accuracy:准确率,针对预测目标的预测正确的比例。● Precision:查准率,衡量多分类问题中多少选择项是关联正确的。● Recall:查全率,衡量多分类问题中多少关联正确的数据被选出。

性能评估与目标函数类似,唯一的区别是它们不用于训练模型,而只用于评估模型。 在Keras中编译模型很容易:model.compile(loss='categorical_crossentropy', optimizer=OPTIMIZER, metrics=['accuracy'])

一旦模型编译好,就可以用fit()函数进行训练了,该函数指定了以下参数。● epochs:训练轮数,是模型基于训练集重复训练的次数。在每

次迭代中,优化器尝试调整权重,以使目标函数最小化。● batch_size:这是优化器进行权重更新前要观察的训练实例数。

在Keras中训练一个模型很简单。假设我们要迭代NB_EPOCH步:history = model.fit(X_train, Y_train,batch_size=BATCH_SIZE, epochs=NB_EPOCH,verbose=VERBOSE, validation_split=VALIDATION_SPLIT)我们留出训练集的部分数据用于验证。关键的思想是我

们要基于这部分留出的训练集数据做性能评估。对任何机器

学习任务,这都是值得采用的最佳实践方法,我们也将这一

方法应用在所有的例子中。

一旦模型训练好,我们就可以在包含全新样本的测试集上进行评估。这样,我们就可以通过目标函数获得最小值,并通过性能评估获得最佳值。

注意,训练集和测试集应是严格分开的。 在一个已经用于训练的样例上进行模型的性能评估是没有意义的。学习本质上是一个推测未知事实的过程,而非记忆已知的内容。score = model.evaluate(X_test, Y_test, verbose=VERBOSE)print("Test score:", score[0])print('Test accuracy:', score[1])

恭喜,你已在Keras中定义了你的第一个神经网络。仅几行代码,你的计算机已经能识别手写数字了。让我们运行代码,并看看其性能。1.3.3 运行一个简单的Keras网络并创建基线

让我们看看代码运行结果,如图1.7所示。图1.7

首先,网络结构被铺开,我们可以看到使用的不同类型的网络层、它们的输出形状、需要优化的参数个数,以及它们的连接方式。之后,网络在48 000个样本上进行训练,12 000个样本被保留并用于验证。一旦构建好神经网络模型,就可以在10 000个样本上进行测试。如你所见,Keras内部使用了TensorFlow作为后端系统进行计算。现在,我们不探究内部训练细节,但我们可以注意到该程序运行了200次迭代,每次迭代后,准确率都有所提高。

训练结束后,我们用测试数据对模型进行测试,其中训练集上达到的准确率为92.36%,验证集上的准确率为92.27%,测试集上的准确率为92.22%。

这意味着10个手写数字中只有不到一个没有被正确识别。当然我们可以比这做得更好。在图1.8中,我们可以看到测试的准确率。图1.81.3.4 用隐藏层改进简单网络

现在我们有了基线精度,训练集上的准确率为92.36%,验证集上的准确率为92.27%,测试集上的准确率为92.22%,这是一个很好的起点,当然我们还能对它进行提升,我们看一下如何改进。

第一个改进方法是为我们的网络添加更多的层。所以在输入层之后,我们有了第一个具有N_HIDDEN个神经元并将ReLU作为激活函数的dense层。这一个追加层被认为是隐藏的,因为它既不与输入层也不与输出层直接相连。在第一个隐藏层之后,是第二个隐藏层,这一隐藏层同样具有N_HIDDEN个神经元,其后是一个具有10个神经元的输出层,当相关数字被识别时,对应的神经元就会被触发。以下代码定义了这个新网络。from __future__ import print_functionimport numpy as npfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers.core import Dense, Activationfrom keras.optimizers import SGDfrom keras.utils import np_utilsnp.random.seed(1671) #重复性设置#网络和训练NB_EPOCH = 20BATCH_SIZE = 128VERBOSE = 1NB_CLASSES = 10 #输出个数等于数字个数OPTIMIZER = SGD() #优化器,本章稍后介绍N_HIDDEN = 128VALIDATION_SPLIT=0.2 #训练集用于验证的划分比例#数据:混合并划分训练集和测试集数据(X_train, y_train), (X_test, y_test) = mnist.load_data()#X_train是60000行28×28的数据,变形为60000×784RESHAPED = 784#X_train = X_train.reshape(60000, RESHAPED)X_test = X_test.reshape(10000, RESHAPED)X_train = X_train.astype('float32')X_test = X_test.astype('float32')#归一化X_train /= 255X_test /= 255print(X_train.shape[0], 'train samples')print(X_test.shape[0], 'test samples')#将类向量转换为二值类别矩阵Y_train = np_utils.to_categorical(y_train, NB_CLASSES)Y_test = np_utils.to_categorical(y_test, NB_CLASSES)#M_HIDDEN个隐藏层#10个输出#最后是softmax激活函数model = Sequential()model.add(Dense(N_HIDDEN, input_shape=(RESHAPED,)))model.add(Activation('relu'))model.add(Dense(N_HIDDEN))model.add(Activation('relu'))model.add(Dense(NB_CLASSES))model.add(Activation('softmax'))model.summary()model.compile(loss='categorical_crossentropy',optimizer=OPTIMIZER,metrics=['accuracy'])history = model.fit(X_train, Y_train,batch_size=BATCH_SIZE, epochs=NB_EPOCH,verbose=VERBOSE, validation_split=VALIDATION_SPLIT)score = model.evaluate(X_test, Y_test, verbose=VERBOSE)print("Test score:", score[0])print('Test accuracy:', score[1])

让我们运行代码并查看这一多层网络获取的结果。还不错,通过增加两个隐藏层,我们在训练集上达到的准确率为94.50%,验证集上为94.63%,测试集上为94.41%。这意味着相比之前的网络,准确率提高了2.2%。然而,我们将迭代次数从200显著减少到了20。这很好,但是我们要更进一步。

如果你想,你可以自己尝试,看看如果只添加一个隐藏层而非两个,或者添加两个以上的隐藏层结果会怎样。我把这个实验留作练习。图1.9显示了前例的输出结果。图1.91.3.5 用dropout进一步改进简单网络

现在我们的基线在训练集上的准确率为94.50%,验证集上为94.63%,测试集上为94.41%。第二个改进方法很简单。我们决定在内部全连接的隐藏层上传播的值里,按dropout概率随机丢弃某些值。在机器学习中,这是一种众所周知的正则化形式。很惊奇,这种随机丢弃一些值的想法可以提高我们的性能。from __future__ import print_functionimport numpy as npfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers.core import Dense, Dropout, Activationfrom keras.optimizers import SGDfrom keras.utils import np_utilsnp.random.seed(1671) # 重复性设置#网络和训练NB_EPOCH = 250BATCH_SIZE = 128VERBOSE = 1NB_CLASSES = 10 #输出个数等于数字个数OPTIMIZER = SGD() #优化器,本章稍后介绍N_HIDDEN = 128VALIDATION_SPLIT=0.2 #训练集用于验证的划分比例DROPOUT = 0.3#数据:混合并划分训练集和测试集数据(X_train, y_train), (X_test, y_test) = mnist.load_data()#X_train是60 000行28×28的数据,变形为60 000×784RESHAPED = 784#X_train = X_train.reshape(60000, RESHAPED)X_test = X_test.reshape(10000, RESHAPED)X_train = X_train.astype('float32')X_test = X_test.astype('float32')#归一化X_train /= 255X_test /= 255#将类向量转换为二值类别矩阵Y_train = np_utils.to_categorical(y_train, NB_CLASSES)Y_test = np_utils.to_categorical(y_test, NB_CLASSES)#M_HIDDEN个隐藏层,10个输出model = Sequential()model.add(Dense(N_HIDDEN, input_shape=(RESHAPED,)))model.add(Activation('relu'))model.add(Dropout(DROPOUT))model.add(Dense(N_HIDDEN))model.add(Activation('relu'))model.add(Dropout(DROPOUT))model.add(Dense(NB_CLASSES))model.add(Activation('softmax'))model.summary()model.compile(loss='categorical_crossentropy',optimizer=OPTIMIZER,metrics=['accuracy'])history = model.fit(X_train, Y_train,batch_size=BATCH_SIZE, epochs=NB_EPOCH,verbose=VERBOSE, validation_split=VALIDATION_SPLIT)score = model.evaluate(X_test, Y_test, verbose=VERBOSE)print("Test score:", score[0])print('Test accuracy:', score[1])

让我们将代码像之前一样运行20次迭代。我们看到网络在训练集上达到了91.54%的准确率,验证集上为94.48%,测试集上为94.25%,如图1.10所示。图1.10

注意,训练集上的准确率仍应高于测试集上的准确率,否则说明我们的训练时间还不够长。所以我们试着将训练轮数大幅增加至250,这时训练集上的准确率达到了98.1%,验证集上为97.73%,测试集上为97.7%,如图1.11所示。图1.11

当训练轮数增加时,观察训练集和测试集上的准确率是如何增加的,这一点很有用。你可以从图1.12中看出,这两条曲线在训练约250轮时相交,而这一点后就没必要进一步训练了。图1.12

注意,我们往往会观察到,内部隐藏层中带有随机dropout层的网络,可以对测试集中的全新样本做出更好的推测。直观地讲,你可以想象成:正因为神经元知道不能依赖于邻近神经元,它自身的能力才能更好发挥。测试时,先不加入dropout层,我们运行的是所有经过高度调整过的神经元。简而言之,要测试网络加入某些dropout功能时的表现,这通常是一种很好的方法。1.3.6 Keras中的不同优化器测试

我们已定义和使用了一个网络,给出网络如何训练的直观解释非常有用。让我们关注一种被称为梯度下降(Gradient Descent,GD)的流行的训练方法。想象一个含有单一变量w的一般成本函数C(w),如图1.13所示。图1.13

梯度下降可以看成一个要从山上到山谷的背包客,山上表示成函min0数C,山谷表示成最小值C,背包客的起点为w。背包客慢慢移动,对每一步r,梯度就是最大增量的方向。从数学上讲,该方向就是在r步r到达的点w上求得的偏导数。因此,走相反的方向,背包客就可以向山谷移动。每一步,背包客都能在下一步之前判别步长,这就是梯度下降中讲的学习率。注意,如果步长太小,背包客就会移动得很慢;如果过大,背包客又很可能错过山谷。现在,你应该记住sigmoid是一个连续函数,并可以计算导数。可以证明sigmoid函数如下所示:

它的导数如下:

ReLU函数在点0处不可微,然而,我们可以将点0处的一阶导数扩展到整个定义域,使其为0或1。这种和点相关的ReLU函数y=max(0, x)的导数如下:

一旦我们有了导数,就可以用梯度下降技术来优化网络。Keras使用它的后端(TensorFlow或者Theano)来帮助我们计算导数,所以我们不用担心如何实现或计算它。我们只需选择激活函数,Keras会替我们计算导数。

神经网络本质上是带有几千个甚至几百万个参数的多个函数的组合。每个网络层计算一个函数,使其错误率最低,以改善学习阶段观察到的准确率。当我们讨论反向传播时,我们会发现这个最小化过程比我们的简单示例更加复杂。然而,它同样基于降至山谷的直观过程。

Keras实现了梯度下降的一个快速变体,称为随机梯度下降(Stochastic Gradient Descent,SGD),以及RMSprop和Adam这两种更先进的优化技术。除SGD具有的加速度分量之外,RMSprop和Adam还包括了动量的概念(速度分量)。这样可以通过更多的计算代价实现更快的收敛。Keras支持的优化器的完整列表请参考官网。SGD是我们到目前为止的默认选择。现在让我们尝试另外两个,这很简单,我们只需要改几行代码:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载