解析深度学习:语音识别实践(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-06 22:17:22

点击下载

作者:俞栋,邓力

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

解析深度学习:语音识别实践

解析深度学习:语音识别实践试读:

前言

以自然语言人机交互为主要目标的自动语音识别(ASR),在近几十年来一直是研究的热点。在2000年以前,有众多语音识别相关的核心技术涌现出来,例如:混合高斯模型(GMM)、隐马尔可夫模型(HMM)、梅尔倒谱系数(MFCC)及其差分、n元词组语言模型(LM)、鉴别性训练以及多种自适应技术。这些技术极大地推进了ASR以及相关领域的发展。但是比较起来,在2000年到2010年间,虽然GMM-HMM序列鉴别性训练这种重要的技术被成功应用到实际系统中,但是在语音识别领域中无论是理论研究还是实际应用,进展都相对缓慢与平淡。

然而在过去的几年里,语音识别领域的研究热情又一次被点燃。由于移动设备对语音识别的需求与日俱增,并且众多新型语音应用,例如,语音搜索(VS)、短信听写(SMD)、虚拟语音助手(例如,苹果的Siri、GoogleNow以及微软的Cortana)等在移动互联世界获得了成功,新一轮的研究热潮自然被带动起来。此外,由于计算能力的显著提升以及大数据的驱动,深度学习在大词汇连续语音识别下的成功应用也是同样重要的影响因素。比起此前最先进的识别技术——GMM-HMM框架,深度学习在众多真实世界的大词汇连续语音识别任务中都使得识别的错误率降低了三分之一或更多,识别率也进入到真实用户可以接受的范围内。举例来说,绝大多数SMD系统的识别准确率都超过了90%,甚至有些系统超过了95%。

作为研究者,我们参与并见证了这许许多多令人兴奋的深度学习技术上的发展。考虑到近年来在学术领域与工业领域迸发的ASR研究热潮,我们认为是时候写一本书来总结语音识别领域的技术进展,尤其是近年来的最新进展。

最近20年,随着语音识别领域的不断发展,很多关于语音识别以及机器学习的优秀书籍相继问世,这里列举一部分:

•Deep Learning:Methodsand Applications,by LiDeng and Dong Yu(June,2014)

•Automatic Speech and Speaker Recognition:Large Margin and KernelMethods,by Joseph Keshet,Samy Bengio(Jan,2009)

•Speech Recognition Over Digital Channels:Robustness and Standards,by Antonio Peinado and Jose Segura(Sept,2006)

•PatternRecognition in Speechand Language Processing,byWuChouand Biing-Hwang Juang(Feb,2003)

•Speech Processing—A Dynamic and Optimization-Oriented Approach,by LiDeng and Doug O’Shaughnessy(June2003)

•Spoken Language Processing:A Guide to Theory,A lgorithm and System Development,by Xuedong Huang,A lex Acero,and Hsiao-Wuen Hon(April2001)

•Digital Speech Processing:Synthesis,and Recognition,Second Edition,by Sadaoki Furui(June,2001)

•SpeechCommunications:HumanandMachine,Second Edition,by DouglasO’Shaughnessy (June,2000)

•Speech and Language Processing—An Introduction to Natural Language Processing, Computational Linguistics,and Speech Recognition,by Daniel Jurafsky and James Martin(April,2000)

•Speech and Audio Signal Processing,by Ben Gold and Nelson Morgan(April,2000)

•StatisticalMethods for Speech Recognition,by Fred Jelinek(June,1997)

•Fundamentalsof Speech Recognition,by Law rence Rabiner and Biing-Hwang Juang (April,1993)

•Acousticaland EnvironmentalRobustness in Automatic Speech Recognition,by A lex Acero(Nov,1992)

然而,所有这些书或者是出版于2009年以前,也就是深度学习理论被提出之前,或者是像我们2014年出版的综述书籍,都没有特别关注深度学习技术在语音识别领域的应用。早期的书籍缺少2010年以后的深度学习新技术,而语音识别领域以及深度学习的研究者所需求的技术及数学细节更是没能涵盖其中。不同于以上书籍,本书除了涵盖必要的背景材料外,特别整理了近年来语音识别领域上深度学习以及鉴别性层次模型的相关研究。本书涵盖了一系列深度学习模型的理论基础及对其的理解,其中包括深度神经网络(DNN)、受限玻耳兹曼机(RBM)、降噪自动编码器、深度置信网络、循环神经网络(RNN)、长短时记忆(LSTM)RNN,以及各种将它们应用到实际系统的技术,例如,DNN-HMM混合系统、tandem和瓶颈系统、多任务学习及迁移学习、序列鉴别性训练以及DNN自适应技术。本书更加细致地讨论了搭建真实世界实时语音识别系统时的注意事项、技巧、配置、深层模型的加速以及其他相关技术。为了更好地介绍基础背景,本书有两章讨论了GMM与HMM的相关内容。然而由于本书的主题是深度学习以及层次性建模,因而我们略过了GMM-HMM的技术细节。所以本书是上面罗列参考书籍的补充,而不是替代。我们相信本书将有益于语音处理及机器学习领域的在读研究生、研究者、实践者、工程师,以及科学家的学习研究工作。我们希望,本书在提供领域内相关技术的参考以外,能够激发更多新的想法与创新,进一步促进ASR的发展。

在本书的撰写过程中,Alex Acero、Geoffrey Zweig、Qiang Huo、Frank Seide、Jasha Droppo、Mike Seltzer以及Chin-HuiLee都提供了大量的支持与鼓励。同时,我们也要感谢Springer的编辑Agata Oelschlaeger和Kiruthika Poomalai,他们的耐心和及时的帮助使得本书能够顺利出版。俞栋 邓力美国华盛顿西雅图2014年7月术语缩写

ADMM 乘子方向交替算法

AE-BN 瓶颈自动编码器

ALM 增广拉格朗日乘子

AM 声学模型

ANN 人工神经网络

ANN-HMM 人工神经网络–隐马尔可夫模型

ASGD 异步随机梯度下降

ASR 自动语音识别

BMMI 增强型最大互信息

BP 反向传播

BPTT 沿时反向传播

CD 对比散度

CD-DNN-HMM上下文相关的深度神经网络–隐马尔可夫模型系统

CE 交叉熵

CHiME多声源环境下的计算听觉

CN 计算型网络

CNN 卷积神经网络

CNTK 计算型神经网络工具包

CT保守训练

DAG 有向无环图

DaT 设备感知训练

DBN 深度置信网络

DNN 深度神经网络

DNN-GMM-HMM深度神经网络–混合高斯模型–隐马尔可夫模型

DNN-HMM深度神经网络–隐马尔可夫模型

DP 动态规划

DPT 鉴别性预训练

EBW 扩展Baum-Welch算法

EM 期望最大化

F-smoothing 帧平滑

fDLR特征空间鉴别性线性回归

fMLLR特征空间最大似然线性回归

FSA 特征空间说话人自适应

GMM 混合高斯模型

GPGPU 通用图形处理单元

HDM 隐动态模型

HMM 隐马尔可夫模型

HTM 隐轨迹模型

IID 独立同分布

KL-HMM 基于KL散度的HMM

KLD Kullback-Leibler散度(KL距离)

LBP 逐层的反向传播

LHN 线性隐含网络

LIN 线性输入网络

LM 语言模型

LON 线性输出网络

LSTM长短时记忆单元

LVCSR 大词汇连续语音识别

LVSR 大词汇语音识别

MAP 最大后验

MBR 最小贝叶斯风险

MFCC 梅尔倒谱系数

MLP 多层感知器

MM I最大互信息

MPE 最小音素错误

MSE 均方误差

MTL 多任务学习

NAT 噪声自适应训练

NaT 噪声感知训练

NCE 误差对比估计

NLL 负对数似然

oDLR输出特征的鉴别性线性回归

PCA 主成分分析

PLP 感知线性预测

RBM 受限玻尔兹曼机

ReLU 整流线性单元

RKL 反向KL散度(KL距离)

RNN 循环神经网络

ROVER识别错误票选降低技术

RTF 实时率

SaT 说话人感知训练

SCARF 分段条件随机场

SGD 随机梯度下降

SHL-MDNN共享隐层的多语言深度神经网络

SIMD单指令多数据

SKL 对称KL散度(KL距离)

sMBR 状态级最小贝叶斯风险

SMD 短消息听写

SVD 奇异值分解

SWB Switchboard

UBM 通用背景模型

VS 语音搜索

VTLN 声道长度归一化

VTS 向量泰勒级数

WTN 词转移网络符号

常用数学操作符列表

x  向量(vector)i  

xx的第i个元素

|x|  x的绝对值(absolute value)

||x||  向量x的范数(norm)T 

x  向量x的转置(transpose)T

a b  向量a和b的内积(innerproduct)T 

ab 向量a和b的外积(outer product)

a•b  向量a和b的逐点相乘(element-w ise product)

a⊗b  向量a和b的叉乘(crossproduct)

A  矩阵(matrix)ij 

A 矩阵A的第i行第j列的元素值

tr(A)  矩阵A的迹(trace)

A⊗B  矩阵A和B的Khatri-Rao积

A⊘B A和B的逐点相除(element-w ise division)

A◦B  矩阵A和B逐列的内积(column-w ise inner product)

A⊚B  矩阵A和B逐行的内积(row-w ise innerproduct)-1

A  矩阵A的逆(inverse)†

A  矩阵A的伪逆(pseudoinverse)α 

A 矩阵A的逐点乘方

vec(A)  由矩阵A的各列顺序接成的向量n 

I  n×n单位矩阵(identitymatrix)m,n 

1  m×n全部元素为1的矩阵(matrix with all1’s)  统计期望算子(statisticalexpectation operator)  统计协方差算子(statistical covarianceoperator)

〈x〉  向量x的平均值

⊙  卷积算子(convolution operator)

H  Hessian矩阵或海森矩阵

J  Jacobian矩阵或雅克比矩阵

p(x)  随机向量x的概率密度函数

P(x) x的概率

∇  梯度算子(gradientoperator)

更多特定的数学符号列表⋆ 

w 最优的w w的估计值

R  相关矩阵(correlationmatrix)

Z  配分函数(partition function)

v  网络中的可见单元(visibleunits in anetwork)

h  网络中的隐藏单元(hidden units in anetwork)

o  观察(特征)向量

y  输出预测向量

ϵ  学习率

θ  阈值

λ  正则化参数(regularization parameter)(x;µ,Σ)随机向量x服从均值向量为µ、协方差矩阵为Σ的高斯分布i 

µ 均值向量µ的第i个元素  第i个方差元素m 

c 混合高斯模型中第m个高斯组分的权重i,j 

a 隐马尔可夫模型(HMM)中从状态i到状态j的转移概率i

b(o)  隐马尔可夫模型(HMM)中观察向量o在状态i上的发射概率

Λ  完整的模型参数集合

q  隐马尔可夫模型(HMM)状态序列

π  隐马尔可夫模型(HMM)状态的初始概率第一部分传统声学模型2混合高斯模型

摘要 本章首先介绍随机变量和概率分布的基本概念。然后这些概念会被应用在高斯随机变量和混合高斯随机变量中。我们将讨论标量和向量形式的随机变量,以及它们的概率密度函数。当使用混合高斯随机变量的分布用于匹配真实世界的数据(如语音特征)时,就形成了混合高斯模型(GMM)。GMM作为描述基于傅里叶频谱语音特征的统计模型,在传统语音识别系统的声学建模中发挥了重要作用。我们将讨论GMM在声学模型中的关键优势,这些优势使得期望最大化算法(EM)可以被有效地用来训练模型,以匹配语音特征。我们将详细描述最大似然准则和EM算法,这些仍然是目前在语音识别中广泛使用的方法。最后将讨论GMM在语音识别的声学模型中一个严重的缺点,并由此引出本书主要介绍的新模型和方法。2.1 随机变量

随机变量是概率论和统计学中最基本的概念。随机标量变量是一个基于随机实验结果的实数函数或实数变量。随机向量变量是彼此相关或独立的随机标量变量的一个集合。因为实验是随机的,所以随机变量的取值也是随机的。随机变量可以理解为从随机实验到变量的一个映射。根据实验和映射的性质,随机变量可以是离散值、连续值或离散值与连续值的混合。因此有离散型随机变量、连续型随机变量或混合型随机变量。随机变量的所有可能取值被称为它的域(Domain)。在本章及后面的一些章节,我们使用与文献[108]相同的标记来描述随机变量和相关的概念。

连续型随机变量x的基本特性是:它的分布或概率密度函数(Probability density function,PDF),通常记为p(x)。连续型随机变量在x=a处的概率密度函数定义为

其中,P(·)表示事件的概率。

连续型随机变量x 在x=a处的累积分布函数(Cumulative distribution function)定义为

概率密度函数需要满足归一化性质,即

如果没有满足归一化性质,我们称这个概率密度函数是一个不当密度或非归一化分布。

对一个连续随机向量,我们可以简单地定12D义它们的联合概率密度为p(x,x,...,x)。进一步,对每一个在随机向i量x中的随机变量x,边缘概率密度函数(Marginal PDF)定义为

它和标量随机变量的概率密度函数具有相同的性质。2.2 高斯分布和混合高斯随机变量

如果连续型标量随机变量x的概率密度函数是

那么它是服从正态分布或高斯分布的。上式的一个等价标记是2

表示随机变量x服从均值为µ、方差为σ的正态分布。使用精度参数(精度是方差的倒数)代替方差后,高斯分布的概率密度函数也可以写

为很容易证明,对一个高斯随机变量x,期望和方差分别满足2-1E(x)=µ,var(x)=σ=r。T12D

由下面的联合概率密度函数定义的正态随机变量x=(x,x,...,x)也称多元或向量值高斯随机变量:

与其等价的表示是。对于多元高斯随机变量,其均值和协方差矩阵可由给出。

高斯分布被广泛应用于包括语音识别在内的很多工程和科学学科中。它的流行不仅来自其具有令人满意的计算特性,而且来自大数定理带来的可以近似很多自然出现的实际问题的能力。

现在我们来讨论一种服从混合高斯分布(Gaussian Mixture Model,GMM)的混合高斯随机变量。一个标量连续随机变量x服从混合高斯分布,如果它的概率密度函数为

其中混合权重为正实数,其和为1:。

混合高斯分布最明显的性质是它的多模态(M>1在公式2.8中),不同于高斯分布的单模态性质M=1。这使得混合高斯模型足以描述很多显示出多模态性质的物理数据(包括语音数据),而单高斯分布则不适合。数据中的多模态性质可能来自多种潜在因素,每一个因素决定分布中一个特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成由多个因素独立分布组成的集合。

很容易证明,服从混合高斯概率密度函数(公式2.8)的随机变量x的均值是。不同于单模态的高斯分布,这个简单的统计量并不具有什么信息,除非混合高斯分布中m所有成分的均值µ(m=1,...,M)都很接近。

推广到多变量的多元混合高斯分布,其联合概率密度函数可写为

多元混合高斯分布的应用是提升语音识别系统性能的一个关键因[101,207,208,223]素(在深度学习出现之前)。在多数应用中,根据问题的本质,混合成分的数量M被选择为一个先验值。虽然有多种方法尝[331]试去回避这个寻找“正确”值的困难问题,如,但主流仍然是直接选取先验值。

在多元混合高斯分布公式2.8中,如果变量x的维度D很大(比如m40,对语音识别问题),那么使用全协方差矩阵(非对角)(Σ)将2引入大量参数(大约为M×D)。为了减少这个数量,可以使用对角m协方差矩阵Σ。当M很大时,也可以限制所有的协方差矩阵为相同矩m阵,对所有的混合成分m,将参数Σ绑定在一起。另一个使用对角协方差矩阵的优势是极大地简化了混合高斯分布所需的计算量。将全协方差矩阵近似为对角协方差矩阵可能看似对数据向量使用了各个维度不相关的假设,但这其实是一种误导。因为混合高斯模型具有多个高斯成分,虽然每个成分都使用了对角协方差矩阵,但总体上至少可以有效地描述由一个使用全协方差矩阵的单高斯模型所描述的向量维度相关性。2.3 参数估计

前文讨论的混合高斯分布包含了一系列参数变量。对于多元混合mmm高斯分布的公式2.8,参数变量包含了Θ={c,µ,Σ}。参数估计问题又称为学习问题,目标是根据符合混合高斯分布的数据来确定模型参数的取值。

通常来说,混合高斯模型及其相关的参数变量估计是一个不完整数据的参数估计问题。为了进一步说明这个问题,可假设每个数据点与混合高斯分布中的某一个单高斯成分具有一种“所属关系”。一开始,这种所属关系是未知的。那么参数变量估计的任务就是通过“学习”得到这些“所属关系”,进而通过具有所属关系的数据点来估计每个高斯成分的参数。

下面将主要讨论混合高斯分布的参数变量估计问题中的最大似然准则估计方法,而最大期望值算法(ExpectationMaxim ization,EM)就是这一类方法的一个典型代表。EM算法是在给定确定数量的混合分布成分的情况下,去估计各个分布参数的最通用的方法。它是一个两阶段的迭代算法:期望计算阶段(E步骤)以及最大化阶段(M步骤)。我们将在第3章中基于文献[78]来讨论针对更通用的统计模型的EM算法公式,本节将针对混合高斯分布进行讨论。在此情况下,EM算法得到的参数估计公式为:

从E步骤中计算得到的后验概率(又称为所属关系可信程度)如下

这是基于当前迭代轮数(由上面公式中的上标j表示),针对某个(t)高斯成分m,用给定观察值x计算得到的后验概率t=1,...,N,(这里N是采样率)。给定这些后验概率值后,每个高斯成分的先验概率、均值和协方差都可以根据上述公式计算,这些公式本质上是针对整个采样数据的加权平均的均值和协方差。

通过推导可以得出,每一个EM迭代并不会减少似然度,而这是其他大部分梯度迭代最大化方法所不具备的属性。其次,EM算法天然地引入了对概率向量的限制条件,以便应对足够大的采样数下的协方差定义和迭代。这是一个重要的优点,因为采用显式条件限制方法将引入额外的计算消耗,用于检查和维持合适的数值,而EM算法则不需要。从理论上说,EM算法是一种一阶迭代算法,它会缓慢地收敛到固定的解。即使针对参数值的收敛本身并不快,但是似然度的收敛还是非常快的。而EM算法的另一个缺点是它每次都会达到局部最大值,而且它对参数的初始值很敏感。虽然这些问题可以通过在多个初始值下评估EM算法来解决,不过这将引入额外的计算消耗。另一种比较流行的方法是通过单高斯成分来做初始估计,而后在每次迭代完成后将一个高斯成分分割成多份,得到混合高斯模型。

除了前面讨论的优化最大似然准则的EM算法之外,其他旨在优化鉴别性估计准则的方法也被提出来估计高斯或混合高斯模型的参数。这些方法也可以用于更一般的统计模型,如高斯隐马尔可夫模型[175,219,220,406](Gaussian HMM)等。2.4 采用混合高斯分布对语音特征建模

原始语音数据经过短时傅里叶变换形式或者取倒谱后会成为特征序列,在忽略时序信息的条件下,前文讨论的混合高斯分布就非常适合拟合这样的语音特征。也就是说,可以以帧(frame)为单位,用混合高斯模型(GMM)对语音特征进行建模。在本书中,遵从文献[85]中的规范,模型或可计算模型通常指对真实物理过程的数学抽象形式(例如人类语音处理)。为了方便数学上的计算,这些模型往往有一些必要的简化与近似。为了将这种数学抽象和算法应用于计算机以及实际的工程应用(例如语音分析与识别)中,这种计算上的易处理性是非常重要的。

不仅仅是在语音识别领域,GMM还被广泛用来对其他领域的数据建模并进行统计分类。GMM因其拟合任意复杂的、多种形式的分布能力而广为人知。基于GMM的分类方法广泛应用于说话人识别、语音特征降噪与语音识别中。在说话人识别中,可以用GMM直接对所有说话人的语音特征分布建模,得到通用背景模型(Universal [77,230,333,417]backgroundmodel,UBM)。在语音特征降噪或噪声跟踪[88,94–96,117,139]中,可以采用类似的做法,用GMM拟合一个先验分布。在语音识别中,GMM被整合在HMM中,用来拟合基于状态的输出分布,这部分将在第3章更详细地讨论。

如果把语音顺序信息考虑进去,GMM便不再是一个好模型,因为它不包含任何顺序信息。我们将在第3章讨论一类名叫隐马尔可夫模型(Hidden Markov Model,HMM)的更加通用的模型,它可以对时序信息进行建模。然而,当给定HMM的一个状态后,若要对属于该状态的语音特征向量的概率分布进行建模,GMM仍不失为一个好的模型。

使用GMM对HMM每个状态的语音特征分布进行建模,有许多明显的优势。只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布,并且它可以通过EM算法很容易拟合数据。还有很多关于限制GMM复杂度的研究,一方面为了加快GMM的计算速度,另一方面希望能够找到模型复杂度与训练数据量间的最佳权衡。其中包括参数绑定、半绑定GMM与子空间GMM。

GMM参数通过EM算法的优化,可以使其在训练数据上生成语音观察特征的概率最大化。在此基础上,若通过鉴别性训练,基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。当所使用的鉴别性训练目标函数与音素错误率、字错误率或句子错误率密切相关时,这种提升更加显著。此外,通过在输入语音特征中加入由神经网络生成的联合特征或瓶颈特征,语音识别率同样可以得到提升,我们将在后面的章节讨论这个话题。过去的很多年间,在语音特征的建模和语音识别中的声学模型的建模中,GMM一直有非常成功的应用(直到大概在2010年至2011年间,深度神经网络取得了更加准确的识别效果)。

尽管GMM有着众多优势,但它也有一个严重的不足。那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。举例来说,若对一系列呈球面的点阵建模,如果选择合适的模型,只需要很少的参数,但对GMM来讲,却需要非常多的对角高斯分布或相当多的全协方差高斯分布。众所周知,语音是由调节动态系统中相对少的[83,84,110,125,233,253]参数来产生的。这意味着隐藏在语音特征下的真正结构的复杂度,比直接描述现有特征(一个短时傅里叶窗就包含数百个系数)的模型要小得多。因而,我们期待有其他更好的模型,能够更好地捕获语音特性,使其作为语音声学模型的能力比GMM更好。特别是,比起GMM,这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息。3隐马尔可夫模型及其变体

摘要 本章建立在对第2章关于概率理论与统计理论的综述上,包括随机变量与混合高斯模型,并延伸至马尔可夫链与隐马尔可夫序列或者模型(Hidden Markov Model,HMM)。HMM的核心是状态这个概念,状态本身是一个随机变量,通常取离散值。从马尔可夫链延伸至隐马尔可夫模型(HMM),涉及在马尔可夫链的每一个状态上增加不确定性或统计分布。因此,一个HMM是一个马尔可夫链的双随机过程(doublystochastic process)或者概率函数。当马尔可夫序列或者HMM的状态被限定为离散的,且HMM状态的各分布间没有重叠时,它便成为一个马尔可夫链。本章涉及HMM的一些关键点,包括它的参数特征,通过离散随机数生成器对它的仿真、参数的最大似然估计,尤其是期望最大化(EM)算法,以及通过维特比(Viterbi)算法对它进行状态解码。接着讨论了HMM作为一种生成模型如何产生语音特征序列,以及它如何被用作语音识别的基础模型。最后,我们讨论了HMM的局限性,引出它的各种延伸变体版本,在延伸版本里,每个状态与一个动态系统或者一个隐时变轨迹相关联,而不是与时序独立的稳态分布(如混合高斯分布)相关联。HMM的这些变体是用状态空间公式描述的基于状态的动态系统,它们的基本概念与第13章详细介绍的循环神经网络是一致的。3.1 介绍

在前一章中,我们回顾了概率理论和统计的知识,其中介绍了随机变量的概念和概率分布的相关概念。接着讨论了高斯和混合高斯的随机变量及它们的向量数值化或多元版本。所有这些概念和例子都是静态的,意味着它们没有使随机变量的长度或维度随着时间序列的长度而改变的时间维度。对语音信号的静态部分来说,幅度谱(如倒谱)特征能很好地用混合高斯的多元分布表示。这就产生了适用于短时或静态语音模式的语音特征的混合高斯模型(GMM)。

在本章中,我们将把随机变量的概念延伸到(离散时间)随机序列,随机序列是使用可变长度的齐次间隔离散时间来索引的随机变量的集合。对随机序列的一般统计特性,参见文献[108]的第3章,但在本章中只摘取马尔可夫序列的部分作为一般随机序列的最常用类别。状态的概念对马尔可夫序列来说是最基本的。当马尔可夫序列的状态限定为离散时,我们就得到马尔可夫链,在马尔可夫链中由离散状态变量表示的所有可能的值构成了(离散)状态空间,这些将在3.2节中详述。

当每一个离散状态的值被一般化为一个新的随机变量(离散或者连续)时,马尔可夫链便被一般化为(离散或连续)隐马尔可夫序列,或者当它用于表征或接近真实世界数据序列的统计特性时便被一般化为隐马尔可夫模型(Hidden Markov Model,HMM)。在3.3节中,我们定义HMM中的参数,包括隐含马尔可夫链的转移概率和在给定状态下概率密度函数中的分布参数。接着展示怎样通过概率采样来模拟一个HMM。我们将详细介绍给定观察序列时,HMM的似然度的有效计算方法,这是将HMM应用到语音识别和其他实际问题中的重要基础。

接着,在3.4节首先介绍在包含隐含随机变量的一般性统计模型中,应用于参数的最大似然估计的EM算法的背景知识。然后将EM算法应用于解决HMM(同样适用于GMM,因为GMM可视作HMM的特殊情况)的学习或者参数估计问题。HMM学习的实际算法是著名的Baum-Welch算法,它被广泛用于语音识别和其他涉及HMM的应用中。本章将给出Baum-Welch算法中E步骤的详细推导,核心是求出给定输入训练数据时HMM中每个状态的后验概率。估计马尔可夫链的转移概率、高斯HMM的均值向量和方差矩阵的M步骤的详细推导随后给出。

我们将在3.5节中介绍著名的用于给定输入序列状态解码HMM状态的维特比(Viterbi)算法。同时将介绍动态规划的技巧,即Viterbi算法的本质优化准则。

最后,在3.6节将HMM作为统计模型应用于实际的语音问题中。先讨论如[20–22,218]所描述的,HMM作为一种优秀的生成性模型用于语音特征序列建模的能力。通过贝叶斯准则的使用,HMM与语音数据的良好匹配使得这个生成性模型能用于语音识别的分类任务中[105,141]。从对HMM作为语音中生成性模型缺点的分析延伸到它的一些变体,在其变体中,每一个HMM状态条件下语音数据分布的时序独立和稳态特性被更加实际、非固定、暂相关、使用潜在或隐含结构[51,83,110,233,253,317]的动态系统所代替。这些解释在数学形式上,为基于状态空间模型的动态系统与循环神经网络架起了桥梁,相关内容在本书第13章中介绍。3.2 马尔可夫链

马尔可夫链是一种离散状态的马尔可夫序列,也是一般性马尔可t夫序列的特殊形式。马尔可夫链的状态空间具有离散和有限性:q∈(j){s,j=1,2,···,N}。每一个离散值都与马尔可夫链中的一个状态相关。(j)因为状态s与它的索引j之间一一对应,我们通常可交替使用这两者。

一个马尔可夫链,可被转移概率完全表示,定义为

以及初始状态分布概率。如果这些转移概率与时间t无关,则得到齐次马尔可夫链。(齐次)马尔可夫链的转移概率通常能方便地表示为矩阵形式:

A称为马尔可夫链的转移矩阵。给定马尔可夫链的转移概率,则状态输出概率

很容易计算得到。根据下式可知该计算是递归的。(i)i

如果马尔可夫链的状态占有分布渐进收敛:p(t)→π(q),当t→∞,我们称为马尔可夫链的一个稳态分布。对有稳态分布的ij马尔可夫链来说,它的转移概率a必须满足:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载