语音信号处理(第3版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-27 12:25:20

点击下载

作者:张磊,韩纪庆,郑铁然

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

语音信号处理(第3版)

语音信号处理(第3版)试读:

本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-62782989 13701121933

图书在版编目(CIP)数据

语音信号处理/韩纪庆,张磊,郑铁然编著.—3版.—北京:清华大学出版社,2019(人工智能科学与技术丛书)

ISBN 978-7-302-51760-3

Ⅰ.①语… Ⅱ.①韩…②张…③郑… Ⅲ.①语声信号处理-青少年读物 Ⅳ.①TN912.3-49

中国版本图书馆CIP数据核字(2018)第271405号责任编辑:盛东亮封面设计:李召霞责任校对:李建庄责任印制:沈 露出版发行:清华大学出版社网  址:http://www.tup.com.cn, http://www.wqbook.com地  址:北京清华大学学研大厦A座邮  编:100084社总机:010-62770175邮  购:010-62786544投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn课件下载:http://www.tup.com.cn,010-62795954印装者:清华大学印刷厂经  销:全国新华书店开  本:185mm×260mm印  张:27.25字  数:663千字版  次:2004年9月第1版 2019年5月第3版印  次:2019年5月第1次印刷定  价:89.00元产品编号:078637-01作者简介

韩纪庆

现任哈尔滨工业大学计算机科学与技术学院二级教授、学校长聘岗教授、博士生导师。兼任中国中文信息学会理事及语音处理专委会副主任、全国人机语音通讯学术会议常设机构委员会副主席、《中文信息学报》编委、《数据采集与处理》杂志编委。长期从事语音信号处理、音频信息处理等领域的教学与科研工作。作为项目负责人,正在主持和已经完成“国家自然科学基金重点项目”2项、“面上项目”5项、“国家973计划”课题1项、教育部“跨世纪优秀人才培养计划”基金1项及其他科研项目10余项。获省部级科技二等奖3项、三等奖2项。获国家发明专利7项。已在国内外刊物和会议上发表论文200余篇,并出版图书5部。内容简介

本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。第1章介绍语音信号处理及其发展过程;第2章介绍语音信号的产生与人类听觉的机理,传统的线性语音产生模型,以及非线性语音产生模型;第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,最后对广泛使用的倒谱特征以及同态解卷积进行介绍;第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法;第5章介绍语音编码的相关知识,包括语音的波形编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法;第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,从隐马尔可夫模型技术到基于深度学习的语音识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,最后还介绍新兴起的语音识别应用技术,以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等;第7章介绍说话人识别的基本内容,从基于GMM-UBM的识别技术到基于支持向量机的识别技术,从基于联合因子分析的识别技术到基于i-vector的识别技术,以及近年来受到关注的基于深度学习的识别技术等;第8章介绍顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术;第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及基于HMM的合成技术等内容。

本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。前言PREFACE

语音信号处理以语音为研究对象,涉及心理学、生理学、语言学、数字信号处理、模式识别、人工智能、机器学习等诸多研究领域,甚至还涉及人说话时的表情、手势等体态语言信息。由于语音是人们日常生活中的主要交流手段,因此语音信号处理在现代信息社会中占有重要地位。

语音信号处理的研究工作最早可以追溯到19世纪70年代,在20世纪得到了长足的发展,并在20世纪90年代,随着IBM、Microsoft、Apple、AT&T、NTT等著名公司为语音识别的实用化开发投以巨资,掀起了语音信号处理技术的应用热潮。进入21世纪,伴随着以深度神经网络为代表的深度学习理论的全面突破、以通用图形处理器(GPU)为代表的硬件技术的迅猛发展,语音识别的性能得到显著提高,从而迎来了语音信号处理技术的蓬勃发展。

目前在语音信号处理领域中不断有新的技术涌现。本书再版的目的就是将这些新的技术融合到已有的相关理论与技术中。全书以语音信号处理过程的总体框架为线索,全面阐述语音信号的前端处理技术、语音编码技术、语音识别和说话人识别技术,以及语音合成技术。相对于上一版,本书补充了基于深度学习的语音识别、基于i-vector的说话人识别等本领域的前沿理论和技术,以利于读者充分了解最新的学术发展动态,并能在学术思想上受到启发。同时,书中也介绍了当前深度学习方法中广泛采用的Kaldi工具的使用技巧,以帮助读者掌握相关的实践手段。

本书涉及作者承担的多项国家自然科学基金项目的部分研究成果,在内容上既注重基本理论的系统性,又兼顾实用性和可读性,可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。

本书的第1、2、4章由韩纪庆编写,第3、6、9章由张磊编写,第5、7、8章由郑铁然编写。韩纪庆负责全书的总体安排和审定。在新版增加的内容中,郑铁然在基于深度学习的语音识别部分、陈晨在说话人识别部分、史秋莹在Kaldi工具部分的撰写上作出了重要贡献。郑贵滨为书稿的完善做了大量工作,在此表示感谢!

本书虽然是作者从事语音信号处理工作30年的理论与实践的结晶,但因作者水平有限、时间仓促,缺点和错误在所难免,敬请读者批评指正,提出宝贵意见。作 者于哈尔滨工业大学2019年1月第1章 绪论

语言是人类最重要的交流工具,它自然方便、准确高效。随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,因此改善人和机器之间的关系,方便人对机器的操纵就显得越来越重要。随着电子计算机和人工智能机器的广泛应用,人们发现,人和机器之间最好的通信方式是语言通信。而语音是语言的声学表现形式;要使机器听懂人的语言并能使用人类的语言进行表达,需要做很多工作,这就是研究了几十年的语音识别和语音合成技术。而随着移动通信的迅猛发展,人们可以随时随地通过电话进行交流,其中语音压缩编码技术发挥着重要的作用。上述这些应用领域构成了语音信号处理技术的主要研究内容。

语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密;语音信号处理技术的发展依赖这些学科的发展,而语音信号处理技术的进步也会促进这些学科的进步。1.1 语音信号处理的发展

语音信号处理的研究工作最早可以追溯到1876年贝尔发明的电话,它首次完成了用声电—电声转换来实现远距离传输语音的技术。1939年,Dudley研制成功了第一个声码器,从此奠定了语音产生模型的基础,这一工作在语音信号处理领域具有划时代的意义。1947年,贝尔实验室发明了语谱图仪,将语音信号的时变频谱用图形表示出来,为语音信号的分析提供了一个有力的工具。1948年,美国Haskins实验室研制成功“语图回放机”,它把手工绘制在薄膜片上的语谱图自动转换为语音,可以进行语音合成。共振峰合成方法就是源于这一思想。

对语音识别而言,它的研究相对较晚,起源于20世纪50年代。语音识别技术的根本目的是研究出一种具有听觉功能的机器,能接收人类的语音,理解人的意图。由于语音识别本身所固有的难度,人们提出了各种限制条件下的研究任务,并由此产生了不同的研究领域。这些领域包括:按说话人的限制,可分为特定说话人语音识别和非特定说话人语音识别;按词汇量的限制,可划分为小词汇量、中词汇量和大词汇量的识别;按说话方式的限制,可分为孤立词识别和连续语音识别等。最简单的研究领域是特定说话人小词汇量孤立词的识别,而最难的则是非特定说话人大词汇量连续语音的识别。

1952年,贝尔实验室的Davis等研制了特定说话人孤立数字识别系统。该系统利用每个数字元音部分的频谱特征进行识别。1956年,RCA实验室的Olson等也独立地研制出10个单音节词的识别系统,系统采用从带通滤波器组获得的频谱参数作为语音的特征。1959年,Fry和Denes等尝试构建音素识别器来识别4个元音和9个辅音,采用频谱分析和模式匹配来进行识别决策,其突出贡献在于,使用了英语音素序列中的统计信息来改进词中音素的精度。1959年,MIT林肯实验室的Forgie等,采用声道的时变估计技术对10个元音进行识别。

20世纪60年代初期,日本的很多研究者开发了相关的特殊硬件来进行语音识别,如东京无线电研究实验室Suzuki等研制的通过硬件来进行元音识别的系统。在此期间开展的很多研究工作对后来近二十年的语音识别研究产生了很大的影响。RCA实验室的Martin等在20世纪60年代末开始研究语音信号时间尺度不统一的解决办法,开发了一系列的时间归正方法,明显地改善了识别性能。与此同时,苏联的Vintsyuk提出了采用动态规划方法来解决两个语音的时间对准问题。尽管这是动态时间弯折算法(dynamic time warping, DTW)的基础,也是连接词识别算法的初级版,但Vintsyuk的工作并不为学术界的广大研究者所知,直到20世纪80年代大家才知道Vintsyuk的工作,而这时DTW方法已广为人知。

值得一提的是20世纪60年代中期,斯坦福大学的Reddy开始尝试用动态跟踪音素的方法来进行连续语音的识别。后来Reddy加入卡内基梅隆大学,多年来在连续语音识别上开展了卓有成效的工作,直至现在仍然在此方面居于领先地位。

20世纪70年代之前,语音识别的研究特点是以孤立词的识别为主。20世纪70年代,语音识别研究在多方面取得了诸多的成就,在孤立词识别方面,日本学者Sakoe给出了使用动态规划方法进行语音识别的途径——DTW算法,它是把时间归正和距离测度计算结合起来的一种非线性归正技术。这是语音识别中一种非常成功的匹配算法,当时在小词汇量的研究中获得了成功,从而掀起了语音识别的研究热潮。Itakura利用语音编码中广泛使用的线性预测编码(linear predictive coding, LPC)技术,通过定义基于LPC频谱参数的合适的距离测度,成功地将其扩展应用到语音识别中。以IBM为首的一些研究单位还着手开展了连续语音识别的研究,AT&T的贝尔实验室也开展了一系列非特定说话人语音识别方面的研究工作。

应该指出的是,20世纪70年代,人工智能技术开始被引入到语音识别中。美国国防部的高级研究规划局(Advanced Research Projects Agency, ARPA)组织了有卡内基梅隆大学等五个单位参加的一项大规模语音识别和理解的研究计划,当时专家们认为:要使语音识别研究获得突破性进展,必须让计算机像人那样具有理解语言的智能,而不必过多地在孤立词识别上下功夫。在这个历时五年的庞大的研究计划中,最终在语言理解、语言的统计模型等方面积累了经验,其中卡内基梅隆大学完成的Hearsay-II和Harpy两个系统效果最好。在这两个系统中,引用了“黑板模型”来完成底层和顶层之间不同层次的信息交换和规则调用,成为以后其他专家系统研究工作中的一种规范。但从整体上看,这个计划并没有取得突破性的进展。

20世纪70年代末80年代初,Linda、Buzo、Gray等提出了矢量量化(vector quantization)码本生成的方法,并将矢量量化技术成功地应用到语音编码中,从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要的作用,而且很快推广应用到其他领域。这一时代,语音识别的研究重点之一是连接词识别,典型的工作是进行数字串的识别。研究者提出了各种连接词语音识别算法,大多数工作是基于对独立的词模板进行拼接来进行匹配的方法,如两级动态规划识别算法、分层构筑(level building)、帧同步(frame synchronous)分层构筑方法等。这些方法都有各自的特点,广泛用于连接词识别当中。

20世纪80年代开始,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden markov model, HMM)技术就是其中的一个典型;尽管开始的时候仅有较少的单位采用这种模型,但由于该模型能很好地描述语音信号的时变性和平稳性,具有把从声学—语言学到句法等统计知识全部集成在一个统一框架中的优点,因此从20世纪80年代起,它被广泛地应用到语音识别研究中。直到目前为止,HMM方法仍然是语音识别研究中的主流方法。HMM的研究使大词汇量连续语音识别系统的开发成为可能。20世纪80年代末,美国卡内基梅隆大学用VQ/HMM实现了997词的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。此外,BBN的BYBLOS系统,林肯实验室的识别系统等也都具有很好的性能。这些研究工作开创了语音识别的新时代。

从20世纪80年代后期和90年代初开始,人工神经网络(artificial neural network, ANN)的研究异常活跃,并且被应用到语音识别的研究中。进入20世纪90年代后,相应的研究工作在模型设计的细化、参数提取和优化,以及系统的自适应技术等方面取得了一些关键性的进展,使语音识别技术进一步成熟,并且出现一些很好的产品。许多发达国家,如美国、日本、韩国,以及IBM、Microsoft、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

进入21世纪,基于深度学习理论的语音识别得到了全面突破,识别性能显著提高。2006年,加拿大多伦多大学的Hinton等提出了一种深度神经网络(deep neural network, DNN)模型——深度置信网络模型(deep belief network, DBN)。它由一组受限玻尔兹曼机(restricted boltzmann machine, RBM)堆叠而成,其核心部分是贪婪的逐层无监督学习算法,其时间复杂度与网络的大小及深度呈线性关系。通过先使用DBN来对包含多个隐层的多层感知机进行预训练,然后通过反向传播算法来进行微调(fine-tuning),能够提供一种解决深层网络优化过程中过拟合和梯度消失问题的有效途径。

通常对DNN等深度模型的训练需要具有强大计算能力的设备,而近年来以通用图形处理器(graphics processing unit, GPU)为代表的硬件技术的迅猛发展,有力支撑了深度学习理论与方法的高效实现。

最早将深度神经网络方法成功应用到语音识别中的研究机构是多伦多大学与微软研究院。他们使用DNN代替传统的GMM-HMM系统中的高斯混合模型,以音素状态为建模单位,提出了DNN-HMM的识别方法,显著降低了误识率,从而引发了基于深度神经网络的语音识别热潮。此后,随着深度学习技术的发展,卷积神经网络(convolutional neural networks, CNN)和循环神经网络(recurrent neural networks, RNN)等网络结构成功地应用到语音识别任务中。它们与传统的DNN方法相比展现出了各自的优势,受到越来越广泛的关注。目前,能够彻底摆脱HMM框架的端到端语音识别技术正日益成为语音识别研究的焦点,无论是学术机构,还是工业界都投入大量的人力和财力,致力于此方面的研究。

近年来,语音识别研究工作更趋于解决在真实环境应用时所面临的实际问题,这可从作为国际语音识别研究热点风向标的NIST(national institute of standards and technology)评测情况反映出来:其评测的语音类型已从最初的朗读语音到广播语音,再到后来的交谈式电话语音(conversational telephone speech),发展到目前真实场景的会议语音。相对于广播语音,交谈式电话语音增加了相应的难度,具体表现在:发音多为自发的口语语音,存在着大量的不流利(如犹豫词、重复、更正等)现象,同时,语音内容和词汇的随机性明显增加。此外,针对实际的电话线路,噪声的影响较大。2002年,美国国防部先进研究项目局(Defense Advanced Research Projects Agency, DARPA)提出了一个“EARS-Effective, Affordable and Reusable Speech-to-text(高效低耗可重用语音文字转化)”的项目,把NIST的语音评测推到了又一个新的时代——丰富的语音文本(rich transcription, RT)转写,其要求不仅将语音所对应的文字显示出来,而且要将语音中的其他丰富信息,如文字之间的标点符号、句词之间的停顿、说话人等也能同时识别出来。从2004年的评测结果看,对广播语音和电话语音的词错误率(word error rates, WERs)已分别下降到10%和15%以下。从2005年起,NIST评测的语音类型转变为英语会议语音,包括磋商式会议(conference meeting)和演讲式会议(lecture meeting),其特点是研究真实会议场景中多人多方对话时的口语语音识别。相对于交谈式电话语音,会议语音又增加了相应的难度,表现在:必须解决会议场景中处于不同位置上说话人语音数据的有效采集问题,以及在多人交谈相互语音有少部分交叠时各自语音的分离问题。为此,NIST评测中开始提供采用远离用户,且处于空间上多个位置、摆放形式多样的多麦克风或麦克风阵列采集来的现场数据作为评测的语料。从2007年进行的评测结果看,会议语音的词错误率在40%~50%之间。2009年的评测内容基本与2007年相同,所不同的是仅进行磋商式会议语音的评测,同时为各个测试任务定义了视频和音视频的输入条件。

目前无论从NIST评测的内容看,还是欧美发达国家的关注点看,研究真实场景中多人多方对话时的口语语音识别是当前语音识别的研究热点之一。从处理口语语音与朗读语音的方法看,其不同之处在于声学模型的自适应(acoustic adaptation)和发音词典自适应(lexicon adaptation)方面。声学模型自适应常采用基于最大似然线性回归(maximum likelihood linear regression, MLLR)和最大后验概率(maximum a posteriori, MAP)的方法。这两种方法是当前最为有效的自适应方法,许多新的自适应方法都是从二者中派生出来的。发音词典自适应常采用发音变化建模(pronunciation variation modeling)相关技术,主要研究由说话方式、语速、口音等带来的影响。

口语语音识别的另一个挑战是缺乏建立在大量口语文本语料之上良好的语言模型。朗读语音识别器所使用的统计语言模型,实际上都要依赖于大规模的训练语料,但是同样量级的口语语言的文字脚本还难以实现。口语语音中的不连贯进一步增加了语言模型估计的难度。目前研究者正致力于多种口语语言模型的建模方法研究。

当前语音识别研究的另一个趋势是,不再只单纯地关注大词表连续语音识别的精度,而是从实际的应用角度出发,积极探索机器对人类的语音进行感知与理解的途径和方法。而从整个计算领域的发展趋势看,近年的研究热点之一是普适计算,计算的模式与物理位置也正从传统的桌面方式逐步向以嵌入式处理为特征的无处不在的方式发展,比较典型的是移动计算方式。因此对语音处理而言,探讨在典型的移动方式下的语音感知与理解机制,实现能根据用户的语音内容及所处的音频场景,并借助其他辅助信息(如地理位置、时间等)自主地感知和理解用户的意图及情感倾向,从而提供更智能化、人性化的人机交互手段,具有重要的理论意义与现实意义。同时,随着网络技术和移动计算技术的迅速发展,出现了网络环境下的语音识别技术、嵌入式和计算资源有限时的语音识别技术、语种识别技术、基于语音的情感处理技术等一些新的研究方向。

在国内,20世纪50年代末就有人尝试用电子管电路进行元音识别,而到了70年代才由中科院声学所开始了计算机语音识别的研究。在此之后,有关专家也开始撰文介绍这方面的工作。从20世纪80年代开始,很多单位陆续参加到这一行列中来,它们纷纷采用不同的方法,开展了从最初的特定说话人中、小词汇量孤立词识别,到非特定说话人大词汇量连续语音识别的研究工作。20世纪80年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已向实用化迈进。四达技术开发中心、星河公司等相继推出了相应的实际产品。清华大学、中科院声学所在无限词汇的汉语听写机的研制上获得成功。20世纪90年代初,四达技术开发中心又与哈尔滨工业大学合作推出了具有自然语言理解能力的新产品。在国家“863计划”支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的工作。北京大学在说话人识别方面也做了大量的工作。

近年来,随着改革开放的不断进行,我国的国际地位与日俱增,汉语语音识别越来越受到重视,国外很多著名的公司都在国内设立了研发机构,并且都将汉语语音识别作为主攻方向之一。IBM公司于1997年推出了汉语连续语音识别系统ViaVoice,输入速度平均每分钟可达150字,平均最高识别率达到95%,并具有“自我”学习的功能。2000年发布的ViaVoice千禧版,用户可以通过语音导航到计算机桌面及浏览网页。1998年,微软(Microsoft)投资8000万美元在中国筹建微软中国研究院(2000年更名为微软亚洲研究院),开发的重点方向之一就是语音识别。1998年,Intel提出了基于Intel架构发展语音技术的构想,向软件开发厂商提供包括信号处理库、识别库、图像处理库在内的高性能语音函数库支持。1999年,Intel和L&H公司合作,推出语音识别软件开发包Spark3.0,其中包括Spark语音识别引擎和软件开发工具箱。微软也推出了基于.net的语音识别引擎。2011年苹果公司在其iphone手机上率先推出了智能语音助理siri,掀起了语音应用的热潮。国内一些著名企业也投入大量资金开始资助语音识别方面的研究,如百度、科大讯飞、阿里巴巴等。

尽管语音识别技术研究已经取得了很大的成绩,但到目前为止离广泛的应用尚存在距离。很多因素影响着语音识别系统的性能,如实际复杂环境中的背景噪声、传输通道的频率特性、说话人生理或心理情况的变化,以及应用领域的变化等都会导致语音识别系统性能的下降,甚至不能工作。研究语音识别系统顽健性(robustness)问题受到了研究者的广泛重视,国内外很多单位都开展了大量的工作。但到目前为止,所做的工作大都是针对某一种或两种影响因素进行补偿的研究,综合考虑各种影响因素补偿方法的研究还相对偏少。

语音识别通常是指能识别出相应的语音内容,除此之外,它还有一种特殊的形式——说话人识别。说话人识别不必识别出语音信号的具体内容,而只要鉴别出该语音是哪个说话人发出的即可。从实现的技术手段上看,说话人识别和语音识别一样,都是通过提取语音信号的特征,并建立相应的参考模板来进行分类判断。说话人识别问题,最初是在第二次世界大战期间,美国国防部向贝尔实验室提出的课题。目的是根据窃听到的电话语音来判断说话人是哪一位德军高级将领,这对分析当时的德军战略部署具有重要的意义。该项目持续进行了三年,但并未达到预期的目的。

说话人识别研究的早期工作,主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着语音识别研究的不断深入,说话人识别研究也获得了突飞猛进的发展。语音识别中很多成功的技术,如矢量量化(vector quantization, VQ)、隐马尔科夫模型等都被应用到说话人识别中。

20世纪90年代,Rose等提出了单状态的HMM,即后来的高斯混合模型(gaussian mixture model, GMM),它是一个顽健的参数化模型。Matsui等比较了基于连续HMM的说话人识别方法,发现识别率是状态和混合数的函数。同时,识别率与总的混合数有很强的关联性,但与状态数无关。这意味着不同状态间的转移信息对文本无关的说话人系统而言是没有作用的,因此,高斯混合模型GMM得到了与多状态HMM几乎相同的识别性能。正是上述工作,使得GMM建模方法在说话人识别研究中得到了越来越多的重视。特别是Reynolds等对高斯混合模型GMM以及通用背景模型(universal background model, UBM)的详尽介绍后,由于GMM-UBM具有简单有效,以及具有较好的顽健性等特点,迅速成为当今与文本无关的说话人识别中的主流技术,并由此将说话人识别技术带入了一个新的阶段。20世纪90年代另一项重要的研究工作是,针对说话人确认中,说话人自身的似然度的得分变异的规整技术,出现了很多关于得分规整的算法,比较典型的如基于似然比(likelihood ratio)和后验概率(a posteriori probability)的技术。为了降低计算规整算法的计算复杂性,相继出现了群组说话人(cohort speakers)等方法。与此同时,说话人识别技术与其他的语音研究方向的结合更加密切,比如针对对话/会议中包含多人的说话人分割与聚类技术,音频元数据(metadata)的检索研究等也得到了很多研究人员的关注。

2000年以来,各种新的说话人识别技术层出不穷,如支持向量机和GMM的结合,出现了一系列说话人得分规整的新方法,包括Z-norm、H-norm、T-norm、Ht-norm、C-norm、D-norm和AT-norm。此外,针对信道失配问题,研究者们提出说话人模型合成方法。近年来,又提出了联合因子分析(Joint Factor Analysis),通过将说话人所在的空间划分为说话人空间和信道空间,进而能提取出与说话人相关的特征,并去掉与信道相关的特征。在此基础上,为了压缩说话人特征的规模,研究者又采用一个总变化空间来代替上述两个空间,从而提出了基于i-vector特征的方法。由于i-vector方法中只使用一个总变化空间来提取特征,因此所提取出的特征中可能同时包含说话人和信道的影响,需要对其进行进一步的信道补偿。通常是采用线性判别分析(linear discriminant analysis, LDA)来去除信道的影响。

目前,说话人识别的重点已经从实验系统转移到研究针对实际应用面临的问题。NIST从1996年起开始举办每年一度的说话人识别评测(speaker recognition evaluations, SRE)。从其评测内容、评测方式的演变看,正逐步贴近实际的应用情况。例如,麦克风的种类越来越多,语种从单纯的英语,扩展到十几种语言,场景也从简单的单个说话人方式扩展到多个说话人方式。应该指出的是,近些年在NIST举办的说话人测试大赛中,识别率最高的单系统是基于i-vector的系统。除了NIST说话人评测之外,其他机构也组织过类似的评测,比如荷兰NFI-TNO(Netherlands forensic institute-TNO human factors)组织的说话人评测,主要针对司法应用方面的说话人识别。中文口语处理会议也在2006年组织了不同任务单元的说话人评测。虽然以上两个评测的规模和影响力不如NIST评测,但是都针对具体的应用语音环境,通过会议交流的方式,开放式的进行算法的优势对比和分析,不同程度地促进了技术的提高和进步。

目前,国外已经有了一些成熟的产品。如AT&T应用说话人识别技术研制出了智慧卡,已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1998年完成了CAVE计划,在电信网上进行说话人识别。说话人识别技术应用最为成功的例子是在伊拉克战争期间,萨达姆在电视上发表讲话后,美国FBI宣称讲话者不是萨达姆本人,而德国的科学家应用说话人识别技术证实讲话的人确实是萨达姆。从后来的情况看,德国科学家的判断是正确的。随着Internet的发展,网络环境下的说话人识别技术日益受到了重视,已成为当今的一个研究热点。

就语音合成技术而言,最早的语音合成器是1835年由W.von Kempelen发明,经威斯顿改进的机械式的会讲话的机器。它完全模拟人的发音生理过程,用风箱模拟来自肺部的空气动力,气流通过特别设计的哨时会产生语音中的辅音;气流通过形状可以变化的模拟口腔的软管时会产生元音。风箱、哨和软管三部分机械配合起来就可以产生一些音节和词。这是一个相当完善的机械式语音合成器。最早的电子式语音合成器是前面提到的1939年Dudley发明的声码器,它不是机械地模仿人发音的生理过程,而是通过电子线路来实现基于语音产生的源/滤波器理论;其中声源包括产生清音的噪声源和产生浊音的周期脉冲声源,它们分别用噪声发生器和张弛振荡器来实现,而声道的滤波作用是通过电子通道滤波器来实现的,滤波器的中心频率是用键盘上的十个琴键来控制。

现代的语音合成器都是利用计算机来实现的。从20世纪70年代末开始,出现了文-语转换(text to speech, TTS)系统的研究,其特点是用最基本的语音单元,如音素、双音素、半音节或音节作为合成单元,建立语音库,通过合成单元拼接而达到无限词汇的合成。为了保证合成声音具有良好的音质,在这种系统中除语音库外,还有一个相当庞大的规则库,以实现对合成语音的音段特征和超音段特征的控制。20世纪80年代,由D.Klatt设计的串/并联混合型共振峰合成器是20世纪最有代表性的工作。它可以设置和控制多达八个共振峰,可模拟发音过程中的声道共振,而且还设有单独的滤波器来模拟鼻腔和气管的共振。其中,元音和浊辅音的产生用串联通道来实现,清辅音的产生用并联通道来实现。此外,这种合成器还可以对声源做各种选择和调整,以模拟不同的嗓音。它共可以产生七种不同音色的语音,包括模拟不同年龄、性别和个性的说话人的语音。瑞典皇家理工学院Fant实验室在多语种文-语转换系统研究方面也做出了突出的成绩,完成了英语、法语、瑞典语、西班牙语和芬兰语的文-语转换系统。

20世纪90年代末,日本的研究者提出了一种多样本、不等长语音拼接合成技术PSOLA。它在语音库中存放了大量的真人语音样本,通过选择合适的拼接语音片段来实现高质量的合成语音。在这项技术中,语音合成问题被简化为如何建立一个在语音学上充分覆盖的语音库,如何从语音库中选择合适的语音片段来拼接,以及如何对语音片段之间的拼接部分做适当的调整。

20世纪90年代中期,随着语音识别中统计建模方法的日益成熟,研究者提出了可训练的语音合成方法,其基本思想是基于统计建模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。随着声学合成性能的提高,在此基础上又发展出统计参数语音合成方法,其中以HMM的建模与参数生成合成方法为代表。

基于HMM的参数语音合成方法分为训练与合成两个阶段。在训练阶段,主要从训练语音数据中提取基频和多维频谱参数,然后训练一组上下文相关音素对应的HMM模型,保证相对该模型的训练数据似然函数值最大。一般使用多空间概率分布(multi-space probability distribution, MSD)来进行基频参数的建模,通过训练决策树来进行上下文扩展模型的聚类,以提高数据稀疏情况下训练得到的模型参数的顽健性,并防止过训练;接着使用训练得到的上下文相关HMM进行状态的切分,并且训练状态的时长概率模型用于合成时的时长预测。在合成阶段,首先依据文本分析的结果和聚类决策树,找出待合成语句所对应的HMM模型。然后基于最大似然准则,并且使用动态参数约束来生成每帧对应的最优静态特征向量。最后将生成的声学参数送入参数合成器合成语音。基于HMM的参数语音合成方法可以在不需要人工干预的情况下,自动快速地构建合成系统,而且对不同发音人、不同发音风格、不同语种的依赖性非常小。

近年来,随着深度神经网络(DNN)在语音识别中的成功应用,基于DNN的统计声学建模方法也成为语音合成领域的研究热点。与基于HMM模型和决策树聚类的高斯状态分布的参数语音合成方法相比,基于DNN的方法能对高维声学特征中各维间的相关性,以及输入文本特征与输出声学特征间的复杂映射关系进行更精细的建模,因而能有效改进合成语音的音质。

目前,有限词汇的语音合成器已经在自动报时、报警、报站、电话查询服务、智能玩具等方面得到了广泛的应用。从研究进展上看,很多语音合成系统都具有较高的可懂度,但在自然度研究方面还有很大的研究空间。提高语音合成的自然度是当今研究的热点。

我国的语音合成研究是从20世纪80年代开始的,中科院声学所、中科院自动化所、社科院语言所较早地开展了这方面的工作。早期的工作主要是参数合成,尤其是共振峰合成及线性预测合成。20世纪90年代初开始,真实语音的波形拼接技术最早由清华大学应用到汉语合成中来,合成的语音清晰度明显好于参数合成。之后声学所将可以调节韵律参数的波形拼接合成技术PSOLA引入汉语合成,并提出了一套韵律控制方法,使合成语音的质量有突破性的提高。当前的汉语语音合成系统中,很多单位也在开展基于HMM参数语音合成方法的研究,如清华大学、中国科技大学、微软亚洲研究院,IBM中国研究中心,摩托罗拉中国研究中心等,尤其是中国科技大学及科大讯飞公司近年来在若干次国际语音评测中取得了突出的成绩,其研发的语音合成系统已广为使用。

就语音编码技术而言,它的研究也是始于1939年Dudley发明的声码器,但是直到20世纪70年代中期,除了脉冲编码调制(pulse coding modulation, PCM)和自适应差分脉冲编码调制(ADPCM)取得较好的进展之外,中低比特率语音编码一直没有大的突破。自20世纪70年代起,国外就开始研究计算机网络上的语音通信,当时主要是基于ARPANET网络平台进行的研究和实验。1974年,首次分组语音实验是在美国西海岸南加州大学的信息科学研究所和东海岸的林肯实验室之间进行,语音编码为9.6kb/s的连续可变斜率增量调制。1974年12月,线性预测编码(LPC)声码器首次用于分组语音通信实验,数码率为3.5kb/s。1975年1月,首次在美国实现了使用LPC声码器的分组语音电话会议。1977年,Internet工程任务组(Internet Engineering Task Force, IETF)颁发了关于分组话音通信协议的讨论文件RFC741。因为20世纪70年代后期已推出带宽可达Mb/s量级的价格较为低廉的以太网,所以20世纪80年代的研究主要集中在局域网上的语音通信。最早的实验是由英国剑桥大学于1982年在10Mb/s的剑桥环形网上进行的。其后,意大利、美国、英国等许多国家的研究者在总线型局域网、令牌环网、3Com以太网上进行实验,深入研究了分组时延的原因、分组语音通信协议、链路利用率和语音分组同步等问题,并试制了电话网和局域网的接口模块。1980年美国政府公布了一种2.4kb/s的线性预测编码标准算法LPC-10,这使得在普通电话带宽信道中传输数字电话成为可能。1988年美国又公布了一个4.8kb/s的码激励线性预测编码(CELP)语音编码标准算法,欧洲推出了一个16kb/s的规则脉冲激励(RELP)线性预测编码算法,这些算法的音质都能达到很高的质量,而不像单脉冲LPC声码器的输出语音那样不为人们所接受。进入20世纪90年代,随着Internet在全球范围内的兴起和语音编码技术的发展,IP分组语音通信技术获得了突破性的进展和实际应用。最初的应用只是在网络游戏等软件包中传送和存储语音信息,它对语音质量要求低,相当于机器人的声音效果。其后计算机厂商纷纷推出对等方式或客户机—服务器方式语音通信免费软件,它们利用计算机中的声卡对语音进行打包传送,语音一般不进行压缩。20世纪90年代中期开始,有关厂商开始开发用于局域网语音通信的网关产品,实现局域网内PC间的语音通信以及经PBX和外界电话的通信,但这些产品都采用内部协议规范。20世纪90年代中期还出现了很多被广泛使用的语音编码国际标准,如数码率为5.3/6.4kb/s的G.723.1、数码率为8kb/s的G.729等。此外,也存在着各种未形成国际标准,但数码率更低的成熟的编码算法,有的算法数码率甚至可以达到1.2kb/s以下,但仍能提供可懂的语音。

20世纪90年代后期起,嵌入式语音编码作为一种新兴的语音编码技术,逐步成为本领域的研究热点之一。嵌入式语音编码又称为可分级性语音编码,在其编码码流中,低码率的码字包含(嵌入)在高码率的码字中,作为高速率工作的核心码元。也即,一个嵌入式的码流可以分解成几个低级的码流,它们的码率逐次递减,但仍然能代表原来的语音信号,只是在不同程度上损失了一些细节。当线路容量足够时,可高速率传输以保证较高的语音质量;当遇到线路拥塞时,可将码字中非核心码元丢弃,以低速率较差的语音质量工作,保证连续性。嵌入式的码流结构不仅可以有效解决由于分组丢失所引起的合成语音质量下降的问题,而且可以提供多种编码速率,以适应不同种类的通信终端。它以一个统一的能够提供多种速率输出的编解码系统代替了以往众多的固定速率编码算法,免去了不同种类终端通信带来的不便。

目前的语音编码研究主要朝两个方向发展:一是窄带低速率方向,目标是提高语音的可懂度,主要应用于军事等短波通信领域;二是宽带高速率分层编码方向,目标是提高人类对音质的需求,主要应用于基于包交换的移动互联网中。它既可以对语音进行编码,也可以对音频进行编码,但对音频编码时,需要对输入音频进行分类处理后才来决定编码框架,MPEG及ITU都制定了相关标准,目前最为成功的是由华为公司主导的EVS(enhanced voice service)编码器。

由于语音编码产品化的过程相对来说比语音识别容易些,因此其研究成果能很快转向实际应用,对通信事业的发展起了重要的推动作用。1.2 语音信号处理的应用

语音信号处理技术是计算机智能接口与人机交互的重要手段之一。就语音识别技术而言,其基本任务是将输入语音转化为相应的文本或命令。语音识别的市场前景广泛,在一些应用领域中正迅速成为一个关键的具有竞争力的技术。如在声控应用中,计算机识别输入的语音内容,并根据内容来执行相应的动作;这些应用包括声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社服务、医疗服务、银行服务、股票查询服务、工业控制等。语音识别也可用于将文字以口授的方式输入的计算机中,即广泛开展的听写机研究,如声控打字机等。语音识别技术还可以用于自动口语翻译,通过将口语识别技术、机器翻译技术、语音合成技术等结合,可将一种语言输入的语音翻译为另一种语言的语音输出,实现跨语言的交流,如美国、日本、欧洲,包括中科院自动化所参加的CSTAR计划,重点开展多语种口语自动翻译研究。随着无处不在计算技术的发展,各种移动计算设备、可穿戴计算设备日益增多,对这些设备,其尺寸越来越小,并且要求在行走或驾驶时进行信息的输入,传统的键盘输入方式已不能满足其方便、自然,在行进中有效地输入信息的需要,采用语音识别技术可以解放用户的手眼,有效地改变人机交互手段。如目前在一些手持计算机、手机等嵌入式电子产品上已经使用语音识别技术来进行控制。

对说话人识别技术,近年来已经在安全加密、银行信息电话查询服务等方面得到了很好的应用。此外,在公安机关破案和法庭取证方面也发挥着重要的作用。

就语音合成而言,它已经在许多方面得到了实际应用,发挥了很好的社会效益,如公共交通中的自动报站、各种场合的自动报时、自动告警、电话自动查询服务、文本校对中的语音提示等。在电信声讯服务领域的智能电话查询系统中,采用语音合成技术可以解决以往通过电话只能进行静态查询的不足,满足海量数据和动态查询的需求,可查询一些动态信息,如股票、成绩、节目、热点问题、机场、车站、购物、市场、售后服务等信息;也可用于基于个人计算机的办公、教学、娱乐等智能多媒体软件,如文稿校对、语音学习(帮助外国人、残疾人、儿童等学习语言)、语音秘书、语音书籍、教学软件、语音玩具等。通过与互联网的结合,可以获取有声的E-mail、进行网上信息的有声获取及进行网上语音聊天。将语音合成技术与机器翻译技术相结合,可以实现语音翻译;与图像技术相结合,可以输出视觉语音(visual speech)。

就语音编码技术而言,它的根本作用是使语音通信数字化,目前已广泛应用于数字通信系统、移动无线通信、保密语音通信等方面。语音编码技术也可应用于呼叫服务,如数字录音电话、语音信箱、电子留言簿等。与模拟语音通信系统相比,数字语音通信系统具有抗干扰性强、保密性好、易于集成化等优点。在当前正在蓬勃兴起的移动通信中,语音编码技术是其中非常重要的支撑技术。

随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用,并且出现了一些新的研究方向。

基于语音的信息检索是随着网络技术及面向数字图书馆技术的发展而出现的新的应用技术。传统的信息检索技术大多是基于文本信息的,诸如雅虎、谷歌等各种搜索引擎,就是这方面的典型应用。随着语音识别技术的不断发展和完善,基于语音识别的信息检索技术正成为当今的研究热点。

随着Internet网络技术的迅速发展,出现了Internet电话技术,它是一种用VoIP(voice over internet protocol)技术实现的通过TCP/IP网络,而不是传统的电话网络来传输语音的新的通信方式,通常称为IP电话技术。对这种经过数据压缩,并经过网络以数据包形式传输后的语音进行识别,与传统的语音识别技术有着很大的不同,这提出了一个新的研究课题,即网络环境下的语音识别问题,它在电子商务和国防军事应用领域有着广阔的应用前景。而随着手持计算机、手机等电子设备的迅猛发展,研制开发这些设备上嵌入式的语音识别算法越来越引起人们的重视,目前已经出现了一些可用语音识别进行声音拨号,以及口述关键词进行信息查询的手机,这类技术的不断完善对移动计算技术的发展有着重要的意义。

语音训练与校正技术也是近年来的一个重要研究方向。当今社会越来越多的人,希望学习和掌握其他的非母语语言,以利于更方便地进行交流。然而,语言不通往往成为交流的最大障碍。因此,语言学习已成为当今教育领域的一个热点。实践证明,采用传统的课堂教学对于学习一门非母语语言来说是远远不够的。自学是一种有效的途径,它具有不受时间地点限制、灵活方便等特点。随着计算机技术的迅速发展,一种称为计算机辅助语言学习(computer-aided language learning, CALL)的技术应运而生;而伴随着语音识别技术的进步,人们开始研究进行辅助发音学习的CALL技术。在发音学习中,有效地反馈是必不可少的一个重要环节。在课堂教学中,教师是一个有效的反馈源,而传统的发音自学中,要么是没有任何反馈,要么就是反馈最终还得依赖于学习者自身的判断能力,如利用复读机学习发音时,学习者只能依靠自己的感知能力去比较其发音与标准发音的差别,从而进行发音的修正。如果利用辅助发音学习的CALL系统,学习者就可以随时获得有效的反馈,包括分值或等级等简洁直观的形式,图谱或口形等具体形象的形式,以及直接的指导性建议。

语种识别(language identification)也是近年来新出现的研究方向,它是通过分析处理一个语音片段以判别其所属语言的种类,本质上也是语音识别的一个方面。由于世界上的不同语种间有着多种区别性特征,如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语义网络等,所以在自动语种识别中有多种可以利用的特征。对于一个语种识别系统,它和语音识别系统与说话人识别系统有着很多相似之处,如都要经过数字化、特征提取、模式匹配等过程。语种识别可以应用于多语言语音识别的前端处理,在信息检索、军事领域和国家安全事务中有着重要的应用。

基于语音的情感处理研究是当今一个重要的研究方向。在人与人的交流中,除了言语信息外,非言语信息也起着非常重要的作用。随着计算机技术的迅速发展,人机交流变得越来越普遍,计算机正成为日常生活工作中的得力助手。为使人机交流更自然、更人性化,十分有必要进行人机非言语交流方式的研究。尽管人们早已认识到非言语交流的重要性,但时至今日,大多数研究还仅仅是基于视觉信息的工作,如面部表情识别、手势识别等。语音作为语言的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。人类的语音中不仅包含了语言学信息,同时也包含了人们的感情和情绪等非言语信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给听者的感觉就会不同。传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽视了包含在语音信号中的情感因素,所以它只是反映了信息的一个方面。直到近年来,人们发现由于情感和态度所引起的变化对语音合成、语音识别、说话人确认的影响较大,才逐步引起了人们的重视。目前许多研究者都在致力于研究情感对语音的影响,以及情感状态下语音信号处理的有效方法。1.3 语音信号处理的总体结构

从总体上看,语音信号处理过程可以用一个统一的框架来表示,其结构如图1-1所示。图1-1 语音信号处理的总体结构框图

从这个总体结构可以看出:无论是语音识别,还是语音编码与合成,输入的语音信号首先要进行预处理,对信号进行适当放大和增益控制,并进行反混叠滤波来消除工频信号的干扰;然后进行数字化,将模拟信号转化为数字信号,便于用计算机来处理;接着进行特征提取,用反映语音信号特点的若干参数来代表语音。在此之后,根据任务的不同,采取不同的处理办法。对语音识别技术,它分为两个阶段:训练阶段,将用特征参数形式表示的语音信号进行相应的处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模板,将所有能识别的基本单元的参考模板结合在一起形成参考模式库;识别阶段,将待识别的语音经特征提取后逐一与参考模式库中的各个模板按某种原则进行比较,找出最相像的参考模板所对应的发音,即为识别结果。对语音编码与合成技术,都是将语音信号进行某种压缩处理;如果是语音编码,则对编码后的语音信号进行传输,在接收端进行解压缩回放播出;如果是语音合成,则对编码后的语音信号进行存储,待需要的时候进行解压缩回放播出。

本书在后续章节中将以上述总体结构为线索,从共性的技术到个性的特点,就各部分的具体内容进行充分地展开和详细地介绍。参考文献[1]Rabiner L, Juang B H. Fundamentals of Speech Recognition[M].

New Jersey: Prentice Hall PTR, 1993.[2]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版

社,2000.[3]Huang X D, Acero A, Hon H, et al. Spoken Language

Processing: A Guide to Theory, Algorithm and System

Development[M]. New Jersey: Prentice Hall PTR, 2001.[4]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版

社,1995.[5]刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学

报,2000,28(1):85-91.[6]张全.语言声学的进展[J].应用声学,2002,21(1):

35-39.[7]吕士楠,张连毅,林凡.TTS技术的发展和展望:第六届全国

人机语音通讯学术会议论文集[C].深圳:2001.[8]Fine S, Navratil J, Gopinath R A. A Hybrid GMM/SVM Approach

to Speaker Identification. In: Proceedings of 2001 IEEE

International Conference on Acoustics, Speech, and Signal

Processing[C], 2001, 1:417-420.[9]凌震华.基于统计声学建模的语音合成技术研究[D].合肥:中

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载