高级音响师速成实用教程(第3版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-30 13:03:09

点击下载

作者:中国录音师协会教育委员会中国传媒大学信息工程学院北京恩维特声像技术中心编著

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

高级音响师速成实用教程(第3版)

高级音响师速成实用教程(第3版)试读:

前言

随着我国文化娱乐产业的飞速发展和声频技术水平的日益提高,专业音响师(调音师)的社会需求量越来越大。据统计,全国现有电台、电视台的数量已超过5000家,再加上影视制作间和歌舞厅、影剧院、厅堂扩音、电化教学等,与音响技术相关的从业人员已有近百万人之多。作为一个新兴的职业,音响师越来越受到人们的青睐。

要成为一名合格的音响师,必须掌握相关的理论知识,并具有一定的技能技巧,诸如电工学和电子学基础知识、电声学和建筑声学基础知识、乐理学知识和设备装配以及应用操作能力都十分重要。从2003年开始,音响师要求持职业资格证书上岗。即便是具有大专或本科学历的人员,也只有在考取职业资格证书后才具有上岗资格。另外,由于声频技术发展很快,从模拟技术进入数学技术已是大势所趋,设备和技术的更新已在很多单位逐步实现,知识更新和人员素质的提高已迫在眉睫。因此,尽快培养出高水平的音响专业人才,满足社会的需求,已成为当前职业技能培训的一个重要方面。

本套教程正是为了顺应现代声频技术、音响技术的发展潮流,满足广大声频工作者,特别是大量音响技术人员的实际需求而编写的,具有较高的实用价值。由于目前市场上适合音响师实际工作需要的书籍很少,系统介绍音响调音技术的书籍尚无法满足读者的需要,因此,本套教程的出版能在一定程度上弥补这种不足。

中国录音师协会教育委员会(http://www.cavre.com)是二级协会,担负着全国录音师、音响师的教育培训任务;中国传媒大学是全国综合性重点大学,其信息工程学院的培养重点是声像技术方面的高级专业人才;北京恩维特声像技术中心是由人力资源和社会保障部正式委托的职业培训机构。由上述 3 个单位在中国传媒大学联合成立的音响师、录音师、灯光师培训中心已有13年的历史,已举办培训班60多期,培训学员近万人之多,在培训规模和培训质量方面在我国位居前列,是目前我国重要的声像职业技能培训基地。本套教材正是培训中心多年教学实践经验的总结,在培训中收到了良好效果。

本套教程为第3版,分3册出版,包括《初级音响师速成实用教程(第3版)》、《中级音响师速成实用教程(第3版)》和《高级音响师速成实用教程(第3版)》。其中,《初级音响师速成实用教程(第3版)》主要针对初学者,介绍音响设备的基本原理、基本操作方法,主要讲解音响师必备的电学、声学基础知识,如声音的基本属性、电工基础知识等,重点讲解了操作性很强的音响系统的连接、主要设备的操作与使用方法,是初级音响师的入门读物;《中级音响师速成实用教程(第 3 版)》主要讲解音响系统基础理论、系统的调整方法与使用技巧,特别是对主要设备(如调音台)与周边设备的调整方法以及各种场合的调音技巧作了比较详细的介绍;《高级音响师速成实用教程(第3版)》以讲解数字声频技术为主,介绍了数字声频技术的发展和应用,数字声频设备的基本原理、使用和操作方法,以及正确判断音响设备故障、正确处理故障和维修的方法。本次再版除改正了原书中的一些疏漏外,重点对《高级音响师速成实用教程(第2版)》的内容作了较大改动,以适应目前蓬勃发展的数字化进程。

对于书中的疏漏和不当之处,敬请广大读者批评指正。中国录音师协会教育委员会中国传媒大学信息工程学院北京恩维特声像技术中心2012年9月9日于北京第1章数字声频技术基础

本章将简要介绍有关数字声频技术的基础知识,主要阐述那些在数字声频中影响声音质量的有关问题,并对声频数字信号处理(DSP)作一个简要的介绍。

数字声频系统的基本结构如图1-1所示。模拟声频信号在A/D转换中被转换成二进制值。这些二进制值经各种方式的DSP后,被编码并且存储起来,或者被传送出去。存储或者传送的信号仍可进行进一步的处理,然后转换回模拟域。图1-1 数字声频系统基本结构框图1.1 A/D转换

A/D 转换是决定数字声频信号最终质量优劣的最重要的一环。事实上,一个声频信号在进行了转换处理之后,其声音质量只有变坏的可能,而绝无转好的希望。许多声频处理纯粹是在数字域中进行的,在这种情况下,A/D 转换并非关键所在,但是大多数的操作仍然不时地需要从模拟域上获得声音素材。工作站的价格各不相同,因此这些数字声频工作站及其周边转换器的质量也有优劣之分。许多分立的专业转换器的价格都相当于一个台式计算机的全部数字声频硬件和软件的价格。如今,在许多多媒体台式计算机中都能见到16bit的转换器,然而与最有效的那些设备相比,这些设备的表现很不理想。正如在下面所要看到的,采样率以及每个采样的比特数是决定一个数字声频信号质量优劣的主要因素,而转换器的质量却表明在这些限制之下,是否能更接近极限。

除此之外,必须承认的一点是:对于很多人来说,一个16bit的转换器听起来与别的并没有什么不同,很多时候价格与质量并不是成正比的。1.1.1 采样

模拟的声频信号是在时间上连续的电信号,而A/D转换器的任务正是将这一信号转换为在时间上离散的二进制数序列。在转换器中,采样过程包括对声频波形的振幅在规定的间隔上及时进行测量或采样,如图 1-2 所示。显然,采样脉冲准确地表示出了信号在每一时刻的瞬间振幅。采样可被看作是当快速连续播放时组成连续动感电影的一个个静止帧。图1-2 任意声频信号以规律的时间间隔被采样

基于详细地表征一个信号的需要,有必要在每秒钟获取大量的采样值,同时香农采样定理指出:如果一个信号的必要信息能被恢复,那么在每一个声频周期必须至少得有两个采样。从图 1-3 中可以看到,如果在声频信号的每一个周期只获得很少的采样,那么采样所描绘的可能会迥异于其采样的原始波形,这也是有助于理解混叠这一现象的一种方法。通过D/A转换来恢复出被采样的信号时,混叠会产生原始信号不需要的成分。图1-3 每一声频周期必须至少得到两个采样图1-4 放在脉冲振幅调制下的采样

将采样过程形象化的另一个方法是把它放在调制的情况下加以考虑,就像在图1-4中表示的那样。连续的声频波形被用来调制一个规则的脉冲序列,这些脉冲的频率就是采样频率。在调制之前,所有这些脉冲都有同样的振幅(高度),但是在调制之后,脉冲的振幅将根据声频信号在该点的瞬时振幅被加以修正。这一过程称之为脉冲振幅调制(PAM),调制信号的频谱如图1-5所示。可以看见,除了“基带”声频信号(采样前的原始频谱)之外,现在又出现了许多额外的频谱,并以采样频率的倍频频率为中心,呈对称分布。作为振幅调制的一个结果,采样频率及其倍频的每一边都产生了边带,它将采样频率及其倍频上下延伸基带宽度。换言之,这样的边带是声频频带的对称镜像。图1-5 调制信号的频谱1.1.2 滤波和混叠

从图1-6中可以容易地看出,为什么采样频率必须至少两倍于信号基带所含的最高频率。这是因为:超过奈奎斯特(Nyquist)采样频率的一个扩展的基带导致了第一个重复频谱的较低的边带重叠在基带的较后部分。这里举出两个例子来进一步说明:在第一个例子中,一个基带声音有足够低的频率,其采样了的边带频率处在声频范围之上;而在第二个例子中,一个较高的频率产生了较低的采样边带,正好落在基带之内,形成对原始声音的一个混叠。

在大家所熟悉的电影“轮幅”效应中,就能够看到混叠这种现象,因为不断变换的画面也是信号采样的一个例子。在影片中,静止画面(影像样本)在正常情况下是以24帧每秒的速度获取的。如果拍摄一个有着参考标志的旋转的车轮,当静止画面的播放速度比旋转的速度快得多的话,将会感到车轮向前转动,但是随着旋转速度的增加,车轮将表现出减速、停止、开始向后运动的效果。当车轮旋转的速度变得更快时,实际效果所表现出的向后运动速度也将变快,这个向后的动作就是由于以一个很低的速度进行采样所产生的混叠。显然,车轮其实并没有向后,但其视觉效果却是如此。

在数字录音中,如果允许一个声频信号产生混叠,重放时也将会听到如同向后旋转车轮般的听觉效果——也就是说,在第一边频没有可闻频谱中的声音成分,随着信号原始频率的增加,其频率下降。所以,在基本的转换器中,必须在采样之前就对基带声频信号进行滤波,如图1-7中所示,从而除去一些超过1/2采样频率(即奈奎斯特频率)的部分。图1-6 在频域内观察的混叠图1-7 在转换前使用模拟的抗混叠滤波器滤去输入信号中超过奈奎斯特采样频率的成分

在实际系统中,因为不可能有理想化的滤波器,采样频率要稍微高于两倍的记录频带上限,允许通带与阻带的过渡特性不是非常陡峭。在D/A和A/D转换器中采用的滤波器对声音音色有明显的影响,因为它们决定了在声频频带内频率响应的线性,在高频处倾斜衰减,以及系统具有线性相位响应。在一个非过采样转换器中,滤波器必须滤掉所有高于1/2 采样频率的信号,至少也要衰减80dB。陡峭的滤波器很可能在高频处有不确定的相位响应,同时由于滤波器的高Q值可能表现出“铃响”,因此陡峭滤波器也有缺点,其制作也非常复杂。尽管滤波器的影响在许多方面是不可避免的,但制作者已经在抗混叠和平滑滤波器研究设计方面取得了长足的进展,许多目前采用的性能较差的滤波器,其性能已有所改进,一个积极的效果即反映在音质的改善上。

过采样处理有助于减少模拟滤波产生的问题,因为它将基带的第一个重复边带移至更高的频率上,这样便允许使用较缓衰减斜率的滤波器。1.1.3 量化

采样之后,调制的脉冲序列被量化。在量化一个采样信号时,采样的振幅被转换成一些阶梯状变化的值,如图1-8所示。量化器决定量化间距的固定数据(Q 值的大小),每一个采样都位于其中,然后分配给它一个值来表示这个值的中心点。这样做的目的在于在脉冲编码调制中,每一个采样振幅都能由一个唯一的二进制数来表示。在线性量化中,每一个量化阶梯等同于信号电平的增量,在二进制系统中,n量化阶梯数等于2。这里n是指的二进制中的比特数,它用来表征每4一个采样。因此,一个4bit转换器仅仅提供了2(16)个量化步阶,16而一个 16bit 的量化器则可提供多达 2 (65536)个量化步阶。图1-8 量化时采样的振幅被转换成一些阶梯状变化值

能够随时有效表示信号振幅的离散步阶的数目是有限的,所以在量化过程中会有误差产生。误差的最大值将为正负半个步阶的幅度,并且假如所表示的模拟电平保持不变的话,那么每个采样大量的比特数也将产生一个较小的误差。

图1-9所示的是在不同的分辨率下,数字声频信号所处的二进制数范围,通常使用2的补码形式表示。由图1-9可以看到,一个16bit信号最大的确定采样值是7FFF,同时最大的负值为8000。在其通过0V点时,采样值从全零(0000)变化至全1(FFFF),最大数字信号电平通常称为 0dB FS(FS 意为满刻度)。超过这个电平的信号被削波,导致了严重的失真,如图1-10所示。图1-9 不同的分辨率下数字声频信号所处的二进制范围图1-10 数字系统中超过峰值点电平的信号被削波情况1.1.4 采样分辨率的可闻效果

量化误差可以认为是一个不想要的信号叠加在了想要的信号之上,如图1-11所示。根据它们的特性,不想要的信号可划分为失真或噪声,相关的声频信号的性质和电平很大程度上又决定了信号量化误差的性质。下面的几个例子通过图示的方法对16bit采样分辨率时数字域的清晰度进行了说明。

首先让我们考虑一个电平很低的正弦波信号,它被采样随后又被量化,其电平仅仅够让它在峰值的时候,使得量化器的最低有效比特开启或关闭,如图1-12(a)所示。这样一个信号会产生一个周期性的、与信号紧密相关的量化误差,导致了谐波失真。图1-12(b)所示为该信号的频谱分析,它清楚地表明在原来的基础之上所产生失真的成分(偶次谐波占主要地位)。一旦信号降至开启LSB(最低有效位)的电平之下,也许就没有调制了。因此,将一个信号衰减至无声,反映在听觉上的效果就是一个逐渐增加的失真信号突然消失。如正弦波信号电平较高则会越过更多的量化间隔,并产生更多的非零采样值。随着信号电平的增加,量化误差最大值仍然是±0.5Q,但占整个信号电平的比例逐渐减小,同时误差也逐渐与信号失去相关性。图1-11 量化误差被加在原始采样值上图1-12 电平很低的正弦信号被采样随后又被量化情况

现在考虑一个有合理高电平的音乐信号,它的振幅以及频谱特征变化很大,因此其量化误差有着随机的特性。换句话说,这更像噪声,而非失真,因此经常用量化噪声来描述由量化误差所造成的听觉上的效果。分析量化误差的功率时,假定它有类似于噪声的特性,表明它有的均方根振幅,这里Q是用一个量化间隔来表示电压增量。所以一个理想的n比特量化信号的信噪比(S/N)可以被表示为:

6.02n+1.76dB

这意味着理想的S/N大约稍稍超过6dB/bit。所以可以估算出一个16bit的转换器的S/N大约是98dB,而一个8bit转换器大约为50dB。这里所假设的是一个非颤动的转换器。如果一个转换器是非颤动的,那么当有信号时,将只有量化噪声存在,但是当信号不存在的时候则没有静态本底噪声。1.1.5 高频颤动的使用

在A/D转换以及在进行不同的采样分辨率间的转换时使用高频颤动的做法,现在已经被普遍接受。它具有对普通的转换器实施线性化的作用(换言之,它可有效地将每一个量化间隔均匀化),同时它可将量化失真转化为一种随时都有的类似随机噪声的信号(即白噪声)。这种方法之所以很受欢迎有几种原因。首先,白噪声在低电平的情况下不像失真那样让人感觉讨厌;其次,它允许信号平缓地衰减至无声,而不像前面提到的那样突然消失;再者,即使在信号的电平降至系统的本底噪声之下的时候,通常也可将信号重新恢复。在信号电平下降时,没有加入高频颤动的声频信号听起来有“颗粒感”,同时觉得失真了。当高频颤动打开时,细微的“咝咝”声将消失,使得系统听起来更加安静,但通常却认为少量的连续的“咝咝”声与低电平失真相比,前者更加可取。

对转换器的高频颤动处理就是将一个很低电平的信号加入到声频信号上,其振幅取决于颤动所使用的类型。高频颤动信号通常是噪声,但也可能是一半采样频率的一个波形,或者是两者的结合。一个在A/D转换过程中没有被正确加入颤动的信号,不可能在以后通过高频颤动达到同样的效果,因为信号已经产生了不可挽回的失真。高频颤动是怎样完成除去量化失真这一任务呢?

前面已经说明,失真是信号与量化误差之间存在相关性所造成的,从而导致了误差的周期性,并产生了主观上嘈杂不安的听感。如图1-13所示,将一个随机的噪声信号加在声频信号之上使量化误差随机化,并使其听起来有点类似噪声的效果,若一个噪声的振幅与LSB的值相当(换句话讲,为一个量化阶梯),那么一个准确位于一个量化间距和下一个之间的关键点位置的信号会被量化到上面或下面去,这要取决于加在其上的高频颤动噪声的瞬时电平。一段时间之后,这一随机的效果将被平均化,产生一个类似于噪声的量化误差,并且系统有一个固定的本底噪声。

图1-13(a)与图1-12所表示的是同样的一个低电平正弦波,但它加入了高频颤动噪声。被量化的信号保持着1kHz正弦波的振动方式,但是现在它更频繁地被调制,并且其中加入了随机的成分。这一信号的频谱如图1-14(b)所示,它表明伴随着单一正弦波成分的还有一个平稳的本底噪声。图 1-14(c)和(d)表明加入了高频颤动的正弦波的波形和频谱,这个正弦波的电平在未加高频颤动处理的 16bit 系统中是无法表示的。但是如果仔细研究的话会发现,原始 1kHz 周期性变化成分仍然可以在其调制型中看见。LSB 调制占空比(时间开和关之间的比率)随着原始信号的振幅而变化。当它通过一个D/A转换器和重建滤波器后,其结果为一个纯粹的正弦波信号加上噪声,这一切可从频谱分析中看到。

在诸如调音台等一些数字处理设备中,也使用高频颤动,不过在这些情况下,它是作为一个随机数字序列被引入数字域的(数字域白噪声)。从这一意义上讲,它被用于去除由于信号增益改变而产生的低电平失真,以及在后期制作中进行高分辨率到低分辨率的转换的优化处理。图1-13 量化误差随机化及类似噪声效果图1-14 信号频谱及波形1.1.6 高频颤动的种类

主要由Vanderkooy和Lipshitz进行的研究已经揭示了在高质量的声频制作中,某种类型的高频颤动要比别的类型有效得多。

高频颤动噪声常根据其概率分布进行归一化处理,以显示特定的振幅信号的概率分布。类似图1-15所示的一个简单的图形可用来说明分布的形状,其中概率是用竖轴表示,而以量化步阶反映出的振幅用横轴表示。图1-15 高频颤动的概率分布曲线

只要考虑一下在投骰子时骰子坠落的方式,就可以理解逻辑概率分布,如图1-16所示。投一个骰子存在一个矩形概率分布函数(RPDF),因为掷出1点和6点之间任一点数的概率均等(除非骰子已被做了手脚!)。另一方面,一对小骰子的点数之和,有一个近似三角形的概率分布函数(TPDF),其峰值集中在6~8之间,因为形成这种和值的组合的可能性多于组合成2点或12点的可能性。在数字电信号中,我们可用一个类似于掷骰子的随机数字发生器产生颤动,同时还发现使用一个随机数字发生器可以产生RPDF颤动,将两个RPDF发生器的输出相加可以产生TPDF颤动。

RPDF颤动振幅处在零与最大值之间的概率相等,然而TPDF颤动振幅为零的概率要大于为最大值的概率。模拟白噪声具有高斯概率分布,其形状与任一种逻辑产生的高频颤动相比都稍有不同。Lipshitz和Vanderkooy已经证明,RPDF、TPDF以及高斯型高频颤动都具有使转换线性化和去除失真的效果。RPDF 颤动倾向于在低电平信号下进行噪声调制,这就使得他们认为最合适的颤动噪声是峰峰值为2Q的TPDF,如图1-17所示。如果使用RPDF颤动,它应有1Q的峰峰值。图1-16 掷骰子的概率分布图1-17 声频信号最适合加数字高频颤动信号

有时候在数字域可以轻易地产生理想的逻辑概率分布函数,就好像存在于许多转换器的噪声源将是模拟的一样,因此本质上是高斯分布的。对于高斯噪声,颤动信号最合适的均方根振幅为0.5Q,在这种电平下,噪声调制被最小化,但并不是没有。在该电平下的高频颤动使动态范围较未加高频颤动时减小大约6dB,这使得一个理想的16bit转换器加入高频颤动后的动态范围为92dB左右。1.1.7 A/D转换中的过采样

过采样是指用高于奈奎斯特定理规定的频率对声频信号进行采样。通常在随后的数字滤波过程中,这一高比率被减至为一个正常比率,以使与通常的采样信号相比,不占更多的存储空间。它是采用采样分辨率与采样频率之间折中的机制来工作的,也是建立在一个通道传送信息的容量是由这两个因素所决定这一理论的基础之上的。以低分辨率高采样频率进行采样可以被转变为以较高的采样分辨率较低采样频率的采样,信息不存在任何方面的损失(声音质量)。过采样现在已经非常流行,广泛地用于大多数高质量的声频转换器中。

尽管过采样A/D转换器经常使用高达基本频率44.1kHz和48kHz 128倍的采样频率进行采样,但转换器数字输出的实际速率并不超过基本速率。以高速度获得的采样被量化成仅仅几比特的分辨率,随后再用数字滤波来减少采样频率,如图1-18所示。数字低通滤波器将信号带宽限制在1/2基本采样频率之内,以便防止混叠的产生,这是一种抽取滤波器。抽取滤波器靠从过采样流中抽取出采样来降低采样速度。低通滤波执行的结果是明显地增加了采样的字长,但这种增加不是随意进行的,而是要根据周围采样值,准确地计算出每一个采样的正确值(见1.4节)。虽然过采样转换器最初以低的分辨率对采样进行量化,但抽取滤波器的输出却是具有更高分辨率的,通常以奈奎斯特采样频率为采样的样本。如果必须的话,采样分辨率可以减小,以产生所需的字长。

过采样带来了一些好处,同时它也是系统在A/D 和D/A 环节能提高音质的关键所在。因为最初的采样频率在声频范围之上(通常十或百倍于正常的频率),从PAM所产生的频谱分布可以看出,所重复的频谱成分已远离声频频带,如图1-19所示。用在传统转换器中的模拟抗混叠滤波器被数字抽取滤波器所代替,如果在D/A转换中过采样,那么模拟重建滤波器的滚降就会更缓。这将改善声频频带内的相位响应的特性,从而改善声音质量。过采样也使得将“噪声整形”法引入转换处理成为可能,它可以将量化噪声的绝大部分转移到频谱的可听范围之外。图1-18 过采样A/D转换处理的框图图1-19 PAM产生的频谱分布1.1.8 A/D转换中的噪声整形

噪声整形是以增加其他频带上噪声为代价,降低声频范围绝大多数可听部分的噪声的办法,它使用将量化噪声的频谱能量“整形”的处理方式。

因为采样转换器中使用高的采样频率,而且高的采样频率将量化噪声扩散到整个频率范围之上,并且大部分处在声频范围之外。

量化噪声能量分布在整个基带上,直至奈奎斯特频率。过采样将量化噪声分布于一个更宽的频谱范围中,因为在过采样的转换器中,奈奎斯特频率位于声频带的上限之上。它减小了带内噪声,减小的程度为3dB/oct。换而言之,以两倍奈奎斯特速率进行过采样的系统将声频频带内的噪声能量降低大约3dB。

在过采样的噪声整形转换中,积分器(低通滤波器)插在量化器之前,并且在负反馈环路中接入一个D/A转换器,如图1-20所示,这种转换器称为“Δ -Σ转换器”。在此不去深入研究这种转换器的原理,我们只需知道其结果是量化噪声(在积分器之后引入的)在输入给抽取滤波器时对频率响应进行了提升,同时输入信号以平坦的频响通过。很显然,这样一个电路和模拟负反馈电路之间是等效的。图1-20 一个噪声整形Δ -ΣA/D转换器的框图

如果没有噪声整形,量化噪声的能量谱将平滑地延伸至奈奎斯特频率处,但是有了第一级噪声整形,这一能量谱将不再是平直的。如再加上第二级噪声整形,带内的噪声衰减将更加明显,带内噪声将明显小于未经噪声整形处理时的情况。1.2 D/A转换1.2.1 基本的D/A转换

图1-21为一个基本的D/A转换处理示意图,声频样本值被转化为对应其采样值的阶梯状电平链。在简单的转换器中,它通过比特的状态转变成电流源的开和关,并通过结合这些电流源的每一个输出来构成所需的脉冲振幅。在通过低通重建滤波器之前,这个阶梯波被“再采样”以减小脉冲的宽度,滤波器的截止频率为采样频率的1/2。重建滤波器的作用是将采样点连接起来形成一个平滑的波形。再采样是必须进行的,不然的话滤波器的平均效应将导致高频声音信号的振幅下降,称之为“孔径效应”。孔径效应可以通过将样本脉冲宽度限制到大约为采样周期的1/8来减小,也可通过均衡来校正孔径效应。图1-21 D/A转换中的处理(仅仅显示了正的样本值)示意图1.2.2 D/A转换中的过采样

正如A/D转换中那样,在D/A转换中也可以使用过采样。在D/A转换的情况下,插入的采样必须处在奈奎斯特速率采样中间,以使转换可以在较高的采样速度下进行。这些是通过PCM数据的采样频率转换来实现的。这些样本随后以较高的速率转换到模拟状态,再次避免使用陡峭的模拟滤波器。噪声整形也可以在D/A转换阶段引入,根据转换器的设计,来压低噪声的主观电平。

现有的一些先进D/A转换器设计采用了高速率下的过采样,产生仅有几比特分辨率的样本。这一方案的极端形式就是极高转换率下的一比特技术(比特分辨率转换),并采用噪声整形处理来优化信号的噪声频谱。1.3 音质与采样频率和分辨率之间的关系1.3.1 心理声学限制

就音质而言,数字声频可能已达到了人耳的听音极限。然而,粗滥制造的数字声频产品听起来也可能非常差,数字并不是高质量的代名词。采样参数和噪声整形方法的选择影响着数字声频的频率响应、失真以及动态范围。

人耳的听觉能力应该看作是对数字系统评价的标准,因为只有当失真和噪声能被听见才有争论的必要,所以将转换器的本底噪声设计成低于人耳所能感知的灵敏度应该不失为一个明智之举。例如,图1-22显示的是一个典型的低电平听觉灵敏度曲线,它表明了一个声音信号刚刚能被听到所需要的最低声压级(SPL)。可以看出,人耳在4kHz左右中频范围是最灵敏的,而在频谱的低频和高频部分则不是那么灵敏。这条曲线通常称之为“最低可闻阈”(MAF)或“听阈”。在 1kHz 处,其声压级为 0dB(基准声压为 20μPa)。应记住的是,人耳的闻阈不是绝对的,而是带概率特性。换句话说,在试图判断什么情况下能被听见,什么情况下不能被听见时,实际上说的是一种统计概率。对于一些试图建立听觉标准的研究来说,这是很重要的,因为某些虽然低于听阈10dB的声音,在一些情况下存在统计上确实能听到的可能性。

动态范围可以被认为是MAF和所能容忍的最响声音之间的范围。可容忍的最响声音因人而异,但是“痛阈”通常被认为是在130dB与140dB之间。为此,人耳听觉的绝对最大动态范围在1kHz处大约是140dB,远大于在低频或高频时的动态范围,是否有必要录制这样宽的动态范围还有待讨论。

Louis Fielder 和 Elizabeth Cohen 所进行的一些工作,试图通过研究声源发出的有效极端声压,并且将其与真实声学环境下的可闻本底噪声对比,得出高质量数字声频系统所需要的动态范围。根据心理声学理论,Fielder 能够表示出在不同的频率下,根据噪声与失真的情况可能听见什么,以及在一个典型的录音链中,限制的因素可能在哪儿。将动态范围定义为产生峰值等于一个特定峰值电平的均方根最大不失真正弦波电平与 20kHz 限带白噪声的均方根电平之比。它与特定声频链的设备在无信号时噪声的响度是一样的。他进一步表明 20kHz 带宽噪声信号恰好能被听见的声压级大约为4dB,在满意的听音位置上,一些音乐演奏所达到的声压级在120dB和129dB之间。根据这些,他确定了真实地重放所需要的动态范围为122dB。考虑到传声器的性能和民用扬声器的限制,对于民用系统,所需要的动态范围降至115dB。图1-22 听阈曲线1.3.2 采样频率

采样频率的选择决定了最大有效声频带宽。在选择一个比必需的采样频率低的采样频率的问题上存在一些争议。经常争论的是从有用的最高声频频率为多少这个问题上开始的,同时这也是争论的焦点所在。传统的理论认为声频频带伸展至 20kHz,这意味着对高质量的声频制作而言,采样频率只需超过40kHz即可。事实上,有两个标准的采样频率位于40kHz和50kHz之间:CD的采样频率为44.1kHz,而称之为“专业”的采样频率为48kHz。这两者都满足1984年制定的数字声频设备采样频率的AES5标准。表1-1列出了各种不同的采样频率以及它们的应用范围。在台式PC和声卡中使用的采样频率标准很多,这里只列出了其中最通用的。表1-1 通常采用的采样频率

首先是48kHz的采样频率,因为它给磁带录音机向下变速处理留有大量余地。当许多数字录音机变换速度时,它们的采样频率也相应地改变,其结果为声频基带第一个频谱副本产生移动。如果采样频率被降得太低,那么会听到混叠成分。为此,大多数专业的数字磁带录音机仅允许有±12.5%的速度变化。然而,现在通过使用截止频率随采样频率变化的低通滤波器可以防止这个问题的产生。

在民用CD机上,较早地采用了44.1kHz的采样频率,如今这一频率已被广泛使用。实际上,它也已经成为大多数专业录音设备中备选的采样频率之一。它允许20kHz声频频带的全部使用,并且过采样转换器允许使用可以防止在高频出现相位问题的较缓的模拟抗混叠滤波器。与48kHz的采样频率相比,它每秒钟所产生的数据要少10%,从存储的观点来看要经济一些。

IMA RP 速率在国际多媒体协会推荐使用中被挑选来提高多媒体系统中的数字声频兼容性,用来在工作站中交换声音文件。

32kHz 的采样频率使用在一些广播应用上,例如在NICAM 728 立体声电视传送以及用在一些无线电转播系统中。电视和FM广播声音带宽被限制在15kHz已经好多年,并且靠使用这一较低的采样频率达到了节省传送带宽的目的。大多数重要的声频信息都位于15kHz以下,并且除去15kHz以上的频率成分对声音的影响也不太大。一些专业的声频设备将这一频率作为备选。例如一些DAT使用这一频率来进行长时间播放。

更高的采样频率,如88.2kHz和96kHz作为标准存在的依据是要适合声源的要求:即高于20kHz的信息对于声音质量也是重要的。一位日本教授已经揭示出,高于20kHz的频率能够使人脑中X波兴奋。这个X波与人的满足和放松的状态相对应。人耳的听觉响应并不是截止于20kHz的观点显然是正确的,但是只有极少数听音者可以屡次区分出一个信号是否含有较高的频率成分。采样频率加倍将导致数字声频系统的数据率加倍,从而使可存储的时间减半。这些较高的采样频率应在仔细权衡过得失之后再选用。当前还没有支持这些频率的民用重放媒体。

那些低于30kHz的低采样频率经常用于对音质要求较低的PC工作站上,如存储语言样本、内置音效源等。在早期的计算机中,这些是由于时钟和运算速度限制造成的。多媒体应用可能需要支持这些频率,因为在这类应用中,经常用到各种不同质量的声音。1.3.3 量化分辨率

每个样本的比特数决定着数字声频系统的信噪比或动态范围。在此仅讨论线性 PCM 系统,因为对于所介绍的非线性量化或数据压缩,情况是不同的。表 1-2 简要地表述了不同采样分辨率的应用。表1-2 线性量化分辨率续表

多年来,16bit线性PCM已被认为是高质量声频应用的规范。这是CD标准的音质,并且能够提供超过90dB的动态范围。对于大多数的应用而言,虽然已经足够,但是还不能达到Fielder的理想,即在专业系统中进行122dB无噪声重放的要求。要达到如此之大的动态范围需要转换器的分辨率为21bit左右,根据对这一指标的注释,今天的转换器技术可以达到这一要求。有些设计方案采用两个转换器,靠数字信号处理来将有重叠的两个输出混合起来,使可闻的动态范围明显提高。而另一些则使用非相关高频颤动的两个转换器,将它们的输出相加,而使信号增加6dB,而噪声只增加3dB。

在专业录音中会常常遇到需要一定的“峰值储备”的情况。换句话说,一些用于不可预见的情况下的超过标称峰值录音电平的动态范围,如当一个信号过冲,超出其预期的电平。尤其是现场录音时,不知道录音电平会出现什么样的情况时更是必需。这就是为什么许多专业人士认为高于 16bit 的分辨率对于原始录音很有必要的另一个原因。为此,20bit 录音格式迅速地流行起来,调音师也可以使用噪声整形再量化处理来完善已制作完成的16bit媒质的录音(例如CD)。人们甚至已经开始对24bit录音感兴趣了,但目前能全面开发这一动态范围的转换技术尚不成熟。

在较低质量的终端产品中,一些PC的声卡以及内部声源以低至4bit的分辨率进行工作。在台式计算机中,8bit的采样重放输出是最常见的,它通过PC的内置扬声器重放出中等的音质,在未加高频颤动时的动态范围大约为50dB。有许多适用于PC的非线性量化方案,PC中采用了多种非线性量化方案,比如 A 律和μ律以及各种其他数据压缩方案。这些方案能够通过少量的比特数来改善动态范围,但也存在着可闻的副作用。国际多媒体协会已经制定并推荐了便于简单交换的一系列采样频率和数据类型,如表1-3所示。当今的多媒体PC和声卡通常以16bit分辨率作为标准。一些早期的MIDI采样器以8bit分辨率进行工作,近期多为12bit,而现在的MIDI采样器则普遍具备真正16bit的分辨率。表1-3 国际多媒体协会为计算机之间基本声频数据互换推荐的采样频率和量化续表1.4 数字化处理的相关问题1.4.1 时基抖动及对转换器的影响

时基抖动是声频样本时基位置的短时间变化。理想情况下它们应该是非常稳定的,如果时基不稳,各种有害的影响将在声音质量上反映出来,包括附加的噪声和失真,它由样本瞬间时基偏移的方式而定。抖动被认为与量化误差非常类似,只不过时间轴在这里替代了振幅轴,但它们的结果是类似的。它是由多种原因造成的,其中包括低质量的时钟信号、电子噪声、电子干扰,也经常是由于通过数字接口传递声频信号造成的。注意到抖动并非必定是一个问题是很重要的。只有影响进行A/D和D/A转换中的时钟时才对声音质量有所影响,在很多情况下可以通过使用合适的稳定的锁相环路进行重复再生时钟而将抖动去除。A/D转换器时钟上的抖动如不能随后被去除的话,会产生信号的永久失真。而在数字域后面的阶段引入的抖动可以被减少或去除。

抖动的重要特征表现在峰值振幅和其速率上,这两个因素相结合将会影响声音质量。Shelton通过计算随机抖动的均方根信噪比得出结论:低于5ns的时基不规则变化,对于整个信号频率范围上的16bit数字声频系统可能是非同小可的。这一要求在更高的分辨率以及在高频情况下将更加苛刻。图1-23简要地表示了这些影响。图1-23 不同频率下采样时钟抖动对信噪比的影响

如果抖动是周期性的而非随机产生的,其结果将相当于“抖动”,如果在一个正弦声频信号转化的采样时钟中发生这种情况,那么由于

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载