录播技术与应用系统(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-17 05:06:48

点击下载

作者:钟晓流

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

录播技术与应用系统

录播技术与应用系统试读:

前言

以视音频系统为核心的录播制作技术自20世纪30年代问世以来,促进了新闻、传媒、教育、博览、综艺和会议等行业的重大变革,也极大地丰富了人类获取信息的模式和手段。当今世界,影视传媒成为人们日常生活中不可或缺的物质条件之一,电视成为全球人类沟通信息、交流文化、相互了解的最大和最直接的媒介,电视在全球经济、政治、文化、社会发展中的地位与作用也与日俱增。

20世纪90年代之前,影视演播制作技术使用的都是模拟信号,即直接模拟所记录对象的声音和图像,通过声电、光电转换,变成连续的电波信号进行传输后再还原为声音和图像。90年代中期开始,随着传统音视频技术与数字化信息技术的融合,数字化音视频技术将所有图像和声音都转换为由0和1组成的二进制数字信息来进行记录和处理,给视听技术及相关行业迎来了一场革命性的变化,影视传媒行业的新设备、新系统、新方法、新模式、新观念等层出不穷。

随着计算机应用技术和互联网技术的发展,数字音视频文件得以在网络上流式传输,专用服务器把已做好的音视频节目当成数据包发出,传送到网络上,用户通过解压缩设备对这些数据进行解压后,节目就会像发送前那样显示出来。这就是当今流行的流媒体技术。流媒体录播系统是演播制作技术与信息化教学、培训、会议、医疗、庭审等活动相结合的必然产物,具有广泛的应用前景和强大的生命力。

当前,针对不同行业、不同环境、不同目的应用的录播系统类型繁多,形式各异,但它们的基本原理相近,只是实现手段不同而已。我们认为,建立一套先进而完备的实用录播系统,应给用户或服务对象一个完整的解决方案。任何类型或形式的录播系统的扩建和设计,必须本着先进实用性、稳定可靠性、完备拓展性和标准化之目的,达到再现现场和动感视听的目标。

本书正是本着上述目的,使读者和用户了解实用录播系统的基本概念、基本结构、基本原理和应用背景,并结合在实际工程中的应用,为读者和用户在今后的学习和应用过程中提供参考和借鉴。

本书第一章、第二章由宋述强和宗佳执笔或起草,第三章由薛玉田执笔或起草,第四章由董榕执笔或起草,第五章由张冀中执笔或起草,第六、七、八章由李海霞和逯金重执笔或起草。全书由钟晓流担任主编并负责技术指导,尤其是对第三章至第八章做了大量的补充、完善、勘误和技术细节的厘定,并最终定稿。

在本书编写过程中,我们得到了来自多方面的帮助和支持。在此,对清华大学吴庚生教授和李学农教授、浙江大学张剑平教授、华南理工大学郑道林教授、北京大学张亦工副教授、上海交通大学沈宏兴副教授、北京外国语大学王峻京副教授、北京理工大学左渠副教授等表示谢意,他们为本书的出版提出了许多宝贵的意见和建议。

由于信息技术的发展日新月异,加上作者水平的局限,书中存在不全面、不完善甚至值得商榷的问题在所难免,欢迎广大读者批评指正。编者2012年9月

第一章 录播系统的技术基础

人们通过视觉、听觉、嗅觉、触觉、味觉5种基本的感觉通道来感知外部世界,获取各种信息。心理学家特瑞克勒(D.G.Treichler)曾指出在人类获取信息的来源中视觉占83%,听觉占11%,嗅觉占3.5%,触觉占1.5%,味觉占1%。可见5种感觉通道接收信息的能力是不同的,其中视听之和所占比例达到90%以上。

视听效果最直接的评价标准就是声音和图像的品质。音质悦耳、视觉逼真、视听同步是视听技术和录播系统要解决的主要命题。决定音质效果的音频系统和决定视觉效果的视频系统是录播系统同等重要的两个方面。因此,在了解录播系统之前学习音频和视频的基本知识十分必要。

第一节 音频与音频系统

音频指人所能感知到的声音,包括噪声。根据记录和处理技术的不同,音频又分为模拟音频与数字音频。模拟音频把机械振动转换成电信号,以电信号(电压、电流)来模仿声音物理量的变化。为了便于在计算机中存储和编辑,模拟音频通常要转换为数字音频。数字音频是指用一连串二进制数据来保存声音信号。这种声音信号在存储和电路传输及处理过程中,不再是连续的信号,而是离散的信号。

一、声学常识

1.声音的传播

声音由物体(声源)的振动产生,它有两层含义:在物理学上是指声波,即由物体振动所产生并在介质中传播的一种机械波;在生理学和心理学上则是指声波作用于听觉器官所引起的主观感觉,即听觉。

声音以声波的形式通过空气、水、木头、金属等弹性介质进行传播。在真空状态中,因为没有任何弹性介质,所以声波就不能传播了。声波在穿过不同的介质时,会发生反射、折射、衍射、散射、扩散、吸收等现象。在同一介质中传播时,只要媒质存在某种不均匀性(密度、温度、水深等),也会发生这些现象。1)声波的参数(1)周期

周期是指声源完成一次振动所需要的时间。记作T,计量单位为秒(s)。(2)频率

频率是指声源在一秒钟内振动的次数。记作f,计量单位为赫兹(Hz)。频率是周期的倒数,即:f=1/T。

人耳所能感觉到的声波的频率范围是20~20000Hz,被称为可闻声。如果物体振动频率低于20Hz或高于20000Hz,人耳就听不到了。高于20000Hz的频率叫做超声波(如B超),而低于20Hz的频率叫做次声波(如地震波)。通常把125~250Hz以下的频率称为低频,500~1000Hz的频率称为中频,2000~4000Hz以上的频率称为高频。(3)波长

波长是指沿声波传播方向,振动一个周期所传播的距离,或在波形上相位相同的相邻两点间的距离。记作λ,单位为米(m)。(4)振幅

振幅是指声波在波动过程中距离平衡位置的最大位移。记作A,单位为米(m)。

振幅是声波能量的体现,振幅越大,能量越大。小的振幅表明声音很弱或声波传播的距离很近,大的振幅表明声音很强或声波传播的距离很远。距离声源越远,听到的声音越小,是因为在声波的传播过程中,介质会吸收声波能量,振幅逐渐减小。(5)声速

声速是指声波每秒在介质中传播的距离。记作c,单位为m/s。声速与传播声音的介质和温度有关。声波在不同的介质中其传播速度是不一样的,在空气中,声速(c)和温度(θ)关系可表示为:c=1/2331.4(1+θ/273)。在常温(15~25℃)下,声速约为340m/s。

频率f、波长λ和声速c三者之间的关系是:c=λf。

声速不是声源的振动速度,而是振动状态的传播速度,其大小与振动特性无关,而与介质的弹性、密度及温度有关。因此,声波在恒定的介质中其传播速度是不变的。2)声波的传播(1)透射

透射是指声源发出的声波透过介质传播到受声点的现象。声波入射到介质时,声能的一部分被反射,一部分被吸收而损耗掉,还有一部分会透过介质在另一侧继续进行传播。

如果把单位时间内入射声能记为E,介质反射声能记为E,介质0r透射声能记为E,介质吸收声能记为E,根据能量守恒律,则有:Eτα0=E+E+E。rɑτ

介质透射声能与入射声能之比称为“透射系数”,记作τ,即:τ=E/E。τ0(2)反射

声波在同一介质中按一定方向传播,而在传播过程中遇到比波长大得多的障碍物时就会反射,从而产生虚声源,即声像。

反射声能与入射声能之比称为“反射系数”,记作r,即:r=E/rE。0(3)散射

如果障碍物表面的起伏程度与波长相当,或者障碍物的大小与波长差不多,入射声波就会向各个方向散射。散射可以理解为没有规律的反射。(4)折射

声波在传播的过程中,遇到不同介质的分界口时,除了反射外,还会发生折射,从而改变声波的传播方向。(5)衍射

声波在传播过程中遇到障碍物或孔洞时,如果障碍物或孔洞的大小比声波波长小得多,声波不是沿直线传播,而是改变前进的方向绕过障碍物或孔洞,到达按直线传播时不能到达的地方,这种现象称为衍射(或绕射)。2.声音的计量1)声功率

声功率指单位时间内,声波通过垂直于传播方向某指定面积的声6能量。记作W,单位为瓦(W)或微瓦(μW)。1W=10μW。

声功率表示声源发声能力的大小。2)声强

声强指在垂直于声波传播方向上,单位时间内通过单位面积的平2-12均声能。记作I,单位为W/m。人耳可以感受的声强变化范围为1022~10W/m。3)声压

当空气中有声波传播时,该点的压强与没有声波到达时的压强之差叫做该点的声压。声压通常用P来表示,单位是帕斯卡,简称帕2(Pa)或牛顿/平方米(N/m)。声压是衡量声音大小的尺度。声音越强,声压就越大;反之,声压就越小。树叶被微风吹动发出响声的声压约为0.01帕;在房中大声说话的声压约为0.1帕。4)级与分贝

人耳听阈(人耳刚刚能感受的声音)的频率f=20Hz,声压P=2-5-122×10Pa,声强I=1×10W/m。人耳痛阈(闻之则痛的声音)的频2率f=20000Hz,声压P=20Pa,声强I=10W/m。可见人们日常生活中听到的声音变化范围非常大,若以声压值表示,可以达6个数量级以上,若以声强值表示,则可以达12个数量级以上。实验证明,人的听觉对声音信号强弱的刺激反应不是线性的,而是成对数比例关系。

由于以上原因,实际应用中,表示声音强弱的单位并不采用声功率或声压的绝对值,而采用相对单位“级”,并以“分贝”作为级的单位,记作dB。分贝是以美国发明家亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)命名的,他因发明电话而闻名于世。

所谓分贝是指两个相同的物理量(例如A和A)之比取常用对数0并乘以10(或20),即N=10lg(A/A)或N=20lg(A/A)00

上式中A为被量度量,A为基准量(或参考量)。被量度量和基0准量之比取常用对数,该对数值称为被量度量的“级”,它代表被量度量比基准量高出多少“级”。

分贝是物理学中常用的对数单位,例如风级、地震级等。在声学中有声功率级、声强级、声压级等,分别是将声功率、声强、声压与各自的参考值相比后再取对数。5)声功率级

声功率级(L)是用声功率(W)和基准功率(W)之比的常W0用对数来表示,单位为分贝。其定义为:L=10lg(W/W),通常采W0-12用W=10W=1pW。06)声强级

声强级(L)是用声音强度(I)和基准声强(I)之比的常用对I0数来表示,单位为分贝。其定义为:L=10lg(I/I),通常采用I=I00-12210W/m,即人耳对频率为1000Hz的声音的可听下限。7)声压级

声压级是声压与基准声压的相对量度,单位为分贝。其定义为:220-5L=10lg(P/P)=20lg(P/P),通常采用P=2×10Pa。p00-5

2×10Pa是正常人耳对频率为1000Hz的声音刚刚能感觉其存在的声压值,也就是1000Hz声音的可听阈声压。一般来讲,低于这一声压值,人耳就不能觉察出这个声音的存在了。显然该可听阈声压的声压级即为零分贝。人耳听阈和痛阈通常用声压级表示:-5 听觉下限:P=2×10Pa;L=0dB。P-5 声压提高2倍:P=4×10Pa;L=6dB。P-4 声压提高10倍:P=2×10Pa;L=20dB。P-3 声压提高100倍:P=2×10Pa;L=40dB。P-2 声压提高1000倍:P=2×10Pa;L=60dB。P-1 声压提高10000倍:P=2×10Pa;L=80dB。P 声压提高100000倍:P=2Pa;L=100dB。P 听觉上限:P=20Pa;L=120dB。P3.人类的听觉1)听觉的产生

声音既是一种物理现象,也是生理和心理现象。听觉是人对声音的主观反应。人耳是声波的接收器官,主要由外耳、中耳和内耳三部分组成,如图1-1所示。图1-1 人耳的结构

人的耳廓有收集声波的作用。声波经外耳道到达鼓膜,引起鼓膜的振动。鼓膜振动通过三块听小骨(锤骨、砧骨和镫骨)而传达到耳蜗。耳蜗内的听觉感受器将振动转换成神经冲动,通过听神经将冲动传导到大脑皮层的听觉中枢,最终形成听觉。2)听觉的阈限

听觉的阈限是人的听觉系统所能感受到的最弱声音和痛觉声音的强度极限,包括频率阈限、声压阈限和声强阈限。-5-122

一般说来,频率为20Hz、声压为2×10Pa、声强为10W/m的声音为听阈声音,低于这些值的声音不能产生听觉;痛阈声音的频率2为20000Hz,声压为20Pa,声强为10W/m。人的听觉范围就是听阈与痛阈之间的声音。阈限以外,人耳的感受性能降低,以致不能产生听觉。3)听觉的属性

音量、音调、音色被称为听觉的属性,用来描述声音的效果。音量的大小跟声源的振幅和距离声源的远近有关,音调的高低是由声源振动频率决定的,音色的区别取决于声波频谱的不同。(1)音量

音量,又称响度,是指人耳对声音强弱的主观感觉。为了确定某一声音使人的听觉系统感觉响度的强弱,最简单的办法是把它和另外一个标准声音进行比较。

对某两种声音来说,如果它们的频率和声压级不同,人们就感到它们的响度不一样;如果它们的频率不同,即使声压级相同,人耳感觉的响亮程度也不同。例如,空压机和电锯同样发出10dB声压级的噪声,可是听起来电锯声要比空压机声响得多,就是因为空压机辐射的是低频噪声,而电锯声属于高频噪声。

响度用N表示,单位为宋(Sone)。频率为1000Hz,声压级为40dB的纯音(指单一频率的声音)的响度为1宋。声音听起来比这一声音大n倍,就说该声音的响度为n宋。

响度级也是建立在两个声音主观比较的基础上,表示声音响度的相对量,用L表示,单位是方(Phon)。选择1000Hz的纯音作基准n音,若某一声音听起来与该纯音一样响,则该声音的响度级在数值上就等于这个纯音的声压级(dB)。例如,某声音听起来与声压级为80dB、频率为1000Hz的纯音一样响,则该声音的响度级就是80方。由响度级的定义,我们不难看出:对1000Hz的纯音,其以分贝计的声压级和以方计的响度级在数值上是相等的。

响度级与响度的关系为:L=40+10logN。通过公式可知n240Phon为1Sone,50Phon为2Sone,60Phon为4Sone,70Phon为8Sone……响度级每增加10方,响度增加1倍,即人感觉到的声音响度增加1倍。等响曲线参见图1-2。图1-2 等响曲线

取1000Hz的某个声压级为基准,把听起来和它同样响的其他频率的纯音的各自声压级连起来构成一条曲线,被称为等响曲线,如图1-2所示。其中每一条曲线相当于频率和声压级不同而听起来响度相同的声音,即具有同一响度级的声音。从等响曲线可以看出,人耳对高频声敏感,而对低频声不敏感。如70Phon的响声,对100Hz的声音来说,声压级是76dB,对1000Hz是70dB,对4000Hz是62dB,但它们都是在70Phon的曲线上,听起来一样响。

通常认为,对于1000Hz的纯音,0~20dB为宁静声,30~40dB为微弱声,50~70dB为正常声,80~100dB为响音声,110~130dB为超响声。人耳对1000~5000Hz之间的声音最敏感,幅度很小的声音信号都能被人耳听到,而在低频区(如小于800Hz)和高频区(如大于5000Hz)人耳对声音的灵敏度就要低得多。响度级较小时,高、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。通常200~3000Hz语音声压级以60~70dB为宜,频率范围较宽的音乐声压以80~90dB最佳。(2)音调

音调是人耳对声音高低的主观感受,它由声波的频率所决定。频率越高,音调越高。频率增加一倍,声学中称之为增加一个“倍频程”,音乐上叫“提高一个八度”。

在20~20000Hz的声频范围内,强度足够大的纯音信号均可以诱发出音调。当我们感觉某个声音的音调很低时,表示该声音的频率比较低,同样,当我们感觉某个声音的音调很高时,表示该声音的频率比较高。一般来说,儿童说话的音调比成人的高,女子声音的音调比男子高。在小提琴的四根弦中,最细的弦,音调最高;最粗的弦,音调最低。在键盘乐器中,靠左边的键音调低,靠右边的键音调高。

量度音调的单位是美,符号为“mel”。通常定义响度为40方、频率为1000Hz的纯音的音调为1000美。由此推算,若某个声音产生比1000美高1倍的音调,则这个声音的音调是2000美。

音调和频率都是对声音属性的描述。频率从物理特性来描述声音的属性,是一种客观描述。音调从主观感觉来描述声音的属性,是一种主观描述,而是概括了某种声音的特性,不如用频率来评价声音更为精准。(3)音色

音色是声音的特色。声学中,单一频率的音称为纯音(或单音),它的特点是只有单一的音调。现实中,由于声源的不同,声音不会只是纯音,而是多种频率声音的复音。复音中的最低频率的声音称为基音,比基音音调高的成分称为泛音。

每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随。正是这些泛音决定了其不同的音色,使人能辨别出不同的乐器甚至不同的人发出的声音。笛子的声音清脆,小提琴的声音悠扬,小号的声音激昂,女高音嘹亮柔美,男高音宏伟高亢,就是由于音色不同使然。4)听觉的效应(1)双耳效应

当声源偏离两耳正前方的中轴线时,声源到达左、右耳的距离存在差异,这将导致到达两耳的声音在声级、时间、相位上存在差异。这种微小差异被人耳的听觉所感知,传导给大脑并与存储在大脑里已有的听觉经验进行比较、分析,得出声音方位的判别,这就是双耳效应。

目前,剧场观众厅扩声系统中的扬声器方位倾向于配置在台口上方,也是考虑到人耳左右水平方向的分辨能力远大于上下垂直方向而确定的,从而克服了过去把扬声器组配置在台口两侧所造成部分听众感到声音来自侧向的缺陷,避免使听众明显地感到扬声器发出的声音与讲演者的直达声来自不同的方向。

自然界发出的声音是立体声,但我们如果把这些立体声经记录、放大等处理后重放时,而所有的声音都从一个扬声器放出来,这种重放声(与原声源相比)就不是立体的了。这时由于各种声音都从同一个扬声器发出,原来的空间感(特别是声群的空间分布感)也消失了。

如果从记录到重放整个系统能够在一定程度上恢复原发声的空间感(不可能完全恢复),那么,这种具有一定程度的方位层次等空间分布特性的重放声,称为音响技术中的立体声。

利用双耳效应,我们可以通过录音技术录下声响,用两个或几个音箱播放出来,使人们听起来好像音箱之间有一个声源在发声,这个假想的、实际上不存在的声源就叫做“声像”。立体声的优点不仅仅是有真实感、临场感、空间感,而且由于把声像分离或改变了位置,就会使人的听觉具有层次感,而且可以压低噪声。(2)哈斯效应

哈斯(Haas)通过实验证明:两个同声源的声波若到达听音者的时间差在5~35ms以内,人无法区分两个声源,给人以方位听感的只是前导声(超前的声源),滞后的声源好似并不存在;若延迟时间在35~50ms时,人耳开始感知滞后声源的存在,但听感做辨别的方位仍是前导声源;若时间差大于50ms时,人耳便能分辨出前导声与滞后声源的方位,即通常能听到清晰的回声。哈斯对双声源的不同延时给人耳听感反应的这一描述,称为哈斯效应(Haas effect)。这种效应有助于建立立体声环境。

在一般剧场扩声设计中,为了提高声场的均匀度和利用扬声器的方向性来提高系统的传声增益,通常将主扬声器设置在舞台台口的上方,此时观众席的前排观众就会感觉到声音是从舞台台口的顶部传来的,造成声像的不统一。为了解决这个问题,有时会在舞台两侧较低的位置,甚至在乐池栏板上布置一些辅助扬声器,这些扬声器距离前排观众很近,其声音比顶部扬声器先到达前排观众,根据哈斯效应原理,可以校正扩声系统的声像问题。(3)掩蔽效应

当两个声源出现时,其中一个声源会影响人耳对另一个声源的听觉能力,即一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响,这一现象称为掩蔽效应。

在掩蔽情况下,提高被掩蔽音的强度,使人耳能够听见时的听阈称为掩蔽听阈。被掩蔽音必须提高的分贝值称为掩蔽量(阈移)。噪声对声音的掩蔽与噪声的声压及频率有关,当噪声的声压级超过语言声压级20~25dB时,语言将完全被噪声掩蔽。被掩蔽声的频率接近掩蔽声的频率时,掩蔽效应最明显;低频对高频的掩蔽效应较大,反之则较小。

应当注意到,由于人的听阈复原需要经历一段时间,掩盖声去掉以后,掩蔽效应并不会立即消除,这个现象称为残余掩蔽或听觉残留,其量值可代表听觉的疲劳程度。掩盖声也称疲劳声,它对人耳刺激的时间越长、越强,则疲劳程度越高。所以在设计扩声系统时,应尽量避免声音的掩蔽效应,以保证声音信号的正确传播。(4)德波埃效应

德波埃效应(D.Poher effect)是双声道放声系统的一个效应,指在距离立体声声源相等的对称线上,与听音者中轴左右对称的两个声源间的声压差和时间差均为零时,声像位于中轴线,感觉只有一个声源。当时间差为零,声压差逐渐增大时,声像朝向声音较强的声源方向移动;当声压差大于15dB时,声像与较响的声源完全重合。当音量差为零,时间差改变时,则声像向先到达的声源方向移动;当时间差大于3ms时,声像与前导声源完全重合。

二、音频录放技术

音频的录放技术是指声音信号用不同的记录技术录制在某种介质上,并可以在不同场合不同时间进行重放的技术。一个多世纪以来,音频技术先后经历了机械录放、电磁录放的模拟时代,目前正全面进入数字时代。1.机械录放音

1877年,爱迪生从电话传话器里的膜片会随着说话声而振动的现象得到启发,研制出一台由小针、圆筒、摇柄、喇叭和膜片组成的留声机(参见图1-3)。其制作方法是用锡箔卷在刻有螺旋槽纹的金属圆筒上,让小针的一头轻擦着锡箔转动,另一头和喇叭连接。说话的快慢高低能使小针产生相应的不同颤动。而反过来,这种颤动也一定能发出原先的说话声音。大约10年后,爱迪生进一步改进了原有的装置,把圆筒和摇柄改进成类似时钟发条的装置,形成由马达带动圆盘转动的式样,留声机才步入实用阶段。图1-3 爱迪生发明的留声机

录音机的真正流行和实际应用还是在发明磁带以后。1936年德国科学家弗里奥默发明了代替钢丝的磁带。这种磁带是以纸带和塑料袋作为带基。带基上涂有四氧化三铁粉末,并用化学胶体粘在一起。在磁场的作用下,所有的颗粒会按一定的方向排列起来。这就是现代磁带的雏形。由于磁带重量较轻,价格适中,携带方便而且有韧性,便于剪切,很快就被推广起来。

录音磁带是录音信号的记录和存储的载体。磁带一般由两层构成:上层是磁性层,以剩磁形式保存声音电信号;下层是带基,由聚酯材料做成,具有一定的抗拉伸能力。录音磁带结构如图1-4所示。图1-4 录音磁带结构(1)电磁录放装置

磁带录音装置一般由磁头、机械传动(称为“机芯”)机构和电路三部分组成。1)磁头

磁头即电磁换能器,是磁性录音装置的关键部件,它的作用是在录音和放音过程中完成电能与磁能的相互转换。磁头的主体部分是一个由铁磁材料做成的环形铁芯,铁芯上开有一个很窄的缝隙,称为工作缝隙。铁芯上还绕有线圈。当线圈中通有交变电流时,在缝隙处会产生变化的磁场。磁带录音原理图如图1-5所示。

根据功能不同,磁头可分为消音磁头、录音磁头、放音磁头;按声迹可分为单迹、双迹、四迹或多迹。单放机只有单迹或双迹放音磁头;家用录音装置录、放音常共享一个单迹或双迹磁头;四迹或多迹磁头则多见于专业录音装置中。

在录、放音过程中,磁带在机芯的驱动下,匀速通过磁头并检测出感应电压,记录下剩磁信号。2)机械传动机构

磁带录音装置的机械传动部分(机芯)由驱动、制动机构(倒带马达、压带轮、主导电机和卷带马达等)和各种功能操作机构组成。其作用是让磁带以恒定匀速通过磁头,以适当的拉力与反拉力使磁头、磁带紧密接触,按需要的速度把磁带卷绕在传、收带盘上。主导电机是机械传动的核心,磁带被压带轮(橡皮小胶轮)紧压在主导轴上,主导轴转动时,磁带靠主导轴和压带轮之间的摩擦力驱动,以与主导轴一致的线速度运行。磁带录音机的基本结构如图1-6所示。图1-5 磁带录音原理图图1-6 磁带录音机的基本结构

机械系统虽然没有直接参与磁-电转换,它却为电-磁-电转换提供了时间-空间条件,因而在录音机中也属于关键部分。录音机质量的好坏在很大程度上取决于机芯,机械传动机构的转速、晃抖都会影响带速的恒定,从而影响录音和重播音质的效果。3)电路

磁带录音装置的电路部分由录音放大补偿电路、超音频振荡器、放音补偿均衡电路和一些特殊功能电路组成。

在实际录音和放音过程中,存在着许多各种各样的损失。如磁头涡流损失、缝隙损失、磁带自消磁损失等。这些损失造成了录、放音高频部分的失真。如果不加均衡措施,最终的放音效果必然很差。

克服录、放频响不平直的方法,是在录放音放大电路中加入均衡网络,对实际输出特性曲线进行校正。这种校正就称为频率均衡或频率补偿。根据录、放音的不同频响特性,录音时主要对高频段做补偿,放音时主要对低频段做补偿,并适当补偿高频。(2)电磁录放音原理

电磁录音技术将声音电信号通过磁头装置转换成变化的磁场,并以剩磁的形式保存在磁带上;重放时再通过磁头装置将磁带上的剩磁信号转换成声音电信号。1)录音原理

录音是将声音电信号以剩磁的形式保存在磁带上。录音时,将经过处理的声音电信号送到磁头线圈上,此时会在铁芯中产生相应的磁力线,该磁力线在缝隙处会形成一个空间磁场,其强度和方向随着线圈中电流的变化而变化。录音时磁带要匀速通过磁头缝隙。因为磁带上的磁粉是非常微小的颗粒,形成了无数个微小的微段,每个通过磁头缝隙的磁带微段都将被磁化,而当这一微段离开缝隙时就会留下相应的剩磁信号。剩磁的强度和方向与送入线圈中的声音电信号相对应。当磁带不断地移动时,声音信号也就不断地记录在磁带上,形成磁迹(声迹)。2)放音原理

放音是将磁带上保存的剩磁信号还原成相应的声音电信号。放音时磁带要紧贴磁头工作缝隙并匀速通过,其速度应与录音时相同。磁带各个微段上的剩磁信号就相当于一个个小磁铁,向周围空间辐射磁力线。当某个微段经过磁头的工作缝隙时,该微段产生的磁力线就会从缝隙处进入磁头铁芯。由于各个微段的剩磁信号强度不一样,所以当磁带连续通过磁头缝隙时,铁芯中就会产生变化的磁通,于是磁头线圈中就会感应出相应的电流。该电流经处理和放大后,即可由扬声器变成声音信号。2.数字录放音

声音是由声源的机械振动引起的。扬声器把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号,进行存储和处理。

模拟音频有很多弊端,如抗干扰能力差,容易受机械振动、模拟电路的影响产生失真,远距离传输受环境影响较大等。数字音频是采用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术。与模拟音频相比,数字音频具有抗干扰能力强、压缩比率精度高、存储传输方便、编辑加工灵活性强等优点。随着大规模集成电路以及信息技术的飞速发展,数字音频技术已取代传统的模拟音频技术。1)数字录放载体

通常采用光盘作为数字录放音的载体。光盘可以是激光唱片(Compact Disc,CD)、影音光碟(Video Compact Disc,VCD)、数字多功能光盘(Digital Versatile Disc,DVD)和蓝光光碟(Blue-ray Disc,BD)等。随着计算机、服务器存储空间的提升,数字录音越来越普遍的做法是把音频直接记录到计算机或服务器的硬盘(Hard Disc)上。传输和传播既可以通过网络也可以通过移动存储设备(如U盘、移动硬盘等)进行。2)数字录放原理

数字音频录放设备实际上就是一个数字信号处理系统。从自然界获得的声音通常为模拟音频信号,当用数字信号处理系统对其进行处理时,需要首先将模拟信号转换为数字信号,即A/D转换。经处理之后的数字信号通常也需要再转换为模拟信号才能最终还原播出,即D/A转换。因此,一般的数字信号处理系统主要包括前置低通滤波器、模/数(A/D)转换器、数/模(D/A)转换器、模拟低通滤波器等(参见图1-7)。图1-7 数字录放音原理(1)前置低通滤波器主要是将输入信号中高于某一频率(即取样频率的一半)的频谱分量滤除,以保证取样后不发生频谱重叠。(2)A/D转换器对滤波之后的模拟信号进行取样、量化和编码,将模拟信号转换为数字信号。在数字音频技术中,根据需求不同,通常使用以下几种取样频率:32kHz(用于数字卫星广播);44.1kHz(用于CD);48kHz(用于演播室)。量化比特数有16bit、20bit和24bit等几种。编码方式一般为PCM码。(3)数字信号处理器对数字信号按预定要求进行各种处理,包括滤波、变换、检测、谱分析、估计、压缩、识别等,以便获得人们所希望的信号,达到提取信息、便于利用的目的。数字信号处理器可以是数字计算机或微处理器,通过软件编程对输入信号进行预期的处理,即软件实现方法。另外,数字信号处理器也可以是由数字硬件组成的专用处理器,或者是专用或通用的数字信号处理芯片(DSP芯片),即硬件实现方法。(4)D/A转换器将处理之后的数字信号转换成模拟信号。(5)模拟低通滤波器滤除信号中不需要的高频分量成分,平滑成所需的模拟输出信号。

三、数字音频的编码

1.A/D转换

模拟的电信号变为数字电信号这一过程称为模拟信号数字化,即模/数转换(A/D)。A/D转换通常采用PCM(脉冲编码调制)技术来实现。A/D转换过程包括三个阶段,即取样、量化、编码。下面分别对其进行介绍。1)取样

取样也叫采样,是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本,把连续的模拟量用一个个离散的点来表示,使其成为时间上离散的脉冲序列。显然,取样点需要足够密集,才能很好地表达原始模拟信号的特征。

每秒钟取样的次数称为取样频率或取样率,用f表示;样本之间s的时间间隔称为取样周期,用T表示,T=1/f。比如,CD的取样率sss为44.1kHz,表示每秒钟取样44100次。2)量化

所谓量化,就是量度采样后的离散信号幅度的过程,量度结果用二进制数来表示。量化精度就是量度时分级的多少。

模拟信号通过取样会变成一个时间上离散的脉冲样品序列,但在电平幅度上仍会在其动态范围内有连续变化,即可能出现任意幅值。因此,需要进一步用有限个电平等级来代表实际量值。这一电平等级也称为量化等级(M)。量化时每个幅度值通常用与之最接近的量化等级取代,因此,量化之后,连续变化的电平幅值就被有限个量化等级所取代。所以量化就是在幅度轴上将连续变化的幅度值用有限个位数数字表示,将信号电平的幅度离散化。3)编码

取样、量化后的信号还不是数字信号,需要把它转换成数字编码脉冲,这一过程称为编码。最简单的编码方式是二进制编码,即将已经量化的信号幅值用二进制数码表示。编码之后,每一组二进制数码代表一个取样值的量化等级。二进制数码中的每一位为一个比特(bit)。具体来说,就是用n比特二进制码来表示已经量化了的样值,每个二进制数对应一个量化值,然后把它们排列,得到由二值脉冲组成的数字信息流。编码过程在接收端,可以按所收到的信息重新组成原来的样值,再经过低通滤波器恢复原信号。用这样方式组成的脉冲串的频率等于抽样频率与量化比特数的积,称为所传输数字信号的数码率。显然,取样频率越高,量化比特数越大,数码率就越高,所需要的传输带宽就越宽。

编码可以按照不同的方法进行,PCM(脉冲编码调制)系统常用的码型有自然二进制代码、格雷码和折叠二进制代码等。图1-8编码示意图采用自然二进制代码对脉冲序列的量化过程中的两种量化结果进行了编码。图1-8 脉冲序列的量化

当量化比特数为2(即量化等级为4)时,每一个量化的样值用2比特一组的“0”、“1”数字表示,如图1-8中,2用“10”表示,3用“11”表示。

当量化比特数为3(即量化等级为8)时,每一个量化的样值用3比特一组的“0”、“1”数字表示,如图1-8中,0.5用“001”表示,1用“010”表示。

除了上述自然二进制码外,还有其他形式的二进制码,如格雷码和折叠二进制码等。表1-1列出了这三种二进制码的量化电平。这三种码各有优缺点:①自然二进制码和二进制数一一对应,简单易理解。它是权重码,每一位都有确定的大小,可以直接进行大小比较和算术运算。自然二进制码可以直接由数/模转换器转换成模拟信号,但在某些情况,例如从十进制的3转换为4时二进制码的每一位都要变,使数字电路产生很大的尖峰电流脉冲。②格雷码则没有这一缺点,它在相邻电平间转换时,只有一位数据发生变化。格雷码不是权重码,每一位码没有确定的大小,不能直接进行比较大小和算术运算,也不能直接转换成模拟信号,要经过一次码变换,变成自然二进制码。③折叠二进制码沿中心电平上下对称,适于表示正负对称的双极性信号。它的最高位用来区分信号幅值的正负。折叠二进制码的抗误码能力较强。表1-1 二进制码量化电平

数码率又称做比特率,是单位时间内传送的二进制序列的比特数,通常用Kb/s作为单位。数码率与取样频率和量化比特数之间的关系为:数码率=取样频率(f)×量化比特数(n)s

例如,声音信号的取样频率f=48kHz,量化比特数n为16bit,则s每声道的数码率为:348×10×16=768Kb/s

对于双声道立体声数字信号,其总数码率为:2×768=1536b/s=1.536Mb/s

由此,声音的三个要素(音量、音调、音色)可以由传声器转变成相应的电流的三个特性(幅度、频率、波形)。2.压缩编码

在对数字音频信号进行存储和传输时,通常要对其进行压缩编码和纠错编码。压缩编码的目的是降低数字音频信号的数据量和数码率,以提高存储和传输的有效性;纠错编码的目的是为信号提供纠错检错的能力,以提高存储和传输的可靠性。由于压缩编码一般都是在整个系统的信号源端进行,因此也称其为信源编码,而纠错编码一般在信道端进行,因此也称其为信道编码。下面主要对信源编码部分进行介绍。1)压缩

数字音频是对模拟声音信号每秒上千次的采样,然后把每个样值按一定的比特数量化,最后得到标准的数字音频的码流。对CD音质的信号来讲,每秒要进行44100次的采样,每个样值是16比特的量化,而立体声CD 音质信号,其每秒的码流是44.1K×16×2≈1.4Mb/s。这样高的码流和容量,对于数字音频的存储、处理和传输提出了很高的要求。对音频的压缩理论研究,是从研究人耳的听觉系统开始的。其第一个特点是人耳对各频率的灵敏度是不同的,在2k~4kHz频段,很低的电平就能被人耳听到,而对于其他频段,相对要高一点的电平才能被听到,由此可将听觉阈值以下的电平去掉,从而压缩数据。第二个特点就是频率之间的掩蔽效应,其实就是指人耳接收信号时,不同频率之间的相互干扰。当电平高的频率点和电平相对较低的不同频率点同时出现时,电平低的频率点的声音将不被听到。因为人耳的灵敏度不一样,所以不同频率点的掩蔽程度是不一样的。由此对于低于掩蔽阈值的信号不进行编码,对高于掩蔽阈值的信号重新分配量化比特值,以实现压缩数据。这是MPEG能得到较高的压缩比,又能保证音质的重要原因。第三个特点是指短暂掩蔽效应,指在一个强信号之前或之后的弱信号,也会被遮蔽掉。这样利用人耳的感觉特性,对数据流本身进行压缩,做到既能降低码流,又能通过科学的压缩方法提高码流的效率,而又不影响音质本身。完全了解了人耳的特性后,就会知道人耳实际上可看成一个多频段的听感分析器,在接收端的最后,它对瞬间的频谱功率进行了重新分配,这就为音频的数据压缩提供了依据。2)编码

国际音视频编码标准主要有三种,即国际标准化组织(ISO)制定的MPEG系列标准、国际电信联盟(International Telecommunications Union,ITU)针对H.26x多媒体通信制定的G.7系列音频编码标准以及美国高级电视业务顾问委员会(Advanced Television Systems Committee,ATSC)与杜比公司制定的Dobly AC-3标准。(1)MPEG音频编码标准

1988年,国际标准化组织(ISO)和国际电工技术委员会(IEC)建立了在信息技术领域的联合技术委员会,该委员会的第11工作组称为活动图像专家组(Moving Picture Experts Group,MPEG),负责起草制定数字音频、视频信号的国际编码标准。到目前为止,已先后公布了MPEG-1、MPEG-2和MPEG-4等标准。

①MPEG-1音频编码标准

MPEG-1音频编码标准于1992年11月被公布。其中ISO 11172-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准,一般称为“MPEG-1音频”。MPEG-1音频的第一层次和第二层次编码是将输入音频信号进行采样频率为48kHz、44.1kHz、32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽阈限,选择各子带的量化参数,从而获得较高的压缩比。MPEG-1第三层次是在上述处理后再引入辅助子带,使用非均匀量化和熵编码技术进一步提高压缩比。MPEG-1音频压缩编码规格及应用参见表1-2。表1-2 MPEG-1音频压缩编码规格及应用

②MPEG-2音频编码标准

MPEG-2音频编码标准于1994年11月被公布。MPEG-2音频编码标准是对MPEG-1音频编码标准的发展和扩展。其发展和扩展表现在两方面:一是低取样频率(LSF)和低比特率编码;二是多声道环绕声编码和多语言节目编码。即BC和AAC两种。

MPEG-2 BC音频编码标准是多声道声音开发的低码率方案。它在MPEG-1的采样基础上增加了16kHz、22.05kHz、24kHz三种采样频率;与MPEG-1 音频标准兼容,都使用相同种类的编译码器,层-1(Layer 1)、层-2(Layer 2)和层-3(Layer 3)的结构也相同。但MPEG-2 BC音频标准扩展了编码器的输出速率范围,由32~384Kb/s扩展到8~640Kb/s;增加了声道数,支持5.1声道和7.1声道的环绕声;支持线性PCM(PCM Linear)和杜比AC-3(Dolby AC-3)编码。表1-3所示为MPEG-2 BC音频标准与其他音频编码标准的技术数据对比。表1-3 MPEG-2 BC音频标准与其他音频编码标准的技术数据对比

MPEG-2 AAC音频编码标准追求低码率下的高音质,不向下兼容,采用高压缩率的模块化编码方法,采样率为8kHz ~96kHz,压缩比高达11。MPEG-2 AAC可以支持1~48路之间任意数目的音频声道组合,可同时传送16套节目,每套节目的音频数据结构可以任意规定。因此,它在数字音频广播、卫星直播、数字电视及影院系统等方面应用广泛。

③MPEG-4音频编码标准

MPEG-4音频编码标准于1999年正式公布实施。MPEG-4音频编码标准针对不同的应用和信号的具体特点,提供相应有效的编码算法,其目标是提供交互型多媒体应用。

MPEG-4 Audio标准可集成从话音到高质量的多通道声音,从自然声音到合成声音。编码方法包括参数编码(parametric coding,PC)、码激励线性预测(code excited linear predictive,CELP)编码、时间/频率(time/frequency,T/F)编码、结构化声音(structured audio,SA)编码和文本-语音(text-to-speech,TTS)系统的合成声音等。

MPEG-4声音编码器支持数据率介于2Kb/s和64Kb/s之间的自然声音(natural audio)。为了获得高质量的声音,MPEG-4定义了以下三种类型的声音编码器,分别用于不同类型的声音。 参数编码器:使用声音参数编码技术。对于采样率为8kHz的语

音(speech),编码器的输出数据率为2Kb/s~4Kb/s;对于采样

频率为8kHz或者16kHz的声音(audio),编码器的输出数据率为

4Kb/s~16Kb/s。 CELP编码器:使用CELP技术。编码器的输出数据率在6Kb/s~

24Kb/s之间,它用于采样频率为8kHz的窄带语音或者采样频率

为16kHz的宽带语音。 T/F编码器:使用时间-频率技术。这是一种使用矢量量化(vector quantization,VQ)和线性预测的编码器,压缩之后输出

的数据率大于16Kb/s,用于采样频率为8kHz的声音信号。

MPEG-4的译码器还支持MIDI合成乐音和TTS声音(文-语转换)。

图1-9所示为MPEG-4音频编码示意图。图1-9 MPEG-4音频编码示意图(2)H.26x系列和G.7系列音频编码标准

国际电信联盟(ITU)的前身为国际电报电话咨询委员会(the International Consultative Committee on Telephony and Telegraphy,CCITT),自20世纪70年代开始陆续推出应用于通信业务的音频编码系列,即H.26x和G7系列音频编码标准,具体如下。

①1972年推出了G.711 A律 PCM 编码标准。

②1984年推出了G.721自适应差值脉冲编码ADPCM,G.722推出子带ADPCM编码标准,采用多脉冲最大似然量化技术(MP-MLQ)的G.723.1代数码激励线性预测编码标准ACELP和G.726嵌入式ADPCM编码标准。

③1990年推出了G.727 嵌入式ADPCM标准。

④1992年推出了G.728 短延时代数码激励线性预测编码标准LD-ACELP和 G.729共轭结构代数码激励线性预测编码标准CS-ACELP。

常用H.26x和G7系列各类音频编码标准及应用如表1-4所示。表1-4 常用H.26x和G7系列各类音频编码标准及应用

20世纪70年代CCITT公布的G.711采用PCM(脉冲编码调制),使用A律和μ律量化,将13位PCM码按A律、14位PCM码按μ律转换8位编码。其特点是算法复杂度低,压缩比小,编解码延时最短(相对其他技术),但占用的带宽较高,音质一般。主要应用领域为早期的电话行业。

G.721标准是一个代码转换系统。它使用ADPCM(自适应差值量化)转换技术,实现64Kb/s A律或μ律PCM速率和32Kb/s速率之间的相互转换。相对于PCMA和PCMU,其压缩比较高,可以提供2∶1的压缩比,压缩比大,音质一般。主要应用领域与G.711相同。

G.722标准采用SB-ADPCM(子带自适应差值量化)技术,其特性为能提供高保真的语音质量,音质好,带宽要求高。主要应用领域为VOIP(Voice over Internet Protocol),即以IP电话为代表的互联网语音通信领域。

G.723语音编码器是一种用于多媒体通信、编码速率为5.3Kb/s和6.3Kb/s的双码率编码方案。其中,5.3Kb/s码率编码器采用MP-MLQ(多脉冲激励似然量化技术);6.3Kb/s码率编码器采用ACELP(代数码激励线性预测技术)。其特点是音质较好,码率低,带宽要求较小,性能稳定。可以应用于H.323等多媒体通信和IP电话等系统中,目前该算法已成为IP电话系统中的必选算法之一。

G.728标准采用LD-ACELP(短延时代数码激励线性预测)技术。它是一种低时延编码器,但比其他编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。可以用于IP电话、卫星通信、语音存储等多个领域。

G.729标准采用CS-ACELP(共轭结构代数码激励线性预测编码)技术,这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术,提供了对帧丢失和分组丢失的隐藏处理机制。G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,点到点的时延为25ms,比特率为8Kb/s。其语音质量良好,应用领域很广泛,通常用于IP电话、无线通信、数字卫星系统和数字专用线路。(3)杜比AC-3音频压缩编码

杜比AC-3是美国高级电视业务顾问委员会(Advanced Television Systems Committee,ATSC)制定的HDTV声音系统数据压缩标准。AC-3标准规定的取样频率为48kHz(也支持44.1kHz和32kHz),其编码器最多可接收5.1声道的PCM信号,即左(L)、中(C)、右(R)、左环绕(LS)、右环绕(RS)5个全带宽(20Hz~20kHz)声道和1个频宽仅为20~120Hz的超低音声道(通常称该增强低音效果的声道为0.1声道,即LFE声道)。经编码后的数据率可由大约5Mb/s(6×48kHz×18bit=5.184Mb/s)降低为384Kb/s,其数据率范围在32Kb/s~640Kb/s。杜比AC-3主要是为HDTV的5.1声道设计的,同时也支持双声道和单声道。

四、音频系统的构建

音频系统或音频环境的构建包括两个方面,即记录采集(录音)和扩声回放(放音),下面以数字音频系统为例进行介绍。1.音频信号的记录与采集

当前数字音频的记录通常有两种方案可选:一种是以数字调音台为中心,即以多轨硬盘录音机和其他数字周边辅助设备构成的录音系统;另一种是以计算机工作站为中心,即以录制软件和数字接口及各种效果插件构成的音频工作站录音系统。前者的优点在于操作直观明了,基本沿袭了模拟时代录音师的工作模式,缺点在于编辑处理功能受限。后者的优点在于编辑功能强大,利于普及推广,但系统的处理效果和稳定性不如前者。

数字音频记录采集设备实际上就是一套数字信号处理系统。从自然界获得的声音通常为模拟音频信号,当用数字信号处理系统对其进行处理时,需要首先将模拟信号转换为数字信号,即A/D转换。A/D转换的过程和原理已经在前文做了介绍,此处不再赘述。2.音频信号的传输与回放

音频信号有两种传输方式,即对地平衡式与非平衡(单端接地)式。平衡式的信号传输线路不易受外界交流声、其他串音和电器设备噪声等干扰。非平衡式则易受干扰,所以在专业领域一般都采用平衡式传输。在工程中考虑到成本问题,也会相对选用一些民用级设备,它们大多都采用非平衡式传输。在阐述音频信号传输前,我们先介绍一下音频接口。1)音频端口(1)模拟音频接口

在专业扩声系统中,常见的音频接口有线路(Line)、话筒(Mic)、耳机(Phone)和扬声器(SP)等。

①线路接口

线路接口是视音频设备互联时使用最多的音频接口,分为专业设备线路接口和非专业设备线路接口,其基本特性如下。

a.输入接口。输入接口的额定输入电平为0dB或+4dB,最大输入电平为+20dB或+24dB,输入阻抗为600Ω或≥5kΩ(有的可达40kΩ~50kΩ),传输方式多为平衡传输。

b.输出接口。输出接口的额定电平为0dB或+4dB,最大输出电平为+20dB或+24dB,阻抗为600Ω或≤200Ω,传输方式多为平衡传输。

②话筒接口

话筒接口用于话筒与调音设备之间的连接,其额定信号电平为-70dB~-20dB,输入阻抗为600Ω或≥1kΩ(对应于低阻话筒)和20kΩ~50kΩ(对应于高阻话筒)。传输方式分为专业的平衡传输和业余的非平衡传输。

③耳机接口

耳机接口用于音视频设备与头戴耳机之间的连接。其基本特性为:输出阻抗在额定频率范围内不大于额定负载阻抗(8Ω、50Ω、300Ω、2kΩ等)。额定输出功率≤100mW。

④扬声器接口

扬声器接口用于音频功率放大器与扬声器之间的连接。其基本特性为:输出阻抗在额定频率范围内不大于额定负载阻抗的1/3,额定负载阻抗有4Ω、8Ω、16Ω、32Ω(按设备指明的负载阻抗配接可获得最大的输出功率,但不得小于该负载阻抗值,否则,会烧毁功率放大器)等。(2)数字音频接口

①XLR接口

专业数字音频接口是用来定义两个数字音频设备之间的数字接口协议的界面标准格式。

由AES/EBU(美国音频工程协会/欧洲广播联盟数字格式,AES3—1992)推出的专业的平衡XLR标准,属平衡式结构。输出电压是2.7Vpp(发送器负载为110Ω),输入和输出阻抗为110Ω(0.1MHz~6MHz频宽)。AES/EBU输入和输出是用平衡插座来进行连接的,由于采用了平衡传输,使数字信号的干扰降低了许多,这样信号更加纯净,从而听感比同轴传输好,主要表现在动态凌厉和背景更静。

②HDMI接口

高清多媒体接口(high definition multimedia interface,HDMI)是一种数字化音频接口技术,最高数据传输速度为5Gb/s。它除了具有较高的视频信号带宽之外,HDMI还在协议中加入了对音频信号传输的支持,形成了业界首个单线缆多媒体接口协议。HDMI的音频信号不占用额外的通道,而是和其他辅助信息一起组成数据包,利用3个TMDS通道在视频信号传输的消隐期,以岛屿数据的形式传送。即使在传输1080p(60Hz)的视频信号的时候,还可以提供最高8路、每路采样频率为192kHz的高质量音频信号。相比之下,CD音频制式44.1kHz的2声道信号,以及最新的DVD Audio音频格式96kHz的6声道信号,就相形见绌了。HDMI支持的数字音频格式有CD级16位@32、44.1kHz、48kHz数字音频,DVD-Video级八通道数字音频@96kHz和DVD Audio级一通道的24位@192kHz数字音频,并支持Dolby Digital(杜比数码音效)/DTS(数码环绕音效)数字音频格式。2)音频信号的传输(1)平衡传输

平衡与非平衡是指音频信号传输的两种不同类型。平衡传输线里有三芯,其中一芯传输正半波(+)信号,还有一芯传输的是负半波(-)信号,最后一芯是地线。一般串进电缆或设备的噪声会出现在正、负两端,对地电压和相位完全一样,这样的噪声被称为共模噪声。而平衡传输由于传输的是波形两端的信号差(也就是电压的差异),能够很好地抑制共模噪声,因此平衡传输具有非平衡方式不可比拟的抗干扰性能。

平衡传输是一种应用非常广泛的音频信号传输方式。它是利用相位抵消的原理将音频信号传输过程中所受的其他干扰降至最低。它需要并列的三根导线来实现,即接地、热端、冷端。所以平衡输入、输出插件必须具有3个脚位,如卡侬或大三芯插件。当然,其传输电缆也是2芯1屏蔽层的信号线,由于热端信号线和冷端信号线在同一屏蔽层内相对距离很近,所以在传输过程中受到的其他干扰信号也几乎相同。其连接原理是:由于被传输的热端信号和冷端信号相位相反(参见图1-10所示),所以在下一级设备的输入端把热端信号和冷端信号相减,相同干扰信号被抵消,被传输信号由于相位相反而不会损失。在专业的场合和传输距离比较远的时候通常使用平衡传输方法。图1-10 信号的平衡传输及其连接原理示意图

平衡传输是完美音质的一部分,而后端的电路也需要采用平衡电路设计才能完美配合平衡式传输,两者缺一不可。一个真正的平衡式电路设计,是将波形的正负半波分别用一组线路进行放大,然后耦合成为完整的波形,因此,每声道需要两组完全对称的零部件。在家用电器的连接线中,也有用两芯屏蔽线作音频连接线的,但是,它传输的是左右声道,是两个信号,不属于平衡接法。(2)非平衡传输

非平衡传输就是仅用一条信号线传送信号的连接方法。它只有两个端子:信号端与接地端。非平衡式的输入输出端口一般都使用两个脚位大两芯连接插件。通常在要求不高或近距离信号传输的场合使用,如家庭音响系统。这种连接也常用于电吉他等电子乐器。

平衡与非平衡端口之间可以采用非平衡传输的方式互通,连接方法如图1-11所示。图1-11 平衡和非平衡接口连接原理示意图

对于选择什么接法一般根据设备对接口的具体要求而定,能使用平衡接法的尽量使用平衡接法,进行连接时务必先看清面板上的说明,最好先阅读使用说明书上的有关事项。在一些场合还可能遇到一端的设备接口是平衡接口,另一端的设备是不平衡接口的情况。在要求严格的情况下,就必须使用转换电路将平衡转为不平衡,或将不平衡转为平衡。3)扩声与重放

音频系统的完整流程包括拾音、录音采集、放音、调音与音频信号处理(均衡、压限、效果、激励等)、扩声(信号放大与放声)等。目前,在音频应用环境中,扩声系统的应用越来越广泛,从广义上讲,扩声系统具体包含扩声和重放两个方面。(1)扩声系统

扩声系统是指将语言、音乐等经传声器接收,经由放大器放大,再在同一空间中由扬声器放音。一般是在容积较大或背景噪声较强的空间中使用,以弥补自然声响度不足和提高信号信噪比。会议厅、多功能厅、礼堂、剧院等即属此类。这种系统由于扬声器与话筒处于同一声场内,存在声反馈和房间共振引起啸叫、失真和振荡现象。有效地控制声反馈,充分发挥扩声系统的效能是必须解决的首要问题。(2)重放系统

重放系统是指磁带机、光盘机等声源设备的重放信号经过还音、放大后由扬声器放音。其中没有话筒,这种系统不存在声反馈问题,声反馈系数为0。电影还音、背景音乐等即属此类。

第二节 视频与视频系统

信息时代,信息与视频是密不可分的。视频(video)泛指将一系列静态影像以电信号方式加以捕捉、记录、处理、存储、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,看上去是平滑连续的视觉效果,这样连续的画面叫做视频。声-电转换是音频系统的根本,而光-电转换是视频系统的关键。光、色彩、图像的知识是视频技术的基础。

一、视觉常识

1.光与色彩

图像是人类最容易接收的信息,它具有文字不可比拟的优点。图像与光和色彩的关系密不可分。1)可见光和颜色

自然界中的可见光波是一种电磁波,其波长范围在770~350nm之间。波长不同,所引起人眼的颜色感觉不同。770~622nm,感觉为红色;622~597nm为橙色;597~577nm为黄色;577~492nm为绿色;492~455nm为蓝靛色;455~350nm为紫色。作为电磁波谱中人眼可以感知的部分,可见光在整个电磁波谱中只占极窄的一部分。可见光波在真空也能传播。电磁光谱与可见光谱参见图1-12。图1-12 电磁光谱与可见光谱

日常生活中人眼能够感知的光归纳起来有三种,即直射光、透射光和反射光。由发光体产生并直接刺激人眼而引起光感的光称为直射光,如阳光、灯光、显像管荧光屏发出的光等;发光体所发出的光照射到透明或半透明的物体上,被有选择地透过的光称为透射光,例如玻璃、滤色片、电影胶片透过的光;发光体发出的光照射到物体上,被该物体有选择地反射出来的光称为反射光,自然界中的不透明物体就是以反射光的形式为我们所看见的。(1)物体的颜色

人所感知的物体颜色取决于该物体对人眼入射光的光谱功率分布情况。自然界中的物体可以分为两大类,即发光物体和不发光物体。发光物体就是我们常说的光源,它以直射光的形式被人眼感知,因此其颜色就决定于自身的光谱功率分布。不过自然界中大量存在的是不发光物体,我们通常所说的物体颜色就是指这些不发光物体的颜色。不发光物体通过反射光或透射光被人眼感知,因此,其颜色也由反射光或透射光的光谱功率分布所决定。决定物体反射光或透射光的光谱功率分布的因素有两个:物体本身的反射特性或透射特性和照明光源的光谱功率分布。

反射特性和透射特性可分别用物体的光谱反射系数(反射率)和光谱透射系数(透射率)来表示,其数值都在0~1之间变化,用以说明物体对不同波长的光的反射能力和透射能力。例如,反射率为100%表示对所有波长的光全部反射,一点也不透射和吸收;而反射率为0则表示对所有波长的光全部透射或吸收,一点也不反射;反射率为50%则表示入射光有50%被反射,另外50%被透射或吸收。

如果照明光源本身就不包含某些光谱成分,那么物体的反射光或透射光中肯定也不会有这些光谱成分。例如,在白光照射下,蓝布因反射蓝光而呈现蓝色,而当绿光照射在蓝布上时,由于绿光中没有蓝色光谱成分,因此蓝布对入射光没有反射,只有吸收,因此呈现黑色。也就是说,在白光照射下的蓝布,在绿光照射下就成了黑布。

综上所述,不发光物体的颜色一方面取决于物体本身的反射特性或透射特性;另一方面也与照明光源的光谱功率分布有关。(2)彩色三要素

彩色三要素指的是彩色光的亮度、色调、饱和度这三个量。任何一种彩色光对人眼引起的视觉作用都可以用这三个量来描述。

亮度指彩色光作用于人眼而引起的视觉上的明亮程度。光源的辐射能量越大,物体的反射能力越强,亮度就越高。复合光的亮度等于各个分量光的亮度之和。另外,亮度还和波长有关,能量相同而波长不同的光对视觉引起的亮度感觉也不相同,这就是视敏特性。

色调指彩色的颜色类别,它是决定彩色本质的基本参量。我们通常所说的红、绿、蓝等指的就是色调。上文中所讲到的不同波长的光其颜色不同,也就是指的色调不同。发光物体的色调(即颜色)由其自身的光谱功率分布决定;不发光物体的色调由物体的反射、透射特性及照明光源的光谱功率分布决定。

饱和度是指彩色的深浅、浓淡程度。对于同一色调的彩色光,饱和度越高,颜色就越深、越浓。各种谱色光都是饱和度最高的彩色。饱和度与彩色光中掺入的白光比例有关,掺入的白光越多,饱和度就越小。因此,饱和度也称为色彩的纯度。例如,将一束饱和度很高的蓝光投射在一张白纸上,则白纸呈现深蓝色,如果再将一束白光投射到该纸上,则纸的颜色就会变浅,说明颜色的饱和度降低了。饱和度的大小用百分比衡量,100%的饱和度表示彩色光中没有白光成分,所有谱色光的饱和度都是100%;饱和度为零表示全是白光,没有任何色调。

色调和饱和度合称为色度,它既说明了彩色光的颜色类别,又说明了颜色的深浅程度。在彩色电视中,所谓传输彩色图像,实质上是传输图像中每一个像素的亮度和色度信息。2)三基色定理

实验证明,红(R)、绿(G)、蓝(B)三种不同颜色的单色光按一定比例混合,可得到自然界中绝大多数的彩色。具有这种特性的三个单色光叫三基色光,而这一发现也被总结成三基色定理,其主要内容如下。 绝大多数彩色都可以由三基色按一定比例混合而得;反之,这些

彩色也可以分解成三基色。 三基色必须是相互独立的,即其中任何一种基色都不能由其他两

种基色混合得到。 混合色的色调和饱和度由三基色的混合比例决定。 混合色的亮度是三基色亮度之和。

另外,任何一种颜色都有一个相应的补色。所谓补色,就是它与某一颜色以适当比例混合时,可产生白色或灰色。若A是B的补色,则B也是A的补色;补色是相对的,两者互为补色。

三基色定理是彩色视频图像得以实现的重要理论基础。因为自然界中的彩色是千变万化的,设想如果用一种电信号传送一种颜色,那就需要成千上万种电信号,这在实际中是办不到的。有了三基色原理,其实现只需在记录图像时将景物的各种颜色分解成红、绿、蓝三种基色,然后将这三种基色转换成相应的三种电信号传送到显示设备上,显示设备再将电信号转换成三基色光信号,最后在屏幕上用三基色混合出原景物的色彩。

利用三基色按不同的比例混合来获得彩色的方法称为混色法。混色法有相加混色法和相减混色法。相加混色是指光源色光的相互混合,彩色电视技术中就是利用相加混色法显现各种颜色的。实现相加混色的最直接方法是光谱混色法,即将三种光谱不同的基色光直接投射到一个全反射面上实现混色。另外,还可以利用人眼的视觉特性实现时间和空间上的相加混色。具体有以下几种混色方法。(1)时间混色法

这种方法是利用人眼的视觉惰性,顺序地让三种基色光先后出现在同一表面的同一点处,当三种基色光交替出现的速度很快时(交替时间间隔小于人眼的视觉残留时间),人眼产生的彩色感觉就与三种基色光直接混合时相同。时间混色法是顺序制彩色视频的基础。(2)空间混色法

这种方法是利用人眼空间细节分辨力差的特点,将三种基色光点放在同一表面的相邻处,只要这三个基色光点足够小,相距足够近,当人眼在一定距离之外观看时,就会看到三种基色光混合后的彩色光。彩色显像管就是利用这一原理,把红、绿、蓝三色荧光粉在荧光屏上排列成品字形或竖条形,在一定距离之外观看时,看到的就是其混合色。(3)生理混色法

生理混色法又称双眼混色法,其利用两只眼睛分别同时观看不同颜色的同一景物,也可以获得混色效果。在立体电视中,可以利用这一原理,使图像既是彩色的,又是立体的。(4)相减混色法

与彩色电视不同,在彩色印刷、彩色胶片和绘画中采用的是相减混色法。它是利用颜料或染料等的吸色特性来实现混色的。例如,黄色颜料吸收蓝色(黄色的补色)光,于是在白光的照射下,反射光中将因缺蓝光而呈现黄色。在相减混色法中常用黄、品红、青作为三基色,它们分别吸收各自的补色,即蓝、绿、红光。因此,相减混色法中将三基色按不同比例混合时,在白光照射下,蓝、绿、红光也将按相应比例被吸收,从而呈现各种不同颜色。3)视觉的产生

人的眼睛由眼球壁和内容物组成。眼球壁包括外膜、中膜和内膜。外膜由角膜和巩膜组成;中膜由虹膜、睫状体和脉络膜组成;内膜是含有感光细胞的视网膜。其中虹膜中央有瞳孔,瞳孔的大小可以调节,能够控制进入眼球内的光。内容物由房水、晶状体、玻璃体组成。房水是充满前房和后房的透明液体;晶状体似双凸透镜,有折光作用;玻璃体是透明的胶状物。眼睛的结构与视觉产生示意图如图1-13所示。图1-13 眼睛的结构与视觉产生示意图

眼睛是人的视觉器官。外界物体发射或反射的可见光波,透过眼睛的折光系统(由角膜、房水、晶状体和玻璃体组成),在视网膜上形成一个缩小、倒置、左右换位的物象,同时刺激视网膜的感光细胞。感光细胞在受到光刺激后,将光信号转变成生物电信号,通过视神经系统传至大脑皮层的视觉中枢(大脑半球后部的枕叶),再根据人的经验、记忆、分析、判断、识别等极为复杂的认知过程而构成视觉,从而在大脑中形成物体的大小、形状、颜色等概念。视觉产生过程的生理机制包括折光机制、感光机制、传导机制和中枢机制。

二、视频录播技术

1.模拟视频

视频系统的基本工作原理可以简单概括为:在发送端,用摄像机拍摄外界景物,经摄像器件的光电转换作用将景物内容的亮度和色度信息按一定规律变换成相应的电信号,作适当处理后记录下来或通过无线电波或有线信道传输出去;在接收端,用视频显示装置或电视接收机接收亮度和色度信息的电信号,经过显示装置的电光转换作用后,将视频信号按对应的空间关系转换成相应的景物画面,即在屏幕上重现原始景物的彩色画面。1)图像分解

视频系统处理和传送的对象是景物的图像,景物存在于三维空间,其光学特性(即景物的亮度和色度信息)不仅随空间位置的不同而不同,而且还与时间有关系(静止景物除外)。也就是说,在景物的不同位置、对应于不同时刻,都会有不同的光分布。因此,可以认为景物信息是三维空间和时间的函数,可用下列函数关系表示:

式中,t代表时间;x,y,z代表空间坐标;Φ代表空间中某点的光学特性,包括亮度和色度信息。可见,视频系统要处理和传送的信息比音频系统复杂得多。

如果能按照式(1-1)中所表达的函数关系进行图像的处理和传输,就会实现一个非常理想的视频系统,显示出三维立体空间的彩色视频图像。但是,视频显示系统仍以二维平面彩色视频图像为主,只传输景物的二维光学信息,因此式(1-1)中的z可不考虑。另外,对于黑白电视来说,景物只有亮度信息B。即式(1-1)可简化为:

其中,亮度B仍然是x,y,t的三维函数,这样的函数关系不易用一个电信号来表示,因为电信号只能是时间的一维函数。如何将景物信息转化成时间的一维函数呢?一个有效的方法是将景物分解成很多小点(单元元素),这样就能以每个小点为单位进行光电转换和传送。由于每个小点的空间位置是固定的(可由x,y坐标表示),因此,对于每个小点来说,其光学特性以及经光电转换得到的电信号就只与时间有关了。

这种将景物图像化整为零的方法称为图像的分解,分解之后的小点称为像素。

所谓像素,就是组成图像的单元元素,即基本单位,具有单独的亮度信息和空间位置。一幅电视图像由许多个像素组成,视频系统能够分解的像素数越多,图像就越清晰、细腻。

图像的分解是在摄像机的光电转换和扫描过程中完成的。在接收端,通过显示装置的扫描和电光转换作用,这些被分解的像素就会在屏幕上合成出原来的图像。2)图像传送

一幅图像由许许多多个像素组成,这些像素的亮度信息经光电转换之后变成相应的电信号。如何将这些电信号传送到接收端显示?从理论上说,有两种传送方法,即同时制传送和顺序制传送。

同时制传送是将构成一幅图像的所有像素同时转换成电信号,并同时传送出去。这种方式下每一像素需占用一个传输信道。但一幅视频图像有近50万个像素,传送一幅视频图像需要近50万个信道,这是非常不现实的。因此,同时制传送只是一种设想,并没有真正实现。

由于人眼的视觉残留特性及发光材料的余晖效应,使前一个发光像素的印象尚未消失,后一个像素又开始发光,结果给视觉造成的感觉是所有像素都同时发光,于是在发送端被分解成像素的景物图像,在接收端又被重新复合成一幅完整的图像,并不会造成顺序出现的感觉。根据这一原理,按一定顺序将一个个像素的光学信息轮流转换成电信号,用一条传输信道依次传送出去,在接收端的屏幕上再按同样的顺序将电信号在相应的位置上转换成光学信息。这就是顺序制传送的概念。用顺序制传送图像的方法构成的电视系统称为顺序制传送系统,现行电视系统均采用了这种方法。在顺序制传送系统中,发送端和接收端的各个像素是轮流发光的,但轮换速度很快。同步接通收、发两端处于同一空间位置的光电转换单元和电光转换单元,从而使传输信道能按顺序轮流接通各个像素的电信号,并将这些电信号按发送端的位置关系传送到接收端的电光转换单元上去非常关键。在现代视频技术中,收、发两端开关的接通要同步,否则无法保证图像的正确重现。同步问题是视频系统中一个非常重要的问题。

在顺序制传送系统中,构成一幅画面的所有像素在进行光电转换、传输以及电光转换时都要按照一定的规律进行,实现这一规律的过程就称为扫描。扫描是顺序制传送系统的核心,它是视频图像生成和传输的关键技术。

电视系统的扫描属于线性扫描,即对每一幅画面来说,扫描自上而下一行一行地进行,每一行从左到右进行,扫描完第一幅画面之后再扫描第二幅,如此循环往复。

视频系统中的扫描包括两个方面,即发送端光电转换过程中的扫描和接收端电光转换过程中的扫描。在这两个过程中,扫描规律必须严格一致,即同步。同步有两方面含义:一是同频,即收发两端的扫描速度相同;二是同相,即收发两端的时空对应关系要一致。从数学角度上说,发送端扫描是将原来随空间、时间而变化的函数转化为只随时间而变的函数,而接收端扫描则是将只随时间而变的函数还原为随空间、时间而变化的函数。

扫描过程的实现通常使用电子方法。在以前的摄像管摄像机中,扫描由电子束完成;另外,在CRT(阴极射线管)显示器中,扫描也是靠电子束完成的。不过,在目前使用较多的CCD(电荷耦合器件)摄像机以及一些新型显示装置中,扫描过程已不再需要电子束的参与,而是靠脉冲电路的控制实现。

在视频系统中使用较多的扫描方式是逐行扫描和隔行扫描,下面对这两种扫描方式做详细介绍。(1)逐行扫描

在对一帧(幅)画面进行光电转换及电光转换的过程中,若扫描是一行一行地从上到下依次进行,则称为逐行扫描。扫描轨迹的集合称为扫描光栅。图1-14所示为以电子束扫描为例,一帧9行时的逐行扫描光栅示意图。

图1-14中,电子束沿水平方向的扫描称为行扫描。其中从左至右的扫描过程称为行扫描正程,简称行正向扫描或“正程”,如图1-14(a)中的实线所示。从右至左的扫描过程称为行扫描逆向扫描或“逆程”,如图1-14(a)中的虚线所示。行扫描“正程”时间长,“逆程”时间短。电子束沿垂直方向的扫描称为帧扫描。其中从上到下的扫描称为帧扫描“正程”,从下到上的扫描称为帧扫描“逆程”。图1-14(a)所示为帧扫描“正程”的扫描轨迹,图1-14(b)所示为帧扫描“逆程”。同样,帧扫描“正程”时间远远大于帧扫描“逆程”时间,图1-14中帧“正程”由7行组成,“逆程”由2行组成。图1-14 逐行扫描光栅示意图

实际上,行扫描和帧扫描是同时进行的。由于电子束沿水平方向的扫描速度远大于垂直方向的速度,因此形成的扫描光栅是一条条略微向下倾斜的水平线。电子束沿水平和垂直方向的扫描由外加偏转磁场控制。在电子束扫描装置外部,安装有两套线圈,线圈中分别通有周期性变化的水平、垂直扫描电流,形成水平和垂直偏转磁场,在这两个磁场的共同作用下,电子束就会做周期性的往复运动。逐行扫描的优点是,有较高的时间和动态空间分辨力(率),运动重现性能较好。

逐行扫描常用于PC显示系统,但对于模拟视频系统来说,逐行扫描存在一个问题:为了使显示端显示的电视图像没有闪烁感,逐行扫描方式下电视图像的传送速率一般应达到50帧/秒,即帧频为50Hz。这样一来,其对传输信道的带宽要求很高,同时也使电视设备复杂化。在模拟电视发展阶段,这些技术问题无法解决,因此,逐行扫描方式并没有成为电视系统的扫描方式。为了在不增加图像信号带宽的情况下,有效克服闪烁现象,电视系统采用了隔行扫描方式。(2)隔行扫描

电影的帧频是全球统一的,即24帧/秒。如果不采取一些措施,放映电影时屏幕的闪烁频率即为24Hz,这会引起强烈的闪烁感。为了在不增加拍摄及放映速率的情况下克服闪烁现象,电影放映时采用了遮光板技术,使每格画面在荧幕上投光两次(或三次)。这样,虽然拍摄及放映的速率仍为24帧/秒,但荧幕的闪烁频率提高到48Hz(或72Hz),有效地克服了闪烁现象。

在逐行扫描方式下,PAL制式的电视机重现图像时屏幕的闪烁频率为25Hz,同样会造成严重的闪烁现象。虽然可以通过提高帧频的方式来克服闪烁现象,但这样做的后果是电视信号要求传输信道的带宽增大,造成设备复杂、成本高。为了在不改变帧频的条件下克服闪烁现象,电视系统采用了与电影类似的方法,即隔行扫描方式。

所谓隔行扫描,是指将一帧电视图像分成两场来扫描,第一场扫描画面的奇数行,这期间称为奇数场;第二场再扫描画面的偶数行,这期间称为偶数场。奇数场和偶数场图像叠加在一起从而形成一幅完整的图像,如图1-15所示。图1-15 隔行扫描示意图

隔行扫描方式中,帧频没有改变,仍为25Hz(或30Hz),但由于将每一帧分成两场来传送和显示,因此,重现画面的闪烁频率变成50Hz,这在很大程度上克服了闪烁现象。在隔行扫描方式中,既有帧频也有场频,场频是帧频的两倍,场周期是帧周期的一半。隔行扫描光栅示意图如图1-16所示。为简便起见,图中只画出了行“正程”和场“正程”的扫描轨迹,略去了“逆程”轨迹。图1-16(a)中的1点为奇数场“正程”扫描起点,A点为奇数场“正程”扫描终点,B点为偶数场“正程”扫描起点,10′点为偶数场“正程”扫描终点。图1-16 隔行扫描光栅示意图3)光电转换

光电转换过程也就是摄像过程。摄像组件可分为摄像管和CCD器件两大类。摄像管曾有过辉煌的历史,但在20世纪80年代之后,以CCD为代表的摄像器件逐步取代了摄像管而进入实用阶段,因为它无须电子束的扫描就能实现光电转换,而且在体积、重量、功耗等性能方面都明显优于摄像管。(1)光电转换原理

摄像管主要利用光电靶的作用和电子束的扫描来实现光电转换。摄像管的种类有很多,应用较广泛的是光电导管,其结构如图1-17所示。图1-17 摄像管的结构示意图

电子枪是加速电子轰击靶屏发光的一种装置,它发射出具有一定能量、一定束流以及速度和角度的电子束。电子枪通常由热阴极、控制栅极、加速极、聚焦极等组成。

电子枪的作用是产生一束聚焦很细的电子束,射向光电靶,在外加偏转磁场的作用下扫描光电靶上的电图像,形成图像信号电流输出。光电靶的作用是将光学图像变成电子图像,然后通过电子束的扫描变成电信号。

摄像管进行光电转换的基本工作原理如图1-18所示。当电子束沿水平方向在光电靶上一行一行地扫描时,相当于将光电靶面分解成许许多多彼此独立的单元,也就是像素单元。每个靶单元等效于一个光敏电阻R和一个电容C的并联。当电子束扫描到一个靶单元时,相当于将这一单元与电子枪的阴极接通,于是,信号板、靶单元、阴极、靶电源及负载电阻就构成了一个闭合回路。摄像时,外界的光学景物通过摄像机的光学镜头成像于光电靶上,形成一幅电子图像。当电子束按一定顺序在靶面上扫描时,就会轮流接通各个靶单元,形成闭合回路。于是,对应于图像上的亮点,靶单元的等效电阻越小,电子束扫描此单元时,在回路中产生的电流越大,在负载R上产生的压降L就越大,输出电压就越小;反之,对应于图像上的暗点,靶单元的等效电阻越大,电子束扫描此单元时,在回路中产生的电流越小,在负载R上产生的压降就越小,输出电压就越大。这样一来,输出信号L电压的变化完全反映了图像亮暗的变化,这一信号就称为图像信号。这样就完成了将电子图像转换成电信号的过程。图1-18 电子束扫描光电靶示意图(2)CCD图像传感器的基本原理

CCD(charge coupled device)是电荷耦合器件的英文简称。CCD自1970年问世以来,就以其低噪声等特点而广泛应用于视频摄像、信息存储和信息处理等领域。

CCD是一种金属氧化物半导体(MOS)集成电路器件,由若干个电荷耦合单元组成,该单元结构如图1-19所示。在P型(或N型)半导体硅衬底上有一层很薄(约120nm)的二氧化硅(SiO)绝缘2层,在SiO绝缘层依次沉积上按一定排列方式沉积铝电极而构成2MOS的电容式转移器。将MOS阵列加上输入、输出端,便构成了CCD。图1-19 CCD的MOS结构

CCD上感光组件的表面具有储存电荷的能力,并以矩阵的方式排列。当其表面感受到光线时,会将电荷反映在组件上,整个CCD上的所有感光组件所产生的信号就构成了一个完整的画面。

CCD图像传感器有线型CCD图像传感器和面型CCD图像传感器两种类型,目前面型CCD图像传感器在视频摄像机应用中的很多领域已取代了摄像管。

①CCD的电荷存储功能

在外界光的照射下,当向SiO表面的铝电极上加一个正电压时,2P型(或N型)半导体硅衬底中形成耗尽区(势阱),耗尽区的深度会随正电压升高而加大。势阱中的少数载流子(电子或空穴)被吸收到最高正电压电极下的区域内(如图1-19中的Φ的电极下),形成电荷1包(势阱)。铝电极上的电压越大,势阱越深,可存储的电荷量就越多,这就是CCD器件的电荷存储功能。

②CCD的电荷转移功能

CCD电荷的注入方式有光注入、电注入和热注入等方式,它的电荷转移功能需要在外加脉冲信号的驱动下完成。这里以三相时钟脉冲驱动为例(参见图1-20),说明其电荷转移原理。图1-20 CCD的电荷转移过程

三相控制是在线阵列的每一个像素上有三个金属电极P、P、P,123如图1-20(a)所示,依次在其上施加三个不同相位的控制脉冲Φ、1Φ、Φ[参见图1-20(b)],当在P极施加高压时,在P下方产生2311电荷包(t=t);当在P极施加同样的电压时,由于两个电势下面势02阱间的耦合,原来在P下的电荷将在P、P两极下分布(t=t);当1121P回到低电位时,电荷包全部流入P下的势阱中(t=t);然后,P1223的电位升高,P回到低电位,电荷包全部由P流入P下的势阱(t=223t)。依此类推,每经过一个时钟周期T,电荷包右移三个势阱。当时3钟脉冲按顺序依次排列时,就可保证电荷包做定向移动,实现电荷的转移。

电荷包转移到CCD末端时要向外电路输出,并转换成信号电流或信号电压的形式,由外电路进行处理。CCD常用的输出方式为反偏二极管输出方式,即在CCD的两端用扩散的方法形成两个二极管,作为输入、输出二极管。在CCD工作时,输出二极管处于很强的反向偏置状态。当电荷转移到CCD的末端时,由输出二极管收集并形成电信号送往外电路。图1-21 面型CCD图像传感器的结构原理

CCD摄像器件的工作原理(见图1-21)可简单概括如下:在CCD摄像器件的感光面上,分布有几十万甚至几百万个独立的铝电极,各自对应一个像素和势阱。摄像时,外界的光学景物通过摄像机的光学镜头成像于CCD的感光面上,使CCD内部产生电子-空穴对。其中,少数载流子被电场吸引到势阱中,形成电荷包。电荷包中电荷的数量与该处的光照强度成正比,这样就把景物的亮、暗变成了电荷包中的电荷数量,也就是将光学图像变成了由电荷包中电荷的数量来描述的电子图像,从而完成光学图像向电子图像的转换。随后,在外加时钟脉冲的驱动下,各个势阱中的电荷包按一定顺序从CCD中转移出去,形成图像信号输出到外电路。

CCD摄像机的图像传感器由感光区、信号存储区和输出转移部分组成。对电荷进行转移并最终形成图像信号的过程通过行间转移、帧间转移、帧行间转移三种典型结构方式来完成。

行间转移如图1-22所示,CCD的面阵上按水平和垂直方向排列有各自独立的感光单元,每个感光单元相当于一个像素;每列感光单元的右侧有遮光的垂直移位寄存器,最上面有遮光的水平移位寄存器,它们都制作在同一个硅基片衬底上[参见图1-22(a)]。行间转移式CCD的结构由扫描电路的水平(行)移位寄存器、垂直(列)移位寄存器、感光区和输出二极管组成。其原理是在每个场“正程”期间,感光元器件根据像素数对景物进行分解,并以电荷包的形式在CCD内部形成电子图像;在场“逆程”期间,全部电荷包迅速从感光列转移到其右侧的列移位寄存器中[参见图1-22(b)]。在下一个场“正程”期间,一方面感光部分产生新的电子图像;另一方面上一场的电荷包在列移位寄存器中一行一行地向行移位寄存器转移。在每个行“逆程”期间,向水平移位寄存器转移一行电荷包[参见图1-22(c)]。在每个行“正程”期间,电荷包从水平移位寄存器逐一向输出端转移,在外电路上形成信号电流或电压。图1-22 CCD电荷的行间转移方式

帧间转移如图1-23所示,CCD结构由感光区(成像区)和存储区构成。感光区可感光,产生电子图像[参见图1-23(a)]。感光单元也是按行和列排列的,只不过各列之间没有垂直移位寄存器;存储区表面被遮住,因此无法感光,但其像素数目与感光区相同。存储区上方有水平移位寄存器。图1-23 CCD电荷的帧间转移方式

帧间转移的工作原理是:场“正程”期间,感光区形成以电荷包形式存在的电子图像;场“逆程”期间,全部电荷包从感光区转移到存储区,并存储在那里[参见图1-23(b)]。在下一个场“正程”期间,感光区产生新的电子图像,而存储区则将上一场的电荷包逐行转移到水平移位寄存器中[参见图1-23(c)]。接下来的过程与行间转移式CCD相同,在行“逆程”期间向水平移位寄存器转移一行电荷包;在行“正程”期间,电荷包从水平移位寄存器移出,形成电信号。

帧行间转移如图1-24(a)所示,CCD的结构也分为感光区和存储区两部分。其中,感光区的结构与行间转移式CCD相同,而存储区结构则与帧间转移存储区结构类似。图1-24 CCD电荷的帧行间转移方式

帧行间转移的工作原理是:感光区在场“正程”的成像过程与行间转移式完全相同。所不同的是,在场“逆程”期间,电荷包从感光单元转移到垂直移位寄存器后,又立即转移到存储区,即在垂直移位寄存器中停留的时间很短[参见图1-24(b)]。在场“正程”期间,从存储区一行一行地向水平移位寄存器转移[参见图1-24(c)],以后的过程与行间转移式CCD相同。

通常所说的CCD的尺寸,其实是指感光器件面积的大小,其中包括CCD和CMOS。感光器件的面积越大,也即CCD/CMOS面积越大,捕获的光子就越多,则感旋光性能就越好,信噪比越低。4)电光转换

电光转换过程即显像过程,是在显示装置上完成的,其工作原理与显示材料及结构有关。用于电光转换的显示器件主要有CRT、液晶显示器(LCD)、等离子显示器(PDP)和多媒体投影机等。由于CRT技术已经过时,下面主要介绍以LCD、PDP为代表的平板显示装置的光电转换原理。(1)等离子显示器

等离子显示器(plasma display panels,PDP)是一种辐射光显示装置,主要利用惰性气体放电时产生的紫外线辐射来诱发荧光粉发光。图1-25 等离子显示器的结构示意图

图1-25所示为等离子显示器的基本结构。在两层玻璃板之间夹杂有一层惰性气体混合物,玻璃板的内表面上分布有电极数组,可在惰性气体上施加电场。当在一对水平和垂直电极上施加足够的电压时,就会在两个电极的交汇处发生气体放电,同时辐射出紫外线。紫外线可诱发附近的彩色荧光粉发出可见光,于是就产生了一个彩色光点。利用这一放电特性可以实现真正的数字显示装置。PDP的输入信号可以是纯数字信号,利用其自身特性就可以实现数模转换功能。

图1-26所示为PDP显示材料每个单元的电压-电流特性。其中,电压轴表示交汇于此单元的两个电极(水平与垂直)上的电压之和。这种材料的电压-电流特性存在严重的非线性,即只有当电压为触发电压V时,才产生放电电流,而且电流强度急剧增加,直到用外部F方法对其进行控制为止。由此可见,对于这种显示材料来说,使用传统的模拟方法无法实现对亮度的控制。显示单元只能有两种状态,即发光或者不发光。图1-26 PDP电压-电流特性

控制放电电流的方法一般有两种,即DC(直流)法和AC(交流)法。DC法是在显示单元外部连接一个电阻,由此来控制放电电流。而AC法是在显示单元内部利用电容来控制电流。在这两种方法中,AC法的应用较为广泛,这是因为它具有记忆特性,可用来控制显示的亮度。在采用AC法的PDP结构中,在电极上还覆盖有一层绝缘体材料充当电容器。这种电容耦合方式可保证只让那些电极电压有变化的显示单元工作。也就是说,当某一显示单元被触发以后,电荷开始迅速聚集在此单元的绝缘层上,相当于电容器的充电过程。同时,加在气体层上的有效发电电压也迅速降低,从而使气体放电结束。然而,在放电结束以后,绝缘层上的电荷仍然会保留下来,形成所谓的壁垒电压(wall voltage)。壁垒电压的存在可使显示单元在交流电压的控制下再次触发。因此,在这一结构中,每个显示单元都能“记住”在前一个周期中是否被触发过,而且可以在接下来的周期中被再次触发并给出光脉冲来。这一过程可持续下去,直到通过某种特殊方式将壁垒电压清除掉为止。

电容的记忆特性可用来以数字方式对每一个显示单元的发光亮度进行控制,这里需要使用时间调制技术。如图1-27所示,将每一帧都分成若干个时间段,时间段的数目与信号量化比特数相等。如信号为8比特,则每一帧都分成8个时间段。其中,第一个时间段用来显示一帧中所有像素的bit 0信息,第二个时间段是在前一个时间段显示的基础上用来显示一帧中所有像素的bit 1信息,以此类推。当8个时间段全部完成之后,一帧所有像素(每个像素有8比特)的信息就可以全部显示出来。具体工作原理如下:每个时间段由一个持续时间很短的清除期开始,用于清除所有显示单元的壁垒电压。清除期之后是一个时间较长的扫描期,用来对所有显示单元进行扫描,并以壁垒电压的形式对各个显示单元的触发状态进行标记。最后是保持期,在保持期内,具有壁垒电压的所有显示单元都被施加上交流电压,从而使这些显示单元能够被不断地触发。图1-27 PDP的时间调制示意图

特别需要说明的是,每个时间段内的保持期长度并不相等,而是成倍增加,即后一个时间段的保持期长度总是前一个时间段的两倍。例如,假设第一个时间段的保持期为1,则第二个时间段的保持期为2,第三个时间段的保持期为4,第四个时间段的保持期为8,等等。因此,每一帧中8个保持期的光输出分别被2的指数加权,相加之后的结果就相当于完成了一次传统的数模转换。

在平板电视显示器领域,PDP是液晶显示器的一个强有力的竞争者。PDP的设计有很多种,它已在军事和工业领域被应用了20多年。和液晶显示器一样,PDP在方兴未艾的彩色大屏幕HDTV市场前景光明。(2)液晶显示器

液晶显示器(liquid-crystal display,LCD)是利用液晶材料的特性和偏振光原理实现的一种非辐射光显示装置。

LCD是利用液晶材料的特性实现电光转换和图像显示的。它使用了一种特殊的液晶材料——向列型液晶,其分子呈细长的杆状。这种液晶具有一个重要的特点,即当放置在一个内部刻有沟槽的容器中时,液晶分子会自动按沟槽方向排列。而且,这时如果给液晶材料再施加一个电场,液晶分子的排列就会与电场方向平行。由于液晶分子的排列能够改变光的偏振方向,因此根据向列型液晶的上述特点,再利用偏振光就可以实现图像显示。图1-28所示为一种液晶显示器的结构,这种结构称为向列扭转结构。图1-28 液晶显示器的结构示意图

在向列扭转结构中,液晶板的上表面和下表面上都刻有沟槽,其中上表面的沟槽方向与下表面的沟槽方向垂直。这样一来,在液晶板内部的两个表面之间,液晶分子的排列就会出现90°的扭转。在液晶板的下表面有一个0°的偏光器,而在上表面有一个90°的偏光器。荧光源发出的光经过下表面的偏光器之后成为偏振方向为0°的偏振光,这束光在穿过液晶板的上表面时其偏振方向会改变90°,正好可以穿过上表面的偏光器。如果这时给液晶板施加一个与其表面垂直的电场,液晶分子就会顺着电场排列,从而破坏扭转效应,于是就不会出现偏振光的旋转,偏振光将无法穿过上表面的偏光器。

为了能局部控制像素数组的显示效果,电极以正交方式排列在液晶板的上下两个表面。对单个像素的控制可通过行电极和列电极上的电压来共同完成。

液晶显示器已在笔记本计算机的应用中占主导地位,因为其重量轻、体积小以及功耗低的特点正好满足笔记本计算机对显示器的要求。如今,作为一项很有发展前景的技术,它已被彩色大屏幕HDTV显示器市场看好。2.数字视频

在过去20年里,视频技术的发展突飞猛进,从广播影视行业到智能化建筑弱电专业,从多媒体视听环境到数字化教学环境,从视频通信应用到家庭普及应用等方面,模拟视频已逐步过渡到数字视频技术的应用。随着数字电视的全面推广和应用,数字视频全面取代模拟视频的时代已经到来。1)视频的A/D转换

从摄像机的光电转换器件得到的电视信号都是模拟信号,将模拟电视信号变成数字电视信号要经过模/数(A/D)转换过程。模/数转换包含三个过程,即取样、量化和编码。其中,取样的目的是将时间上连续的模拟信号变成时间上离散的信号,量化是将幅度上连续的取样值变成幅度上离散的取样值,而编码的作用是将离散化的取样值编成二进制数码。(1)取样

由于电视画面是以帧、场、行为周期重复的,因此只要将取样频率选择为行频的整数倍,就可保证每一行的取样点数为整数,进而实现固定正交取样结构。(2)量化

与模拟音频一样,模拟视频信号的电平是连续可变的,取样后的脉冲幅度具有同样的特征,因此也需要进行数字级的量化。视频信号的量化编码形式上与音频是相同的,不同之处是音频的量化编码只有一个参量(响度),而视频的量化编码则有三个参量:亮度(Y)和色差(R-Y、B-Y)。

量化过程是把取样后的信号幅值归并到有限个幅度等级上,并用一个相应的数据来表示。归并过程会使得量化后的信号幅度与取样信号实际幅度之间有偏差,这称为量化误差。量化误差的存在会使重现的图像上产生噪波干扰,称为量化噪波或量化噪声。为了使量化后的电视信号具有足够的信噪比,应尽量减小量化误差,即尽量增加量化级数。在电视信号的模/数转换过程中,如果要保证实际图像的量化信噪比大于50dB,则量化级数至少应为256级,即量化比特数为8比特。在有些应用场合,量化比特数可达10比特或更高,这时可得到信噪比更高的信号。不过,并不是量化级数越多越好,量化级数增加后,量化比特数也相应增加,导致数码率的增加,这会给后续的信号处理和传输带来很多困难。(3)编码

对每个参量选定的电平用一个二进制码(0,1)表示,称为编码。编码过程是将量化后的取样值用一组二进制码表示。例如,设量化级数为256级(0~255级),即8比特量化,若用自然二进制码方式进行编码,则对应这256个量化值,就可用00000000~11111111这一组二进制码表示。经过取样、量化和编码之后,原模拟电视信号就变成了由一系列“0”、“1”组成的数据流。量化等级越高,需传送的信息量(比特数)也越多。比如,量化等级为n,二进制码则能表达n2个电平。

视频信号的量化电平一般不如音频那么高,这是因为人眼一般只能分辨出100~200级不同的亮度层次,所以分量编码方式中,三个分量信号的量化通常为8位(256级)或10(1024级),即量化比特数为8比特(或10比特)。2)数字视频的格式

传统的CRT电视工作的原理是通过电子束在屏幕上一行行地扫描后发光来显示图像的。电视信号在传输过程中,由于受带宽的限制,只能传递隔行信号,以节省带宽。以NTSC制式的电视机为例,在工作的时候,把一幅525行的图像分成两场来扫,第一场称奇数场,只扫描奇数行(依次扫描1,3,5…行),而第二场(偶数场)只扫描偶数行(依次扫描2,4,6…行),通过两场扫描完成原来一帧图像扫描的行数,由于人眼具有视觉暂留效应,因此看在眼中时仍是一幅完整的图像,这就是隔行扫描。NTSC制式的节目共525行扫描线,每秒60场图像,表示为60i或525i,如果是逐行扫描的,就称做60p或525p。PAL制式的节目为625行,每秒50场图像,表示为50i或625i,如果是逐行扫描的则称为50p或625p。

以上的表示方法,不仅代表了CRT电视的扫描格式,也代表摄像机拍摄的图像的格式。因为电视系统最初都是隔行扫描系统的,因此对应NTSC和PAL制式的电视节目的摄像机,也全部是隔行扫描的。也就是说凡是电视摄像机拍摄的NTSC或PAL制式的节目,若全部是隔行扫描信号,可分别表示为525/60i和625/50i。

对于模拟电视图像,以扫描行表示时,PAL制式为625/50i;NTSC制式为525/60i。对于数字信号,则以像素或分辨率来表示。比如PAL制式的节目,其分辨率为720×576,逐行可表示为576p,隔行为576i。NTSC制式的节目,其分辨率为720×480,逐行为480p,隔行为480i。注意,这是针对电视图像的。

常用的视频格式有两大类,一类是多媒体显示器的视频格式;另一类是连接电视等显示终端的视频格式。多媒体显示器的视频格式主要针对计算机等带RGB接口的信号输出,其格式是通过分辨率和刷新频率来划分的,如下所述。(1)VGA:早期的计算机显示器常用的一种格式,其分辨率为640×480,其VESA(视频电子标准协会)标准的扫描频率有60Hz、72Hz、75Hz、85Hz四种。(2)SVGA:20世纪90年代中期投影机的真实显示格式,其分辨率为800×600,其VESA标准的扫描频率有56Hz、60Hz、72Hz、75Hz、85Hz五种。(3)XGA:现在很多投影机的真实显示格式,也是现在大部分笔记本电脑和15寸液晶显示器的真实显示格式,其分辨率为1024×768,其VESA标准的扫描频率有43Hz隔行、60Hz、72Hz、75Hz、85Hz五种。(4)WXGA:该种格式不是VESA标准格式,是一些厂家曾经为了考虑视频产品逐渐向16∶9的格式过渡采用的格式。正因为不是VESA标准格式,所以其分辨率不是统一的,比例也不是统一的,有16∶9的,也有15∶9的。如几年前市场有些平板显示器或电视的分辨率一般都是1280×768,等离子一般为1344×768,也有1280×720的,主要由显示部件的真实显示格式决定其分辨率。(5)SXGA:该格式为现在大多数17寸液晶显示器的真实格式,也有一些图形投影机现在也达到这种水平,其分辨率为1280×1024,其VESA标准的扫描频率有60Hz、75Hz、85Hz三种。(6)UXGA:为现在一些19寸液晶显示器和高档的三片DLP投影机(如巴可、科视等)的真实显示格式,其分辨率为1600×1200,其VESA标准的扫描频率有60Hz、65Hz、70Hz、75Hz、85Hz五种。(7)WUXGA:为了适应视频16∶9而产生的一种格式,现在还不属于VESA标准格式,公认的分辨率为1920×1200,现在,LCD或PDP平板显示器或电视机普遍采用该种格式作为显示的标准格式。

电视的画面清晰度是以水平清晰度作为单位。通俗地说,我们可以把电视上的画面以水平方向分割成很多扫描线,分得越细,这些画面就越清楚,而水平线数的扫描线数量也就越多。清晰度的单位是“电视行(TV Line)”,也称做线。意思是从水平方向上看,相当于将每行扫描线竖立起来,然后乘以4∶3或者16∶9的宽高比,构成水平方向的总线数。传统视频信号是按制式来划分的,如PAL、NTSC、SECAM制式;数字视频格式是按水平线数和刷新频率来划分的。以下是几种常见的电视显示终端的视频格式。(1)480i格式:标清数字电视显示模式之一,主要是指以YCbCr方式来输出NTSC制式视频信号的格式,其显示等特性和NTSC一样,只是传输方式不同。它和NTSC模拟电视清晰度相同,有525条垂直扫描线,可显示的为480条。显示方式为4∶3 或16∶9,隔行扫描,扫描频率为60Hz,行频为15.25kHz。(2)480p格式:标清数字电视显示模式之一,一般用来指以YPbPr方式输出NTSC制式视频信号的格式,其显示的线数等和NTSC一样,和逐行扫描DVD规格相同。显示方式为4∶3 或16∶9,逐行扫描,扫描频率为60Hz,行频为31.5kHz。(3)1080i格式:高清数字电视显示模式之一,有1125条垂直扫描线,可显示的为1080条。其以隔行扫描的方式输出,扫描频率为50Hz或60Hz,行频为33.75kHz。屏幕的宽高比均为16∶9。(4)720p格式:高清数字电视显示模式之一,有750条垂直扫描线,可显示的为720条。其以逐行扫描的方式输出,扫描频率为50Hz或60Hz,行频为45kHz。屏幕的宽高比均为16∶9。(5)1080p格式:高清数字电视显示模式之一,有1125条垂直扫描线,可显示的为1080条。其以逐行扫描的方式输出,扫描频率为50Hz或60Hz,行频为33.75kHz。屏幕的宽高比均为16∶9。

此外,还有576i和576p格式,一般用来指以YPbPr方式输出PAL制式视频信号的格式,其显示的线数等和PAL制式一样,有625条垂直扫描线,可显示的为576条。显示方式为4∶3或16∶9,隔行或逐行扫描,扫描频率为50Hz,记为576i或576p。

以上标准中“i”表示隔行,“p”表示逐行。HDTV标准是高品质视频信号标准,包括1080i、720p、1080p,也就是说第(3)、第(4)、第(5)的格式属于HDTV标准。需要注意的是,对于电视机处理能力(例如带宽)的要求则是480i<480p<1080i<720p<1080p。

在实际技术实现中经常需要把逐行与隔行信号相互转换,这种转换主要是指以下两种情况。(1)有效扫描行数相同,扫描帧数相同的隔行与逐行信号相互转换,如1080/30p与1080/60i之间的转换。(2)有效扫描行数相同,扫描帧数不同的隔行与逐行信号相互转换,如480/60p与480/60i之间的转换。

从信号处理和取样的角度来看,不论哪种情况从逐行向隔行的转换都是信息的分拆传输或减少的过程,因此其处理相对简单容易,不会造成图像质量的损失;而从隔行向逐行的转换则属于需要增加信息的内插处理,因此转换后得到的结果比逐行拍摄的原始图像质量差。

逐行与隔行信号的相互转换既可以用硬件(扫描转换器或称为格式转换器)实时完成,也可以在非线性设备中用软件进行非实时的精密处理。

三、数字视频的编码

压缩编码标准是数字视频产业发展的基石和标尺。数字编解码标准采用的基本方法几乎都是基于块的混合编码框架,混合编码框架的技术方式主要包括基于DCT变换编码、运动补偿的预测编码和熵编码,这是现代视频编码的关键技术。所谓“基于块”,指的是首先将一幅图像分成矩形的像素块,作为编码处理的基本单元。“混合”指的是消除时间冗余的运动估计与消除空间冗余的变换编码的结合。在理想情况下,一方面为了充分利用像素之间的空间相关性,变换应该应用于整幅图像或视频帧;另一方面,如果以单个像素为单位进行运动估计,就能够精确地消除时间冗余。但是以上两种方式的计算复杂度都相当高,且要求两者是互相矛盾的。因此,通常采用适当大小的矩形像素块作为变换编码和运动估计的基本单位,以平衡编码效率和计算复杂度两方面的矛盾。

数字视频编码是减少数据冗余的过程。虽然用于表示数字视频的数据量很大,但数据之间往往保持高度的相关性,这些相关性表现出数据的冗余。视频压缩编码就是采用一定的方式减少数据之间的相关性,尽可能消除冗余,使数据最有效地表示信息。通常的数据冗余存在于三个方面,即空间、时间和心理视觉冗余。

空间冗余产生的原因在于视频序列都是由一帧一帧的图像序列组成的,对于每帧图像,前景物体和背景都有很大的相关性。据统计,图像内的每个像素都与其距离小于16个像素点的像素相关。

时间冗余存在的原因在于视频序列在时间上的相关性,视频帧在时间上呈现的是一种近似连续的变化;在动态视频序列中,前一帧图像和后一帧图像有很大的相关性,因此形成时间上的数据冗余。在一定的时间间隔内,视频序列中的背景往往都相同,前景物体只是有微小的变化,即平移、旋转或拉伸等,所以相邻的两帧或几帧之间有许多相同或相近的地方,没有必要在每帧中都把这些数据信息表示出来。

心理视觉冗余是由于人类视觉系统对图像的变化感知产生的,人的视觉系统是非均匀和非线性的,并不是图像的所有变化都能感知。而且,人眼对图像的亮度和色度的敏感度相差很大,对亮度的敏感度远大于对色度的敏感度。心理视觉冗余就是利用人的错觉来压缩数据量。数字视频编码可通过变换编码和预测编码达到消除冗余的目的,并以较小的带宽传输尽量多的有效数据。

在制定数字音视频压缩编码标准的过程中,联合图像专家组(Joint Photographic Experts Group,JPEG)、动态图像专家组(Moving Pictures Experts Group,MPEG)和视频编码专家组(Video Coding Expert Group,VCEG)发挥了至关重要的推动作用。1.MJPEG和MJPEG 2000系列

JPEG是在国际标准化组织(International Organization for Standardization,ISO)和国际电话电报咨询委员会(Consultation Commitee of the International Telephone and Telegraph,CCITT)内运作的一个工作组。在视频压缩方面,JPEG先后编制了MJPEG和MJPEG 2000。MJPEG是在JPEG基础发展起来的动态图像压缩技术,它只单独地对某一帧进行压缩,而基本不考虑视频流中不同帧之间的

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载