多媒体技术概论(第2版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-21 08:41:12

点击下载

作者:朱范德

出版社:东南大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

多媒体技术概论(第2版)

多媒体技术概论(第2版)试读:

内容提要

本书较全面地介绍了多媒体技术主要的基本概念和相关技术,内容包括多媒体技术的基本概念、音视频数据的压缩编码技术、光存储媒体、MPC及常见设备、多媒体通信系统、多媒体技术应用实例、多媒体开发应用技术和多媒体技术发展的热门新技术。

本书可作为计算机、电子、电气、通信和信息管理专业本科生、专科生或高职高专的教材,也可以供从事多媒体计算机技术研制、开发和应用的工程技术人员参考使用。

第2版前言

多媒体技术的出现是人类社会信息技术的又一次重要的飞跃。多媒体技术集成了多种技术,同时又是发展最快的技术之一。随着人类对信息处理和利用需求的不断增长,对信息形式和质量要求的不断提高,多媒体技术的应用也是突飞猛进。在越来越多的场合已经离不开多媒体技术的支持。学习和掌握多媒体技术知识对于现代科技人员和相关专业的学生显得越来越重要。

我们于1995年开设了《多媒体技术概论》,作为计算机专业学生的选修课,先后又在电子、电气、信息管理等专业作为选修课。在十年的教学过程中我们使用了多本教材,这些好的教材在教学过程中给了我们很大的帮助和启发。随着多媒体技术不断的快速发展以及社会对人才要求的变化,特别是不断更新的教学计划与本课程内容的衔接,促使我们开始编写本教材。为此,我们收集了国内外技术杂志、会议论文、产品手册、国际标准以及同行编著的教材,结合我们使用了十年经过不断修改的备课笔记作为本书的基本材料。在内容的选取上注意基本概念、最新技术发展和实践操作兼顾。对一些关键技术在理论上进行了深入讨论,对相关技术发展的方向进行了详细的介绍,利用大量的实例介绍了相关技术的应用和实现。

本教材共分10个章节,其中朱范德编写了第1章多媒体技术概论、第3章图像信号处理技术、第4章图像和视频信号压缩编码技术与相关国际标准和第8章多媒体通信技术;葛桂萍编写了第2章音频信号处理技术、第5章光存储媒体技术和第9章多媒体技术的应用;李峰编写了第6章多媒体计算机系统及常见硬件设备、第7章多媒体应用系统开发技术和第10章多媒体新技术展望。参加编写工作的还有:陈宏建、温品人、高晓蓉、张晓如等。从内容上来看本教材包括了多媒体技术中几乎所有的基本概念和成熟的技术,同时在第十章中简要阐述了数据压缩新技术、虚拟现实技术、智能交互技术、MPEG-21标准现实技术和信息高速公路等最新技术的内容。

此次修订参考了有关教材、文献和一些网站的内容,并引用了部分材料,在此我们对这些作者表示衷心的感谢!同时向关心和帮助我们的同事和家人表示衷心的感谢!

由于多媒体技术涉及面太广,发展较快,虽然我们尽了自己最大的努力,难免会出现一些问题,在此仅向读者表示歉意,并希望各位指正。

本教材出版后得到了许多学校老师和学生的关注,在使用本教材后给予了很高的评价和鼓励,同时也提出了许多中肯的建议和意见,在本课程的建设过程中也得到了领导和各位同行的指导和帮助,本课程于2009年成为江苏省精品课程(苏教高[2009]19号)。为了满足广大学校师生的教学需要,我们对原稿中的错误进行了纠正,对部分内容进行了调整。为了进一步贯彻“理论教学够用、实践动手能力加强”的思想,更加注重将新成果、新技术、新方法融入教材中。

感谢各位老师的关心和支持!感谢同行的帮助!感谢扬州大学继续教育处领导的关心和支持!感谢扬州大学信息工程学院领导的关心和支持!编者E-mail:zfd@yzcn.net2011年2月28日

1 多媒体技术概论

1.1 引言

多媒体技术(Multimedia Technology)是20世纪80年代末期兴起的一门新技术。简单地说,多媒体技术就是利用计算机综合处理多种媒体信息(数据、文本、图形、声音、图像和视频),使其建立逻辑连接,集成为一个系统并具有交互性。多媒体技术最先出现于计算机领域,随着信息技术、通信技术、超大规模集成电路(VLSI)技术、网络技术的发展以及多媒体技术应用领域的不断开拓,如今多媒体技术不仅是计算机领域的热点之一,而且也是通信技术、信息技术等领域的热门课题。多媒体技术必将渗透到与信息有关的各个领域,可以说90年代是以应用多媒体技术(多媒体信息、多媒体信息处理、多媒体信息系统)为特征的信息时代。多媒体技术不仅引起了计算机产业的第二次革命,而且把通信技术推向崭新的全方位的多媒体通信时代,并改变着人们的工作、学习和生活,改变着90年代人类社会面貌。当前人类正向“多媒体社会”迈进。

1.2 多媒体技术

1.2.1 多媒体信息

人类进行信息交流最常用的手段是通过视觉和听觉进行的。视觉信息和听觉信息约占人类获取信息总量的85%。视觉信息包括文字、图形、图像、视频、动画等,视觉信息是最直接最生动的信息。听觉信息包括语言、音乐等。我们把数据、文本、声音、图像等承载信息的载体称为媒体(Media)。信息都是依附于一定载体上才能够进行传播、存储、接收、处理和使用的。根据国际电报电话咨询委员会CCITT定义,媒体有以下五种:

1)感觉媒体(Perception Medium)

感觉媒体是直接作用于人的感觉器官,能使人直接产生感觉的媒体。感觉媒体有语音、音乐、数据、文字、图形、图像、视频、动画、自然界的各种声响等。

2)表示媒体(Representation Medium)

表示媒体是为了传输感觉媒体而人为研究出来的媒体,以便能更有效地将感觉媒体进行传输。表示媒体有各种语音编码、音乐编码、文本编码、图形编码、图像(静止图像、运动图像)编码等。

3)表现媒体(Presentation Medium)

表现媒体指的是电信号和感觉媒体之间转换用的媒体。表现媒体有两种,一种是输入表现媒体,它将感觉媒体转换为电信号,如键盘、鼠标器、摄像机、扫描仪、光笔、话筒等;另一种是输出表现媒体,它将电信号转换为感觉媒体,如喇叭、打印机、显示器等。

4)存储媒体(Storage Medium)

存储媒体用于存放表示媒体,以便随时调用。存储媒体有硬盘、软盘、光盘、磁带、存储器等。

5)传输媒体(Transmission Medium)

传输媒体是用来将表示媒体从一处传送到另一处的物理实体,传输媒体有双绞线、电话线、同轴电缆、光纤、无线电链路等。

当信息载体不仅是数据、文字,还包括图形、图像和声音等多种感觉媒体时,我们就称为多媒体信息,或简称多媒体。因此,多媒体信息不仅包含了数据、文字,还包括各种视觉信息和听觉信息,是全方位信息。

多媒体信息具有以下属性:(1)模拟形式和数字形式兼有

真实世界的视觉信息和听觉信息是模拟形式的,作用于人眼睛和耳朵的信息也是模拟的,而计算机处理和集成、存储和传输的则是数字化的信息。(2)静止的和运动的属性

多媒体信息可以是静止的也可以是运动的。文字、图形、静止图像都属于静止信息形式,而视频、广播、动画、语音、音乐则属于运动信息。在人类的信息交互过程中,运动信息占有很大比重。运动信息能以一种带有过程的形式表达出特别的内容,除了信息本身是运动的外,运动的含义还包括过程本身,我们称包括过程的运动为活动。活动包括学习过程、表达和变换过程。学习过程是接受信息的过程,变换过程就是通过交互掌握和利用信息的过程。所以,多媒体信息本身的活动性就是重要的信息交互过程。(3)空间和时间属性

多媒体信息在空间和时间上都有意义,例如文本、静止图像需要一定的显示空间,声音则需要表现时间,而空间和时间属性又往往结合在一起。例如动画是图形加运动,视频是图像、声音加运动,它们既需要显示空间,在时间上也需要延续,活动和表达也是如此。(4)分散性和集成性属性

多媒体数据作为数字形式的多媒体信息具有分散性,这是指各种媒体之间没有特定的统一形式,很难找到一种能把所有不同媒体信息组合在一起的统一的数据结构。因为各种媒体的数据(字符数据、语音数据、图形数据、图像数据、视频数据、动画数据等)在形式上、数量上和处理方法上都有很大的区别。所以,对多媒体数据的处理(包括存、取)不能像对其他数据那样用单一的事先指定的方法,而必须根据不同的媒体采用不同的方法。

多媒体信息的集成性是指信息表现时往往需要将多种媒体信息相互配合集成在一起。例如将图形、文字和图像集成在同一画面上,将图像、动画与解说、音乐相配合。(5)同步和异步的属性

同步和异步是多媒体信息的两个重要属性。异步是指时间上不能预知何时发生的,需要特别协议的信息,例如电子邮件等。同步则是指同时的、多通道的、实时的。例如多媒体信息中,图像和声音的同时出现。然而,同步和异步既有差别又可以统一,例如在一个通道中只能异步传送声音和画面,但当数据到达目的地时,则可以由同步方式再现出来。

1.2.2 多媒体信息处理

对多媒体数据的处理除了有查找、检索、排序外,还有压缩、转换、识别、理解、合成、存储、传输和利用等特殊操作。

压缩是多媒体信息处理的关键,可以说没有实时压缩能力就没有多媒体信息,也不可能实现多媒体信息的存储和传输。

各种媒体信息间的转换是一个重要的处理能力。例如将文字变为语音或将语音识别为文字,都涉及到语音合成与识别问题;文字和图形、图像之间的转换则涉及到字符识别、图形理解等问题。目前有些媒体信息间可以互换,有的还不能互换。随着人工智能的发展,将会实现各种媒体信息间的随意互换,那时,多媒体技术就进入了一个新的智能化阶段。

合成和创作是多媒体信息处理的又一重要方面,它体现了多媒体信息的集成性和交互性。

多媒体信息的存储和传输也是多媒体信息处理不可缺少的方面。

此外,还涉及到各种媒体信息本身的处理技术,如语音处理技术,图形、图像处理技术,数据库技术等。

1.2.3 多媒体信息系统

多媒体信息系统就是将先进的计算机系统、通信系统和广播系统统一成一个综合化的多媒体信息服务系统。也就是说多媒体信息系统是集多媒体信息的多样性,计算机的交互性,通信的分布性和广播的真实性于一体的全方位信息服务系统。它的发展和完善对人类社会将产生重要影响。

1.2.4 多媒体技术的特点

多媒体信息技术就是利用多媒体信息系统处理和综合利用多媒体信息的技术。它具有以下几种特性:(1)多样性:包括媒体的多样性,数据格式的多样性,输入/输出设备的多样性,服务方式的多样性。(2)集成性:包括两种以上媒体信息的集成,数据种类的集成,表现方式和传播方式的集成,硬件系统和软件系统的集成。(3)交互性:是指用户能自主地控制和干预多媒体信息的处理、制作和利用的全过程。

1.3 多媒体系统的发展

人们对多媒体信息并不陌生,目前千家万户使用的电视就是接收由声、文、图等多种感觉媒体信息组成的系统。但是,这种家用电视是模拟的,只能被动地接收,不能实现交互式的收看,因而不能称之为多媒体系统。随着数字化技术、数据压缩技术、存储技术和计算机技术的发展,使具有交互功能的多媒体系统有了实现的基础。

1983年美国RCA公司的戴维·沙诺夫研究中心首先提出了数字化视频交互技术(Digital Video Interactive,DVI)的设想。第一代DVI产品Action media 750-Ⅰ于1989年推出,第二代产品Action media-Ⅱ于1991年问世。

世界上第一个多媒体系统Amiga是Commodore公司于1985年推出的,该系统具有音响、视频信号处理和动画显示功能。1986年Philips公司和Sony公司公布了基本的CD-Ⅰ(Compact Disc-Interactive)系统,这是较早的交互式数字多媒体系统。但是直到1991年秋才出现商业产品。

Apple公司的Macintosh具有良好的人机界面,使得它成为桌面印刷和演示系统的先驱。1991年推出的Mac操作系统7.0增加了多媒体功能,同时Macintosh拥有大批功能卓越的多媒体应用软件。

1988年10月第一种从设计上贯彻多媒体思想的Next计算机问世,它在硬件、软件设计上都考虑了如何适应多媒体的思想。

随着人们对音频、视频数据压缩编码技术的深入研究,相继建立了图像数据压缩编码的各种国际标准:JPEG标准(静止图像压缩编码标准)、H.261(P×64)标准(可视电话、会议电视压缩编码标准)、MPEG标准(活动图像压缩编码标准),使得多媒体技术中数据压缩这一关键问题的解决有了统一可行的国际标准。与此同时,许多VLSI制造公司推出了能实时实现这些标准算法的专用芯片和通用芯片,加上个人计算机性能价格比的不断提高,于是出现了许多多媒体板级产品,如多媒体信息采集卡、数据压缩编码卡,以及以PC机为平台配置的各种多媒体板级卡而形成的各种多媒体个人计算机(MPC)和多媒体系统等。目前形式多样的多媒体系统如雨后春笋般地涌现,根据功能不同大体上可以分为以下几类:

1)开发系统

具有多媒体技术应用的开发功能,该系统配有功能强大的计算机,齐全的声、文、图信息的外部设备和多媒体演示的编著工具,典型的用户是多媒体技术应用的制作、电视编辑系统等。

2)演示系统

是一个增强型的桌上系统,可完成各种多媒体的应用并与网络连接。典型的用户是专业技术工作者、大公司经理、高等教育工作者等。

3)训练/教育系统

是一种用户多媒体信息播放系统,以计算机为基础配上CD-ROM驱动器、音响和图像接口控制卡连同相应的外部设备,通常用于家庭教育、小型商业销售点和教育培训等。

4)家用系统

是一种家庭信息亭,通常配有CD-ROM,采用家用电视机作为显示设备,可供5名以下观众使用。通常用于家庭学习、娱乐、一般信息的存储和处理。

1.4 多媒体技术研究的主要内容

多媒体技术是一门综合技术,它涉及到计算机技术、信号处理技术、通信技术、压缩编码技术、计算机平台和硬件支持芯片技术、实时多任务操作系统、窗口管理系统技术、高速信息网络技术、编著工具系统以及超媒体技术等。因此多媒体技术的研究涉及面非常广,在此我们只介绍主要的内容。

1.4.1 数字化技术

由于多媒体技术要利用计算机来综合处理文字、声音、图形、图像、视频等多种媒体信息,这些信息本身都是模拟量,只有数字化以后才能由计算机平台进行各种处理和综合。因此,数字化技术是多媒体技术的必要基础。对于不同媒体,信息数字化要求和实现方法均有所不同。

音频信号除CD音响和电子乐器已是数字信号外,现有的语音、广播(调幅、调频)和立体声音乐均是模拟信号,一般需经滤波器和模/数(A/D)转换器将上述各种模拟音频信号转换为数字信号。视频信号通常是由摄像机、录像机等视频图像输入设备获得模拟图像。这些信号大多数是标准的彩色全电视信号,必须经彩色解码电路将全电视信号分解为模拟彩色分量信号——R.G.B(或Y.U.V)信号,再经A/D转换器转换为数字式信号。各种媒体信息的数字化通常是由各种多媒体信息的采集卡(图形卡、图像卡、音频卡、视频卡等)来实现的,它集中体现了多媒体信息的数字化技术,其主要指标是采样速度、精度和功能。

1.4.2 数据压缩编码技术

1)进行数据压缩的必要性

为了能在计算机上实现对多媒体信息的交互处理,就必须对各种媒体信息进行数字化。而数字化信息的数据量是十分庞大的,1秒钟的CD质量的立体声数字化音频信息,其数据量为1.411 Mbit(2×44.1 kHz×16 bit),40 MB存储媒体仅能存放大约4分钟的立体声声音,一张650 MB的光盘也只能存放1小时的立体声音乐,如以NTSC制播放720×480全彩色数字视频,则数据的传输速率为249 Mb/s(720×480×24 bit×30/s),一张650 MB光盘仅能存储20秒左右的数字视频。由此可见,数字音频和视频庞大的数据量不仅造成存储和传输的困难,而且计算机的总线也难以承受。尽管有各种不同方法在不同程度上提高计算机的传输能力,但都不能彻底解决问题。彻底解决问题的方法是对多媒体信息数据进行压缩。一幅512×512×8 bit的静止图片在电话线上以2.4 Kb/s速率传送约需15分钟,若将数据压缩15倍,则传送时间降为1分钟。又如未压缩的NTSC制数字电视信号码率为220 Mb/s,若采用压缩比达200以上的数据压缩技术,则码率可降到1 Mb/s以下。可见数据压缩编码技术在多媒体技术中的重要作用。

在表1.1和表1.2中分别列出了1分钟数字声音信号和视频信号的有关参数:表1.1 1分钟数字声音信号所需的存储空间表1.2 1分钟数字视频信号所需的存储空间

2)数据压缩的可能性

研究发现,图像数据表示中存在着大量的冗余。通过去除这些冗余数据可以使原始图像数据极大地减少,从而解决图像数据量巨大的问题。图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。因此,进行图像压缩研究的起点是研究图像数据的冗余性。

下面我们介绍常见的一些图像数据冗余的情况。(1)空间冗余

这是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上可见景物的颜色。同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的空间连贯性,从而产生了空间冗余。我们可以通过改变物体表面颜色的像素存储方式来利用空间连贯性,达到减少数据量的目的。例如,在静态图像中有一块表面颜色均匀的区域,在此区域中所有点的光强、色彩以及饱和度都是相同的,因此数据有很大的空间冗余。(2)时间冗余

这是序列图像(电视图像、运动图像)表示中经常包含的冗余。序列图像一般位于一个时间轴区间内的一组连续画面,其中的相邻帧往往包含相同的移动物体,只不过移动物体的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。(3)结构冗余

在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如方格状的地板图案等,我们称此为结构冗余。已知分布模式,可以通过某一过程生成图像。(4)知识冗余

有些图像的理解与某些知识有相当大的相关性。例如,人脸的图像有固定的结构,嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正脸图像的中线上等等。这类规律性的结构可由经验知识和背景知识得到,我们称此类冗余为知识冗余。根据已有的知识,对某些图像中所包含的物体,我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些参数,从而可以大大减少数据量。模型编码主要利用知识冗余的特性。(5)视觉冗余

事实表明,人类的视觉系统对图像场的敏感性是非均匀和非线性的。例如,在记录原始的图像数据时,通常规定视觉系统是线性和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据,这就是视觉冗余。通过对人类视觉进行的大量实验,发现了以下的视觉非均匀特性。

[1]视觉系统对图像的亮度和色彩的敏感性相差很大。

当把RGB颜色空间转化成NTSC制的YIQ坐标体系后,经实验发现,视觉系统对亮度Y的敏感度远远高于对色彩度(I和Q)的敏感度。因此对色彩度(I和Q)允许的误差可大于对亮度Y所允许的误差。

[2]随着亮度的增加,视觉系统对量化误差的敏感度降低。这是由于人眼的辨别能力与物体周围的背景亮度成反比。

由此说明:在高亮度区,灰度值的量化可以更粗糙些。

[3]人眼的视觉系统把图像的边缘和非边缘区域分开来处理。

这是将图像分成非边缘区域和边缘区域分别进行编码的主要依据。这里的边缘区域是指灰度值发生巨大变化的地方,而非边缘区域是指除边缘区域之外图形的其他任何部分。

[4]人类的视觉系统总是把视网膜上的图形分解成若干个有向空间的频率通道后再进一步处理。在编码时,如若把图形分解成符合这一视觉内在特性的频率通道,则可能获得较大的压缩比。(6)图像区域的相似性冗余

它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生数据的重复性存储,这就是图像区域的相似性冗余。在以上的情况下,记录了一个区域中各像素的颜色值,与其相同或相近的其他区域就不需再记录其中各像素的值。(7)纹理的统计冗余

有些图像纹理尽管不严格服从某一分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。

随着对人类视觉系统和图像模型的进一步研究,人们可能会发现更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推动图像压缩技术的进一步发展。

3)数据压缩编码技术

由于音频和视频信号本身具有大量的客观冗余度和主观冗余度,消除这些冗余度就可达到数据压缩的目的。利用音频和视频信号所固有的统计特性(相关性)可以消除客观冗余度,而利用人的听觉和视觉生理学、心理学特性在一定质量情况下可以消除主观冗余度,从而达到数据压缩的目的。

数据压缩编码方法一般可分为无损压缩编码(Loss Less Compression Coding)和有损压缩编码(Loss Compression Coding)。无损压缩编码可以完全恢复原始信息(数据、文字、声音、图像)而不产生任何失真,是一种信息保持型编码。它是根据数据的统计特性进行压缩的,所以又称熵编码(Entropy Coding)。常用无损压缩编码算法有:霍夫曼(Huffman)编码、算术(Arithmetic)编码、游程编码和LZW(Lempel-Zev-Welch)编码等。无损压缩编码的压缩比一般为2~5倍。

有损压缩编码算法利用数据空间和时间的相关性以及人的听觉和视觉特性来消除数据的客观和主观冗余度,从而进一步提高压缩比,它是信息压缩型编码又称熵压缩型编码。这种编码方法不能完全恢复原始数据,会产生一些失真,失真的程度与压缩比以及所使用的方法有关。

为适应多媒体信息数据的压缩编码,有关国际组织经过多年大量的工作已经制定了一系列有关音频数据压缩编码和图像数据压缩编码的国际标准。

1.4.3 计算机平台和硬件支持芯片

由于多媒体信息的数据量大,而且许多处理(包括数据压缩编解码)都必须实时完成。作为多媒体信息处理系统核心的计算机平台不仅应有高速CPU而且应有大容量的存储空间,还应配有光盘驱动器、音频和视频数据采集卡以及各种接口硬件。这类计算机平台可以是以微型计算机为基础的多媒体个人计算机(Multimedia Personal Computer,MPC),也可以是以工作站为基础的多媒体工作站、专用多媒体系统平台以及家用多媒体系统。

尽管如此,目前计算机平台(CPU采用RISC芯片或CISC芯片)都不能实时实现视频图像数据的各种压缩编解码算法。因此,作为多媒体信息处理系统的计算机平台还应含有音频、视频数据压缩编解码子系统(实时数据压缩编解码卡)。由各种支持音频、视频数据压缩编解码标准算法的芯片实现实时编解码功能。

由于以微型计算机为基础的MPC应用最为广泛,为了使不同厂家生产的产品都能方便地组成多媒体个人计算机系统,这就要求能够解决产品标准化和兼容性的问题。为此,多媒体产品供应商和最终用户联合起来组织了一个交互式多媒体协会(Interactive Multimedia Association,IMA),这个组织的主要目的是解决兼容性的问题。IMA的计划是放在最终用户的兼容性上。在IMA指导下,由Philips、Microsoft、NEC等多家著名厂商组成了多媒体市场协会,制定了两个多媒体个人计算机平台标准:第一个层次的MPC标准和第二个层次的MPC标准。MPC平台标准的特点是兼容性、个性化。MPC的任务是让每个PC机用户在软件和硬件上的投入和积累得到肯定和连续的支持。通过MPC的标准把PC机推广到家庭,使PC机连到每个家庭的电视、电话和立体声音响上,使PC机成为家庭管理和娱乐的中心,这样就会使PC机产业有一个突破性的发展。MPC平台标准对计算机应用开发者来说,是开发先进的多媒体应用系统的标准;对用户来说,是建立能支持多媒体应用的PC机系统或者已有的PC机系统能升级为多媒体PC机系统的指南;对零售商来说,MPC是一个组织的标志,这个组织的宗旨是尽可能使PC机的用户拥有多媒体功能。

1.4.4 实时多任务操作系统

多媒体技术的实时性、交互性和集成性,决定了多媒体信息处理需要的操作系统必须是实时多任务操作系统。它应对多个任务以及声音、图像同步进行实时控制和管理;应具有多媒体设备驱动程序和应用程序接口;支持数据压缩编码;支持在一个画面上集成文本、图形、声音、图像、视频的窗口管理能力。

具体地说,能够进行多媒体信息处理的操作系统应具备以下基本功能:(1)有把硬件虚拟化的应用编程界面(Application Programmable Interface,API)。有了API便能按照操作系统提供的界面开发程序,使应用程序同硬件不直接发生关系,这就比较容易实现兼容性。(2)具有声音文件格式。(3)具有视频文件格式。(4)具有利用硬件进行动画、视频数据压缩编解码功能。(5)具有利用软件进行动画、视频数据压缩编解码功能,以便能不使用专门硬件就能再现数字音频和视频。(6)具有声音、视频的同步控制能力,即能按时间轴对多媒体数据进行控制。(7)具有支持多媒体信息的窗口管理功能。窗口管理系统是控制位映射显示设备与输入设备的系统软件,它管理屏幕、窗口、像素映射、彩色查找表、字体、光标、图形以及输入/输出设备。窗口系统一般提供三种界面:

[1]应用界面:这是最终用户和所显示窗口间的交互机制,它向用户提供灵活方便、功能丰富的多窗口机制,包括各种类型的窗口、菜单、图形、正文、对话框、滚动条、图符等对象以及对它们的操作和相互通信。

[2]编辑界面:这是程序员构造应用程序的多窗口界面。窗口系统提供各类库函数、工具箱、对象等编程机制,有较强的图形功能、设备独立性及网络透明性。

[3]窗口管理界面:它实现对窗口的管理,包括控制应用程序各窗口的布局、重显、大小、边框、标题等。

为了支持上述这些要求,一般都是在现有的操作系统上进行扩充。如Philips公司和Sony公司基本的CD-Ⅰ系统中,采用了MMC(Multimedia Controller)来处理音频和视频信号。Commodore公司的Amiga系统中的多任务操作系统有下拉的菜单、多窗口、图标和表示管理等功能。IBM公司的OS/2中提供了媒体设备管理程序(MDM)和多媒体输入/输出管理程序(MMIO),用户只需熟悉MDM和MMIO而无需关心底层情况。Apple公司的一个多媒体协议和驱动程序标准集,叫做Apple公司媒体控制结构(Apple Media Control Architecture,AMCA)。AMCA是系统级的结构,用来访问视频光盘、音频光盘以及录像带的信息,软件工作人员不用为多媒体外部设备写专门的驱动程序。IBM和Intel公司开发的DVI系统中软件的核心部件是音频/视频子系统(Audio/Video Sub System,AVSS)和音频视频核心(Audio Video Kernel,AVK),它们的主要任务是为音频和视频数据流相关同步提供需要的实时任务调度、实时的数据压缩和解压缩、实时的拷贝、改变比例、建立位映射、管理控制并将其送至显示缓冲区等。

1.4.5 高速通信网络

多媒体信息的获取、交流和应用离不开通信设施。如果没有良好的能与多媒体信息特性相匹配的通信网络,多媒体的应用领域和范围将受到极大限制,更不要说能在全国乃至全球范围内传输和共享多媒体信息资源了,多媒体信息的质量也会受到很大影响。目前数据通信网按辖域可分为局域网(LAN)、城域网(MAN)和广域网(WAN)。这些网的结构和协议是为适应具有异步性、准确性、平等性以及强调互联等性质的文本通信业务而建立的。现有网络协议的特点是:(1)分层的体系结构:这种结构虽然有利于简化不同系统的数据通信的实现,但增加了信息传输延时。(2)基于数据包的信息传输:网络中信息交换方式有三种,即电路交换(Circuit Switch)、信报交换(Message Switch)和报文交换(Packet Switch)。除了电路交换方式由于通信双方建立独占的物理连接,可进行连续信息交换,另外两种方式都是基于数据包的信息交换,在信息传输时需要打包、拆包操作和路径选择,因此会在传输中产生一定延时。(3)无差错的信息校验:在数据传输产生差错时需重新传输相应数据,这样会增加网络延时并消耗网络带宽。(4)基于窗口的流量控制:是基于网络传输率及可用带宽的控制方式。它对传输速率有一定的要求,如音频、视频等连续媒体信息的传输有一定的影响,同时对在多媒体信息传输中突发的数据流量变化也有较大的影响。(5)超时重发:为保证文本数据的可靠传送,在信息发出一段时间后若仍未收到接收方应答帧,则认为该帧已丢失必需重发刚才数据帧。而多媒体信息具有实时性,如果多媒体数据一段时间内没有到达,则该数据已失去意义,不仅无需重发还要将迟到的帧丢弃。

由于多媒体信息中各种媒体自身及其组合有它的特殊性质,因而对传输多媒体信息的网络结构及协议有特殊要求:

[1]多媒体信息数据量大,要求网络提供同步业务服务。多媒体信息与时间相关,如声音、活动图像等,这些信息的传送需要时间上的保证,在某一特定时间范围内必须传送完成相应的数据,这就要求网络为这些信息的传送分配相应的同步带宽。

[2]多媒体信息往往对延时非常敏感,要求网络延时必须足够小。例如在实时传输NTSC制视频时,必须在33毫秒时间内完成一帧图像的采集、压缩、传输、解压缩、播放等操作。

[3]多媒体信息必须能有机地结合。这要求网络能保证各媒体本身及媒体之间时间和空间的同步。

因此,目前的数据通信网远不能适用于多媒体信息,特别是声音和视频的传输。只有高速网络和高速协议才能满足要求。基于光纤的高速通信网络具有不同于传统网络的特性,它们不仅提供了高速度、低差错的传输,还提供了新型的网络服务,为分布式事务处理和分布多媒体应用提供了保证。

适合于多媒体信息传输的高速网络协议是人们正在研究的课题。目前主要是针对开放式系统互联(OSI)七层协议进行一定扩展,使之适应于多媒体信息的特点。

a.扩展物理层以适应多媒体信息传输的高速宽带要求。

主要采用新型传输媒体和光纤,以提高数据传输率。

b.改进数据链路层和网络层以解决可用带宽和带宽分配间距。

主要是采用一些高速交换技术(如ATM等)以提高可用带宽,目前可用带宽可达几百Mb/s甚至几Gb/s。另一方面采用动态带宽分配策略以满足不同媒体需要并提供同步带宽。

c.扩展传输层以适应多媒体传输信息数据流的流量控制。

主要是采用前向差错纠正机制进行错误校验,并用基于速率的控制机制来进行流量控制,它是基于在传输前对传输速率的协商,这种方法非常适用于多媒体信息数据,尤其是通常需要有一个确定速率的连续媒体(语音、视频等)。

d.扩展对话层以适应多媒体信息的时间同步。

主要采用缓冲、反馈和时间戳的方法来进行多媒体信息时间同步的控制。

e.扩展表示层以适应多媒体信息的新数据类型。

对现有表示层的改进一般是对ASNI(FDDI的标准化)进行扩充,使其能处理诸如压缩的音频和视频等新的数据类型,同时还扩充其功能使之能够根据网络的可用带宽确定信息压缩的程度。

f.扩展应用层以适应多媒体信息的复杂应用。

定义一些面向多媒体信息的应用服务和协议,以适应多媒体信息传输的特殊应用服务。

由于多媒体信息和常规信息有很大差异,其网络协议也应有显著区别,因此,作为传输多媒体信息的多媒体通信网络,应结合多媒体信息及应用的特点来制定网络协议体系结构,提出一些不同于OSI(RM)的新型高速网络协议体系结构。

1.4.6 多媒体著作系统

多媒体著作系统是多媒体信息处理系统与用户的交流界面,它提供了对多媒体信息和设备的高层次的控制和管理,它支持许多硬件设备和许多文件格式,从而可以生成含有文本、图形、声音、动画和视频的复杂多媒体信息产品。同时还应具有流程控制能力,即具有对不同媒体信息、不同视听设备及不同软硬件进行综合、交互、同步的能力。在现有硬件设备基础上进行软件创作的能力,用户可以通过它进行多媒体应用的制作和演示。

1)多媒体编著工具应具有的基本功能(1)应有提供将各种媒体元素集成为应用程序的编程环境。除一般编程工具所具备的信息流控制能力(如循环、条件分支、数值计算、布尔操作等)之外,还应具有字符串处理工具、调试工具、时序控制、动态文件输入/输出和对应用程序的编译能力等。(2)具有超文本(Hypertext)功能。即从一个静态元素(如文字、短语,图符等)跳转到另一个相关的数据图像(可以是静态元素,也可以是基于时间的数据类型,如音乐、动画、视频等)进行编程的能力,并允许用户指定某个位置,作为返回时的标记。(3)具有各种媒体的输入能力。处理静态和动态媒体数据的能力。能从剪辑板或磁盘输入ASCII文件;播放声音和光盘音乐;能适应多种数据库文件的输入;能输出具有播放MIDI和视频图像的能力;能支持在系统上剪辑活动图像。(4)具有制作和处理动画的能力。即具有通过程序控制图像块移动(以便用来制作简单动画)和能播放外部制作的动画的能力。高水平的编著工具还应具有能通过程序来控制动画中物体运动的方向和速度,控制其清晰度,能进行图形路径编辑、动画过渡特技(淡入、淡出、透视编辑)以实现电影创作的能力。(5)具有应用程序连接的能力。能把外界的应用控制程序与所著作的软件连接然后返回第一应用。较高水平的编著工具应能进行程序间通信的热链接(如动态数据交换DDE)或另一对象的连接嵌入(OLE)。

2)选择应用多媒体编著工具的注意事项(1)选择一套多媒体编著工具要考虑它的编程环境、超级连接、媒体/数据输入、动画、应用连接、文档处理。(2)易学习性、易使用性、支持策略及性能价格比。(3)要考虑到应用范围、编辑方法、处理多媒体数据的种类。(4)具有独立播放多媒体信息的程序。(5)多媒体数据文件管理。(6)实现可扩充性。

3)多媒体应用软件的开发步骤(1)确定选题

确定多媒体应用软件要表现的主题宗旨、精神、经费和时间因素。(2)编写剧本

收集、整理、组织相关材料,拟出大纲,写出剧本,加上旁白说明。(3)素材准备

[1]写出情景脚本,并生成相应的文本文件。

[2]用创作、转录、效果处理等方式产生音乐。

[3]旁白说明的录制及速度控制。

[4]把图片输入计算机。

[5]采集编辑视频片段。(4)写作工具制作

用写作工具组织编排多媒体素材,最后形成产品。(5)程序加工

若写作工具不能达到实际需要的程度,再进行专门程序设计、补充,满足要求。(6)产品检验

专家鉴定、用户评议、收集意见、反复修改,直到满足要求为止。

4)多媒体编著系统的主流工具

多媒体的应用领域具有处理信息量大、应用面广的特点,开发这些应用程序的编著工具需要一个与设备无关的平台。Microsoft的Windows多媒体扩展(MME)作为多任务窗口系统,尤其是其与设备无关这一性能正好符合要求,因此,基于Windows的多媒体编著系统就成为多媒体应用程序的主流工具,它们主要有:(1)Authorware Professional

由美国Authorware公司开发的Authorware Professional for Windows是一种面向开发交互式教育培训多媒体应用系统的编著工具,具有良好的引导界面,能巧妙、有效地支持编著过程,功能强大。它同时也提供Macintosh版本。它有很强的综合编辑能力,可将文本、声音、图形、图像、动画和视频综合在一起生成一个用于学习、查询、仿真或娱乐的多媒体产品,具有方便的图符编辑手段和杰出的交互作用功能。(2)Multimedia ToolBook

由美国Asymetrix公司推出的Multimedia ToolBook是一种采用非程序性的面向对象(Object Oriented)来组织应用程序,使用Open Script语言来完成特定功能的编著工具。其结构很像放在书架上的工具书。用鼠标可以选中其中某本书,一页一页地浏览,每一页就是一屏。ToolBook提供了大量的工具,如工具条、调色板等。ToolBook功能易于扩充,用C语言写出具有扩展名的动态连接库(DLL)或EXE文件,实现编著所需特定功能。Multimedia ToolBook是一个灵活、通用的开发系统,面向那些懂一点编程但又不愿花时间用C语言那样完整的语言的人,它的价格较低。(3)Icon Author

AmiTech公司推出的Icon Author是另一种多媒体编著工具。它将文本、音频、高分辨率图形、动画、全运动视频组合在一起,生成交互式多媒体应用程序,用于计算机辅助训练、信息咨询的领域。Icon Author具有直观的编著过程,采用一种形象化方法在PC机上制作多媒体产品。其过程是先建立结构(流程图)再在结构上增加内容,即用流程图定义多媒体元素的流动过程,在图符(Icon)上添加内容。Icon Author有足够的工具用来开发交互式应用程序,在开发应用程序的过程中Icon Author的菜单选项还提供了很有帮助的工具。(4)Multimedia Viewer

Microsoft公司的Multimedia Viewer是基于面向文本应用而设计的。它包括一个多媒体应用软件创作环境Multimedia Viewer。作为该应用的主框架是Rich Text File。用户必须使用Microsoft Word处理数据。这对于含有大量文本的应用项目特别有利。其开发环境是基于应用的超级链接,不需要请求用户输入,也不需要使用数据输入或删除确认。它的有关超级链接多媒体格式的参考材料编写得很出色,并且提供自动的全文本检索目录。不过,值得一提的是,它目前提供的开发环境集成度不高,还有待改进。

这个产品最适用于建立含有大量文字描述信息的联机文档系统和教材。它没有实际的编程环境,使用它也不需过多的编程经验,因此可以为广大用户使用。然而它缺乏设计交互多媒体应用和动画工具,不能作为创作培训系统和娱乐系统应用的较好选择。(5)Macromedia Director

Macromedia公司通过模拟戏剧和电影的制作环境来构造Director的开发环境,事实证明,这个选择是正确的。舞台、剧本、脚本、演员和演员库都是多媒体应用的组成成分。这些从戏剧和电影的制作中借鉴来的术语正确地描述了多媒体制作的全部内容。

Macromedia公司把Director的脚本语言Lingo设计成一个完全面向对象的编程语言。这种设计使得Lingo易于使用、功能强大并且有很强的扩充性。Lingo是一种真正的多媒体开发语言。任何媒体对象(图像、视频、文本或形状)都被包装到一个指令集中,并在Director的上下文中使用Lingo定义不同对象之间的交互操作。而且Lingo现在已经和Web上出现的语言Java、JavaScript及Vbscript集成在一起。

Director采用了开放的策略,使得第三方开发商可以直接参与Director的开发。Macromedia公司开发出Shockwave。Shockwave使Internet网用户能够播放嵌在HTML页面里的Director电影,然后对它进行格式转换,生成Shockwave电影格式以便于在Internet网上传播,最后,把生成的Shockwave电影嵌到HTML页面里。

Director 8.0包含了一整套新的Lingo命令和其他一些工具,这些命令和工具用于创建既要基于CD-ROM,还要具有连接Internet网能力的应用。具有交互式学习和替身环境功能的多媒体应用软件,需要大量的数据,并且还要与网上其他站点通讯。对于这样的应用软件来说,将大量的、有价值的数据(例如视频、Quick Time Virtual Reality(QTVR)和动画元素)搭载在本地CD-ROM上,而在网上传输指令集和更新信息,将大大改善软件的性能。这种工作方式叫做混合式CD-ROM应用。Director包含的新命令和工具就是为这种应用设计的。Macromedia公司已经展示了对于Internet网上的多媒体应用的支持,而Internet网上的多媒体应用是多媒体产品的未来发展方向。

1.4.7 超文本和超媒体技术

无论是印在纸上还是存在计算机里的文本,都是一行接一行,一页接一页,有头有尾,顺序编排的。很多人也的确习惯于按顺序读书。那么,文本顺序编排、存放及顺序阅读是不是满足读者阅读需要的唯一或最好的方法呢?答案是否定的,因为人的思维和活动大多不是顺序的。比如读书,有时并不一定按编排顺序进行,特别是在搞研究时常会找一堆参考文献与主题书一起读,且为了省时和理解的需要,从一页“跳”到相关的另一页;从这本书“跳”到相关的另一本参考文献等等。同一个人,由于时间、环境、目的的变化,在不同时间阅读同一本书也会有不同的想法和不同的阅读方式。

如果用超文本技术组织一本书,那就大不相同了。所有正文(文章、段落、一句话、一个词)都按相互间的联系被组织成正文网。网中的信息不仅有该书籍的全部内容,还加入了许多相关参考资料,如作者简介,书中关键词汇的解释或定义,与书中某些内容相关的其他书籍的文章、段落等等。内容丰富而又全面。由于是信息网,而不是顺序存放的书,所以无所谓第一页和最后一页,由读者根据需要临时决定选择读什么、不读什么;先读什么、后读什么等。所以,超文本技术采用的组织和“阅读”方式更符合人的思维方式及工作习惯。

总之,超文本给人以更多的自由,计算机所做的只是按用户的“指令”(按一下鼠标或敲一两个键)存储和提取资料。它既利用了计算机强大的存储、管理能力,又充分发挥了人对信息的筛选能力,并将二者有机地结合在一起。因此,可以说超文本为计算机与人的交流提供了一种新的、更符合人习惯的方式。

超文本技术就是一种按信息之间关系非线性地存储、组织、管理和浏览信息的计算机技术。它是由信息结点和信息结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。结点是文本按其内部固有的独立性和相关性划分出来的基本信息块,可以是卷、文件、帧或字符文本集合,甚至可以是屏幕上的某一个小的区域。结点之间按照它们的自然关联,用链连接成网,链的起始结点称为锚结点,终止结点称为目的结点。一个结点可以通过不同的链对应几个不同的目的结点,而一个目的结点也可以通过不同的链与几个不同的锚结点相连。图1.1表示了一个简单的超文本结构。图1.1 一个简单的超文本结构

当多媒体技术有了长足的发展时,将超文本技术用于多媒体信息管理,就有了所谓的超媒体。也就是说,超媒体就是超文本加多媒体。由于从概念意义上讲,超文本和超媒体指的是同一种技术,是等价的,所以基于超文本与超媒体信息管理技术的系统称为超文本或超媒体系统。

一个理想的超文本系统应具有以下几个特征:(1)系统结点多媒体化,具有支持文本、图形、图像、声音等多种媒体的能力,用户界面以多窗口方式表现相关媒体。(2)系统复杂信息链结构网状化。为使用户每一时刻均可得到当前结点的邻接环境,应提供用户显示结点和链结构动态的总情况图。(3)系统一般使用双向链,以支持局域网(LAN)和Internet网的计算机网络,使用户通过网络共享数据库,同时使用库内信息。(4)用户可根据自己的联想和需要动态地改变(修改、增加、删除)网络中的结点和链。通过窗口化管理,实现对网络中的信息进行快速、直观、灵活的访问(浏览、查询、标注等)。(5)强调用户界面的“视觉和感觉”,提供丰富的交互式操作和应用程序接口。

超文本和超媒体的这些特征是区别于其他信息管理技术的主要标志。庞大的数据库是超文本及系统的基础。如何管理这个数据库并提供用户使用界面则是超文本系统的技术核心。超文本数据库与其他多媒体数据库的根本区别在于其信息块之间存在着关联。

[1]超文本系统的系统结构及组成要素有:结点、链、宏结点。

[2]结点是超文本与超媒体系统表达信息的基本单位。在创建超文本与超媒体系统时首先要根据信息间的自然关联,按需要把大块信息分成小的可管理的单元作为结点。

[3]链定义了超媒体的结构,引导用户在结点间移动,提供浏览和探索结点的能力。

宏结点是指连接在一起的结点群,它是超文本网络的一部分——子网。当超文本网络十分巨大或分散在各个物理地点上时,通过宏结点分层是简化网络结构最有效的方法。宏结点的引入虽然简化了网络结构,但增加了管理与检索的层次。

掌握超文本与超媒体的系统结构、基本原理和方法对于设计应用超媒体系统是非常必要的。

1.4.8 多媒体信息的组织和管理技术

随着多媒体应用的日益发展,多媒体应用项目的开发越来越频繁,其中如何对多媒体应用项目中的数据,包括文本数据、音频数据,图像数据、动画数据等多种类型的数据进行管理是一个关键的问题。在当前技术条件下获取、整理、转换、传输、存储和输出(显示和播放等)多媒体数据信息的硬件设备和软件产品费用都很高,从而导致了多媒体应用项目的开发费用昂贵。对多媒体数据资源进行有效管理的优点是:一是可以有效降低开发成本;二是可以实现资源的综合利用、数据共享,例如建立可供不同项目中使用的相同或类似的资源数据库;三是可以加快信息检索、替换等操作速度,从而提高多媒体应用程序的执行效率。

数据处理及数据管理是计算机的重要功能。直到今天,数据管理经历了由程序员管理数据到计算机管理数据的演变,这种演变是为了避免数据冗余,提高应用程序相对于数据的独立性及实现对数据完整性的集中检查。

第一阶段,程序员自行编制输入/输出程序,直接将数据存储在外存储器上。第二阶段,输入/输出及存储分配实现了标准化,由操作系统决定,从而使应用程序不需要考虑存储结构参数。这类程序存取方法有SAM(顺序存取方法)、ISAM(索引顺序存取方法)等。第三阶段,出现了公用数据库系统。第四阶段,这个阶段的标志是关系型数据库的出现,关系型数据库具有良好的数学基础和简便的表达形式,因此直到目前为止,关系型数据库系统在市场上仍占据着绝对的统治地位。第五阶段,为了适应多媒体技术和信息高速公路的发展,出现了多媒体数据库。

从前面的讨论中,我们已经知道,多媒体数据具有以下一些特点:(1)数据量巨大。传统的数值、文本类数据一般都采用编码表示,数据量不大,但多媒体数据中的视频、音频等数据量却非常大,如动态视频传输速率达每秒几十兆字节,这给多媒体数据的存储检索等都带来了一定的困难。(2)数据类型繁多、差别大。有图形、图像、声音、动态视频、文本、音乐等多种形式,针对不同类型的数据,很难通过一种统一的方法来进行处理。此外,声音、动态视频等都属于时基类媒体,都存在着同步问题。(3)有些多媒体信息对处理时间要求高。多媒体信息中的音频和动态视频信息对时间特别敏感,在使用这些信息时,必须保证其时间上的要求,即传输、处理过程所产生的时延必须小于规定的限制,否则会使这些信息失真甚至变得毫无意义。(4)多媒体信息往往需要多种信息集成、共同描述。例如,某种多媒体信息既包括图像,又有声音,还有文字说明,这就改变了传统数据库的操作形式,尤其是数据库的建立和查询操作。

1)多媒体数据的管理环境

由于多媒体数据类型多,数据量大,必须以一定的软件及硬件设备为基础对其进行有效的管理。这主要包括多媒体数据的存储介质、数据传输方式即多媒体数据库的类型和实施方法两个方面。(1)多媒体数据的存储介质

多媒体数据的存储介质有两种:第一种是可更换的硬盘。第二种是光盘,目前常用的有CD-ROM只读光盘、WROM、一次写入后可多次读出和可读写光盘等。(2)多媒体数据的传输方式

多媒体数据库及其应用项目的开发需要多台计算机共同协作完成,因此,不可避免地存在多媒体数据的传输问题,目前可供选择的数据传输方式有以下三种:

第一种方法使用可更换的介质进行人工传输。这是最简单,最传统的方法。可更换的介质可以是软盘、硬盘或光盘等。

第二种方法使用串行端口实行点对点的传输。这种方法成本低且容易实现,但只能完成两台计算机之间的数据传输。

第三种方法使用网络系统实现计算机之间的数据传输。利用网络系统,可以实现网络上的任意一台计算机与另一台计算机之间的数据传输。特别是分布式计算机技术的发展,使具有不同硬件结构、互不兼容操作系统的计算机之间的数据传输得以实现。在使用网络系统实现数据传输时,一方面应选择网络中适当的节点来存放相应的多媒体数据,以满足多媒体数据传输量大,速度高的要求;另一方面还应考虑数据安全保密,诸如备份、恢复、防窃、抗干扰和访问权限等问题。

2)多媒体数据的管理方法

在对多媒体应用项目进行开发之前,首先要建立多媒体数据库资源。确定一种能对多媒体数据库进行有效管理的方法,可避免对数据资源的浪费,提高应用开发速度,降低成本。目前较为有效的数据库资源管理方法大致有五种:(1)文件管理系统

这种方法利用操作系统提供的文件管理系统对多媒体数据资源按不同媒体、不同使用方法或不同类别建立不同属性的数据文件,并对这些文件进行维护和管理,供各种多媒体应用开发程序使用。(2)建立特定的逻辑目录结构

这种方法实际上也是利用了操作系统提供的文件管理系统,所不同的是将各类源文件和数据库文件放在不同的目录下进行管理。在一些软件的演示程序中常采用这种目录结构形式,在上级目录中存放某应用项目创建和运行所必需的目录和文件,在下级目录中存放与该特定目录有关的目录和文件,在再下一级目录中分别包含多种多媒体数据的文件。(3)传统的字符、数值数据管理系统

这种方法是目前开发多媒体应用系统常用的方法,它实际上是把文件管理系统和传统的字符、数值数据库管理系统两者结合起来。对多媒体数据资源中的常规数据(字符、整型数、浮点数等)由传统数据库管理系统来管理,而对非常规的数据(音频、视频、图形、图像、动画等),则按操作系统提供的文件管理系统要求来建立和管理,并把数据库文件的完全文件名作为一个字符串数据纳入传统的数据库系统进行管理。(4)多媒体数据管理系统(Multimedia Database Management System,MDBMS)

我们知道,多媒体数据主要有文本、图形、图像和声音等多种数据类型,它们与传统的字符、数值数据有着很大的不同,因而其存储结构、存取方法、数据模型和数据结构也不同。如果有一种数据管理系统能够对多媒体数据和传统的字符数值数据采用统一的方法进行管理,将是最理想也是最有效的数据管理方法,这种数据管理系统就是多媒体数据库管理系统。该系统在实现对多媒体共享数据有效的组织、管理和存取的同时,还可以实现以下功能:[1]多媒体数据库对象的定义;[2]多媒体数据库运行的控制;[3]多媒体数据库的建立和维护;[4]多媒体数据库在网络上的通信功能。

虽然目前还没有能够真正像传统数据库管理系统管理字符、数值数据库那样来管理多媒体数据的多媒体数据库管理系统,但不少商品化数据库管理系统(如ORACLE、SYBASE、INFORMIX等),使用一种新的数据类型——大二进制对象BLOB(Binary Large Object)来定义记录中的非格式化数据类型的字段。BLOB有两种类型:一是文本BLOB,由有效的文本字符组成;二是字节BLOB,是二进制数据流,可以含有任意数字化数据,包括图像、视频、音频等多媒体数据。(5)超文本和超媒体(Hypertext and Hypermedia)

超文本与超媒体是多媒体信息管理的一种自然实用的新型技术。窗口系统为它提供了漂亮直观的用户界面。这种技术用计算机进行思考、传播信息,并符合人类的“联想”式思维习惯。

1.4.9 多媒体分布应用技术

1)多媒体通信系统

分布式多媒体系统的基础是多媒体通信。它是多媒体计算机技术与通信技术相结合的产物,为人类提供更多样、更先进的通信手段。

多媒体通信系统从本质上讲,具有以下三个特性。(1)集成性:多媒体系统的集成性体现为多媒体信息媒体的集成,并处理这些媒体设备与设施的集成。多媒体通信系统的集成性体现为至少可以对两种以上的媒体(文本、声音、图像、视频等)进行处理,并且至少可以显示输出两种以上的媒体。同时从系统组成上讲,它是集多种编码器、解码器,支持多种显示方式,能够与多种显示媒体进行通信的多媒体通信系统。(2)交互性:用户由“被动”的接收转为“主动”的获取是交互性的典型特性。用户终端和系统具有交互能力。用户可以通过终端对通信的全过程进行交互控制。这是多媒体通信系统的一个重要特征。(3)同步性:多媒体通信终端要以同步方式输出图像、声音和文本。多媒体通信要将不同媒体信息从不同信息库中提取,经过不同的传输媒体,并将这些声、文、图信息同步,构成一个完整的资料,通过多媒体通信终端提供给用户。

因此,多媒体通信系统比一般的通信系统具有一些新的特点。首先,在传输速率上要求高。由于多媒体通信数据量大,所以通常要求传输速率高而且有时要求提供不变、可变或面向突发的传输速率。其次,要求信息的同步。在多媒体通信环境中,有时需要解决并行、串行和事件驱动的同步问题,如不同信息类型通信连接的交叉同步,信息检索和信息计算同步等。视频和音频信息的同步比不同数据通信流之间的同步更为严格。第三,多媒体通信系统对传输误码率的要求较低。多媒体通信中数据通信的实时性要求比一般视频和音频的低,但-10-12是误码率要求高。数据传输可接受误码率一般为10~10。而对于-7-8视频和动画可接受的误码率为10~10。第四,多媒体通信系统要求动态重构。在多媒体通信系统中一般要包括多种连接形式,有时系统要求与其他通信伙伴或服务器进行动态连接或断开,这就要求多媒体通信系统具有较强的拓扑适应性和动态重构能力。

2)分布式多媒体系统

多媒体通信系统可以提供一种满足应用需要的多媒体数据端到端交换和产生机制。但仅有通信网络还远远不够,只有把多媒体的集成性、交互性与通信结合起来才能发挥更大的作用。这就需要分布处理的能力。分布处理就是将所有介入到分布处理过程中的对象、处理及通信都统一地控制起来,对合作活动进行有效地协调,使所有任务都能正常完成。分布式多媒体系统是多媒体信息处理系统与多媒体通信系统的有机结合。把多媒体引入到分布处理领域后将有许多建立在通信传输之上的分布处理与应用问题需要研究。比如,如何使得各项多媒体应用能在分布环境下运行?如何提供远程多媒体信息服务?如何通过分布环境解决多点多人合作问题?为了解决这些问题,分布式多媒体系统增加了诸如全局名字空间、客户/服务器计算、全局时钟和分布对象管理等方面的能力,使得多媒体的资源能在更大的范围内共享。分布式系统的设计问题和多媒体系统的设计问题在很大程度上是互补的。例如,分布式调度研究集中在负载均衡和负载共享上,而多媒体系统则更多地考虑实时调度和服务质量的保证。所以,看待分布式多媒体系统不能只是把它看成是分布式系统增加了多媒体的数据,也不能看成是多媒体系统放在网络上运行。虽然在分布式多媒体系统中我们总能看见传统分布式系统的影子,但这两者所研究、考虑的问题和出发点是很不相同的。

根据信息传输方式,可以把分布式多媒体系统的典型应用系统分成以下两类。(1)基于对称信息传输模式的分布式多媒体系统,又叫全双工的对称模式,它是分布式计算机支持的协同编辑系统、设计系统等。这类系统的特点是信息在结点之间的传输是对称的。例如,会议系统中结点A的会场视频数据需要传递到结点B,同样也可能需要将结点B的会场视频数据传送到结点A。又如,对多用户协同编辑系统,在异地的多个编辑小组成员共同编辑一本多媒体著作时也需要对称的信息传输模式。(2)基于非对称信息传输模式的分布式多媒体系统。这是多媒体通信和分布式多媒体系统带来的一个较新的概念。典型的应用系统包括:交互式电视系统(Interactive TV,ITV)、视频点播系统(Video on Demand,VOD)、数字图书馆、远程教育系统、远程医疗系统等。交互式电视系统就是一种典型的信息传输不对称系统,数据发送量和接收量有较大的不对称性。

1.4.10 标准化

标准化是国际上重点研究和讨论的课题之一。目前在多媒体方面已经形成许多国际标准,在讨论和研究多媒体软件、硬件和系统结构时,都应遵循这些标准。随着多媒体技术的发展,也要制定新的标准。

本书将在后继章节中对一些重要的国际标准进行详细的讨论。

1.5 多媒体技术的应用领域

随着多媒体技术的蓬勃发展,计算机已成为许多人的良师益友。作为人类进行信息交流的一种新的载体,多媒体正在给人类日常的工作、学习和生活带来日益显著的变化。

目前,多媒体应用领域正在不断拓宽。在文化教育、技术培训、电子图书、观光旅游、商业及家庭应用等方面,已经出现了不少深受人们喜爱和欢迎的以多媒体技术为核心的多媒体电子出版物。它们以图片、动画、视频片断、音乐及解说等易于接受的媒体素材将所反映的内容生动地展现给广大读者。

下面就一些主要的应用领域做一些简单的介绍。

1.5.1 多媒体技术在教育中的应用

1)幼儿启蒙教育

幼儿认识世界首先是从声音和外界变化多姿的“图片”开始的,带有声音、音乐和动画的多媒体软件,不仅更能吸引他们的注意力,也使他们有身临其境的感觉,像自己的亲身经历一样,在不知不觉的游戏中学到知识。

2)计算机辅助教学

计算机辅助教学是深化教育改革的一种有效手段,作为一种新兴的教育技术,具有很强的生命力,尤其是多媒体技术的加入,使得多媒体计算机辅助教学系统更加生动形象,让学生在极大的兴趣当中学到所需的知识,并能够自行调整教学内容和学习方法,从而达到了因材施教的个性化教学。

目前计算机辅助教学市场火暴,前景较为乐观。主要用于以下几个方面:所学知识重点难点的指导;知识掌握程度的测试;素质教育的帮助;实验操作环境的提供。学习者可以根据自己的兴趣、爱好及实际需要,自由学习和自行提高。

计算机辅助教育软件通常称为课件,它是传统教学方式的一种补充,起到了扩大教学手段、扩充课堂教学内容和因材施教、帮助学生灵活运用知识的作用。然而在推广和应用多媒体课件时出现了一些困难,主要体现在:

[1]课件是面向个体、非传统的群体教育,然而,教育的群体化效应是不能忽视的。

[2]学生不能直接和老师进行实时交流,课件教学远不如课堂教育来得生动,很难吸引学生,也不符合学生的认识规律。

[3]学生的学习绝大多数仍然处于被动状态。课件程序往往已经设计了操作步骤,学生只能照葫芦画瓢。

要充分利用现代科学技术(不仅仅是多媒体技术)来改革传统的教育观念、技术和内容,以迎接21世纪对教育提出的挑战,适应学历教育、继续教育、职业教育、远程教育等各种教育类型。许多高校探索性地提出了许多解决方案,针对多媒体技术在教育中应用的热点已从单纯考虑如何准备教学资源,发展为有效地使用这些资源,提出了“综合采用现代化教育技术,构建现代化教育环境”的新多媒体教室方案。学校教学活动最终也是最有效的场所是教室,理想教室的教学资源应该从学校的闭路电视网和校园网上得到。因此,多媒体教室除进行课堂教学外,应该具备接收来自各个不同渠道教学信息的功能(包括Internet网上的信息)。多媒体教室应该是学校闭路电视网、校园网、Internet网及电话网在教学活动上的总和。图1.2 多媒体教室信息资源图1.3 多媒体教室资源共享及支持系统

从图1.2和图1.3中可以看到,多媒体教室不仅具有计算机教室、语音教室的功能,同时还具备电视教学、实验室、会议室以及远距离教室的功能,是支持各类信息(不仅仅是多媒体技术)教学的中心。在这种环境下,校园网的功能将得到有效的应用,即除了常规的信息管理功能外,还需进一步通过多媒体技术,为教育服务,如网上备课、授课、辅导、教学资源共享、查询等。

3)大众化教育

多媒体技术可以使传统的以校园教育为主的教育模式,变为更能适应现代社会发展的以家庭教育为主的教育模式,这使得现代人的继续教育完全走向家庭,实现无校舍和图书馆,也能在家或办公室看到图、文、声并茂的多媒体信息。以获得自己所需要的新知识,使得终身化教育更易于实现。随着网络技术的发展和因特网技术的不断完善,跨越时空的网络学校不断出现,学习者有了真正意义上的开放大学,不再为由于种种原因无学可上而烦恼,他们只需一台电脑和一条电话线就能足不出户上学读书。全民素质教育将会大幅度提高。

4)技能训练

员工技能训练是商业活动中不可缺少的重要环节。传统的员工训练,是教师和员工在同一时间、同一教室实施。首先是教师示范操作、讲解,然后指导员工亲身体验,这种方法成本相当高,尤其是机械操作技能的训练,不仅需要消耗大量的产品原材料,同时操作失误还可能给员工造成身体上的伤害,而多媒体技能训练系统的出现,不仅可以省去这些费用和不必要的身体伤害,同时多媒体生动的教学内容和自由的交互方式使员工乐于学习,且学习时间更加自由,效率自然会无形地提高。

1.5.2 多媒体技术在商业中的应用

商业的竞争已从单纯的价格竞争,转移到服务的竞争。如何方便用户,如何更好地为用户服务,让用户满意,是众多商家需要解决的问题。

1)商场导购系统

目前各大商场都在扩建、装修,新开业的商场不仅宽敞、明亮,而且货物齐全,给用户带来方便。随着面积的成倍增大、摊位的不断增多,同样给不常逛商场的人带来麻烦。为了解决这些用户面临的实际问题,多数商家提出了导购指南,由专门人员负责回答顾客提出的咨询,而聪明的商家则利用多媒体技术,开发了商场购物导购系统,如顾客有问题即可以用电子触摸屏向计算机咨询,不仅方便快捷,同时给顾客以新鲜感。

2)电子商场、网上购物

随着网络技术的发展,因特网已走进千家万户,机智的商家也紧跟时代潮流,纷纷上网介绍自己的商品范畴、销售价格、服务方式等。不仅扩大了自家的知名度,同时使那些喜爱上网的顾客足不出户即可满足逛商场的需求,选到满意的商品,通过E-mail即可买到所需的商品。

3)辅助设计

在建筑领域,多媒体将建筑师的设计方案变成完整的模型,让购房者提前看房;在装饰行业,客户可以将自己的要求告诉装饰公司,公司利用多媒体技术将其设计出来,让客户从各个角度欣赏,如不满意可重新设计,直到满意后再行施工,避免了不必要的劳动和浪费。

4)多媒体售货亭

多媒体售货亭,可以看作是ATM(自动取款机)和POS(Point of Sale)的延伸和发展。和居家购物一样在购买某个商品时,可在现场通过多媒体技术展现商品的使用/应用效果,以决定是否购买。如购买家具前可根据自己的居室情况获得布置效果。

5)多功能信息咨询和服务系统

多功能信息咨询和服务系统在国外常被称作POI(Point of Information),旅游、邮电、交通、商业、气象等公共信息以及宾馆、百货大楼的服务指南都可以存放在多媒体数据库中,向公众提供“无人值守”的多媒体咨询服务、商务运作信息服务、旅游指南等。目前,POI的应用越来越广泛。

1.5.3 多媒体技术在通信中的应用

多媒体技术的应用,离不开通信技术、网络技术的支持,在通信领域中融合进多媒体技术,其应用的范围越来越广,涉及面越来越宽。即使是前述的多媒体在教育以及在商业中的应用也离不开通信及网络技术的支持,随着Internet网的普及及相关技术的进一步发展,可以说多媒体技术、通信技术和网络技术将成为21世纪信息时代的重要技术和应用支柱。

1)远程医疗“时间就是生命”这句话用在医疗上再恰当不过了。以多媒体为主体的综合医疗信息系统,可以使医生远在千里之外就可以为病人看病。病人不仅可以身临其境地接受医生的询问和诊断,还可以从计算机中及时得到处方。对于疑难病例,各路专家还可以联合会诊。这样不仅为危重病人赢得了宝贵的时间,同时也使专家们节约了大量的时间。

2)视听会议

多媒体视听会议使与会者不仅可以共享图像信息,还可共享已存储的数据、图形、图像、动画和声音文件。在网上的每一个会场,都可以通过窗口建立共享的工作空间,互相通报和传递各种信息,同时也可对接受的信息进行过滤,并可在会谈中动态地断开和恢复彼此的联系。

3)MUD、MOO与网络游戏

MUD是多用户城堡(Multi-User Dungeon)、多用户域(Multi-User Domain)或多用户维(Multi-User Dimension)的缩写。不管它代表什么,MUD都是一个联机环境,在这个环境中可以多人交互操作。它是最早的一种多人游戏。

MUD有如下的几种优点:(1)允许许多人可以在跨地区的许多计算机上一起玩。(2)游戏被分成许多虚拟的空间,以便在一个空间的人或物不会影响到另一个空间的人或物。(3)所有的交互内容以文字出现,没有图片或声音。(4)大多数代码由学校里的学生来完成维护,并且可以公开地得到。(5)实物、空间和人物的组合可以由简单的命令来完成,而其他语言编写的MUD游戏允许有更复杂的命令和道具。

在一些MUD系统中,用户仅仅与其他已登录的使用者相互影响,类似于一个联机聊天系统;在另一些MUD系统中,用户能通过一个游戏世界相互影响,在这个游戏世界,用户可以独自或与已登录的其他玩家一起冒险、攻击敌人、聚集财富。另外,用户玩一种游戏的时间必须足够长,以便在新的区域加入到游戏中时能进入精灵级别。允许用户自己改变和增加MUD世界,这是MUD所具备的特别和有趣的特点之一。

MOO是用面向对象技术构建的MUD。例如,在这个环境中,玩家与玩家之间,或玩家与目标之间相互影响、相互作用。使用MOO,许多现实世界中的交流动作仍然存在,如在该环境中与他人交谈或表达感情、在其他地方追随他人、悄悄传递消息、使用CB频道等。异步信息交流工具包括内部的电子邮件、新闻组、新闻报纸、家教空间、白色公告牌等。

今天,从MUD/MOO发展起来的网络游戏,使用动画、3D图像、音频、虚拟现实等多媒体技术,以及人工智能等技术,其效果是MUD完全无法比拟的,并已经发展成为一种产业。

4)IP电话

IP电话是在Internet网上传输多媒体信息的一个特例——传送语音信息。IP电话有多个英文同义词。常见的有VOIP(Voice over IP)、Internet Telephone和VON(Voice on the Net)等。

IP电话的含义有两种不同的解释。

狭义的IP电话是指在IP网络上打电话。所谓“IP网络”就是“使用网际协议IP的网络”的简称。这里的网络可以是Internet网,也可以是包含有传统的电路交换网的Internet网,不过在Internet网中至少要有一个IP网络。

广义的IP电话则不仅仅是电话通信,而且还可以是在IP网络上进行的交互式多媒体的实时通信(包括话音、视像等),甚至还包括即时传信(Instant Messaging,IM)。即时传信是指在上网时就能从屏幕上得知有哪些朋友也正在上网。若有朋友正在上网,则彼此可在网上即时交换信息(文字的或声音的),也包括使用一点对多点的多播技术。因此,IP电话可看成是一个正在演进的多媒体服务平台,是话音、视像、数据集成的基础结构。在某些条件下(例如使用宽带的局域网),IP电话的话音质量甚至还优于普通电话。

1.5.4 电子出版物

随着计算机技术、多媒体技术的发展,电子出版物越来越普及,大量的图书资料已被存放在光盘上,通过多媒体终端进行阅读,图书馆的多媒体阅览室已相当普及。可以将电子出版物分成网络型电子出版物和单机型电子出版物两类。

1.5.5 家庭娱乐

1)电子影集

人们可以自行在多媒体计算机上制作出工作和家庭生活的图片簿——电子影集。这种影集不仅记录了美好、难忘的瞬间,同时还可以将该照片的前后经历,甚至有意义的事件一一记录下来。

2)娱乐游戏

家人在一起除了共同生活起居外,更应有娱乐教育的活动。在与家人共处时,能够有共同的乐趣与娱乐是件非常美好的事受到了大众的青睐。CD-ROM版本的电子游戏,以其动听悦耳的声音、别开生面的场景。

3)电子旅游

旅游是绝大多数人都乐于参与的一项社会性活动,因为旅游不仅可以领略美好的自然风光,了解各地的风土人情,同时还可以陶冶情操;另外旅游还可以增进友谊、广交朋友,尤其是一家人一起出游更是美不胜言,然而这一切都需要足够的时间和费用。多媒体光盘的出现可以使人们足不出户就可以“置身”于自己心中向往的旅游胜地,轻轻松松地“周游”世界。

1.5.6 办公自动化

办公自动化的主要内容是处理信息,办公系统也可以认为是一种信息系统。多媒体技术在办公自动化中的应用主要体现在声音和图像的信息处理上。

1)声音信息

声音信息的应用一方面是自动语音识别或声音数据的输入,目前通过语音自动识别系统,即可将人的语言转换成相应的文字;另一方面是语音的合成,即给出一段文字后,计算机会自动将其翻译成语音,并将其读出来,这一技术被广泛用于文稿的校对上。

2)图像识别

图像识别技术的应用,可以实现手写汉字的自动输入和图像扫描后的自动识别,即通过OCR系统,将扫描的图像分别以图形、表格、文字的格式存储,供用户使用。

3)电子地图

到目前为止,已有许多CD-ROM版本的电子地图面世。在电子地图中既可介绍世界上各个国家的地理位置及相应的人口、国土面积,还可介绍该国的风土人情、当地方言、特产等。电子地图相比普通地图的优点是可以精确到每一个城镇中的每一个街道,这不仅为在当地旅游的游客提供了很大的方便,而且还能让坐在计算机旁的异国他乡的“游客”,做到足不出户就可以同样领略到当地的民俗和风貌。

1.5.7 国防和军事领域

由于多媒体的技术特点,它将被广泛用于战场和军事的指挥、控4制、通信、计算机和情报等CI系统的应用过程和功能显示中。在实4际的CI系统中,多媒体可作为各功能模块间的接口。例如,在情报处理系统中,高空侦察机及侦察卫星拍摄的大量影像和军事照片不便于检索,利用多媒体技术可以完成对情报系统各种影像和照片的处理。美国情报部门已采用多媒体技术来处理卫星影像和照片。

此外,也可以利用多媒体技术将作战命令传达过程中指挥员的口述命令,以及口头答复下级的请示等语音信息记录下来并直接存入计算机,既真实地记录下作战指挥的全过程,又便于检索、查询、总结作战经验教训。在战场态势控制方面,多媒体技术也大有用武之地。如某一时期的战争景观可通过多媒体来形象直观地进行显示,并可方便地进行人机交互,以供指挥员实时掌握战场势态,分析敌情、我情和地形,迅速做出指挥决断,完成兵力部署和作战命令的下达,从而大大提高部队的作战效率和快速反应能力,为战争赢得宝贵的时间。

另外,计算机模拟培训(Computer Based Training,CBT)系统的出现和使用,也给飞机、舰艇、装甲车辆、导弹的操作和维护提供了一种更加直观、形象的训练手段,并可以节省大量的经费。

1.6 多媒体计算机的发展趋势

多媒体计算机技术进一步的发展趋势将有以下几个方面:

1)进一步完善计算机支持的协同工作环境CSCW(Computer Supported Collaborative Work)

目前,随着多媒体计算机硬件体系结构和视频音频接口软件的不断改进,尤其是采用了硬件体系结构设计和软件、算法相结合的方案,使多媒体计算机的性能指标进一步提高。在多媒体计算机的发展中,还有一些问题有待解决。例如,还需进一步的研究满足计算机支持的协同工作环境的要求;多媒体信息空间的组合方法,要解决多媒体信息交换、信息格式的转换以及组合策略;由于网络延迟,存储器的存储等待,传输中的不同步以及多媒体等时性的要求等,因此还需要解决多媒体信息的时空组合问题,系统对时间同步的描述方法以及在动态环境下实现同步的策略和方案。这些问题解决后,多媒体计算机将形成更完善的计算机支持的协同工作环境,消除了空间距离的障碍,也消除了时间距离的障碍(可以充分享用历史的设计的资料)为人类提供更完善的信息服务。

2)智能多媒体技术

1993年12月,英国计算机学会在英国Leeds大学举行了多媒体系统和应用国际会议,Michael D.Vision在会上作了关于建立智能多媒体系统的报告,明确提出了研究智能多媒体技术问题。他认为:多媒体计算机要充分利用计算机的快速运算能力,综合处理声、文、图信息,要用交互式弥补计算机智能的不足,进一步的发展就应该增加计算机的智能。

目前,国内有的单位已经初步研制成功了智能多媒体数据库,它的核心技术是将具有推理功能的知识库与多媒体数据库结合起来,形成智能多媒体数据库。另一个重要的研究课题是将多媒体数据库应用到基于内容检索技术。如把人工智能领域中的高维空间搜索技术,视音频信息的特征抽取和识别技术,视音频信息的语义抽取问题,知识工程中的学习、挖掘及推理等问题应用到基于内容检索技术中。

总之,把人工智能领域某些研究课题和多媒体计算机技术很好地结合,是多媒体计算机长远的发展方向。

3)把多媒体信息实时处理和压缩编码算法集成到CPU芯片中

过去,计算机结构设计中较多地考虑了计算机功能,主要用于数学运算及数值处理。最近几年,随着多媒体技术和网络通信技术的发展,要求计算机具有综合处理声、文、图信息及通信的功能。大量的实验分析表明,在多媒体信息的实时处理、压缩编码算法及通信中,大量运行的是8位和16位定点矩阵运算。把这些功能和算法集成到CPU芯片中要遵循下述几条原则:压缩算法采用国际标准,使多媒体功能的单独解决变成集中解决;体系结构设计和算法相结合。

为了使计算机能够实时处理多媒体信息,需要对多媒体数据进行压缩编码和解码,最早的解决办法是采用专用芯片,设计制造专用的接口卡。最佳的方案应该是把上述功能集成到CPU芯片中。从目前的发展趋势看,可以把这种芯片分成两类:一类是以多媒体和通信功能为主,融合CPU芯片原有的计算功能,其设计目标是用于多媒体专用设备、家电及宽带通信设备;另一类是以通用CPU计算功能为主,融合多媒体和通信功能,其设计目标是与现有的计算机系列兼容,同时具有多媒体和通信功能。

2 音频信号处理技术

随着多媒体技术的发展及计算机数据处理能力的增强,音频处理技术得到了越来越多的重视,并得到了广泛的应用。例如,视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、视频会议中的话音;游戏中的音响效果;电子读物的有声输出等等。

本章主要介绍了声音数字化的基本概念,然后阐述了声卡的功能、工作原理,音频压缩技术、标准及语音识别技术。

2.1 音频处理基础

2.1.1 声音的特性及分类

1)声音信号

声音是人耳所感知的空气振动,振动越强,声音就越大。声音信号通常用连续的随时间变化的波形来表示,是模拟信号,是关于时间的连续函数,又称模拟音频,如图2.1所示。

2)声音信号的基本参数(1)频率和带宽

信号每秒钟变化的次数,称为频率,单位是Hz。频率高,则音调高;频图2.1 模拟音频率低,则音调低。人耳可感受到的声音信号频率范围为20~20000 Hz。这个范围内的声音信号称为音频(Audio)信号。一般来说,频率范围(带宽)越宽,声音质量越高。

CD质量(Super HiFi)音频带宽为10~20000 Hz;

FM无线电广播的带宽为20~15000 Hz;

AM无线电广播的带宽为50~7000 Hz;

数字电话话音带宽为200~3000Hz。(2)周期

相邻声波波峰间的时间间隔。(3)幅度

表示信号强弱的程度。幅度决定信号的音量,幅度越大,其信号强度越大。(4)复合信号

音频信号由许多不同频率和幅度的信号组成。在复音中,最低频率为基音,其他频率为谐音,基音和谐音组合起来,决定了声音的音色。

3)声音信号的特点(1)音调:音调与声音的频率有关,频率快则音调高,频率慢则音调低。如图2.2所示。图2.2 300~3000Hz人说话的频率范围

次声波信号:频率小于20 Hz的信号,人耳不能听到。

音频信号:频率在20 Hz~20 kHz之间的信号,这个信号人耳可以听到。

超声波信号:频率高于20 kHz的信号。

语音信号:频率在300~3000 Hz。(2)音强(响度):用来描述声音的强弱,体现在声音振幅的大小。感知声音强弱的度量单位有如下两种,它们是完全不同的概念,但是它们之间又有一定的联系。2

[1]物理学:声压(Pa)或声强(W/cm)。

[2]心理学:响度级[方(phon)或宋(song)]。

当声音弱到人的耳朵刚刚听见时,此时的声强,称之为听阀;另一种极端的情况是当声音强到人的耳朵感到疼痛,此时的声强称为痛阀。在听阀和痛阀之间的区域就是人耳的听觉范围。(3)音色:由混入基音的泛音所决定,每个基音有其固有频率和不同音强的泛音,从而使每种声音具有特殊的音色效果。

4)声音的分类

从声音是振动波的角度来说,波形声音实际上已经包含了所有的声音形式,是声音的最一般形态。(1)语音:这是人类口头表达信息的手段。人的说话声不仅是一种波形声音,更重要的是它还包含丰富的语言内涵,是一种特殊的媒体。它可以经过抽象,提取其特定的成分,达到对其意思的理解。(2)音乐:音乐与语音相比,形式更为规范一些,音乐是符号化的声音,也就是乐曲。乐谱是乐曲的规范表达形式。(3)效果声:是指自然界发出的声音,含有特定的含义,如风声、雨声、雷声、狗叫声等。

衡量声音质量的标准:对语音来说,常用可懂度、清晰度、自然度来衡量;而对音乐来说,保真度、空间感、音响效果等都是重要的指标。

2.1.2 声音信息的数字化

在计算机内所有信息均以二进制数表示,如各种命令、各种幅度的物理量都是以不同的数字表示,声音信号同样是用一系列的数字表示。把模拟声音转换成由二进制数1和0组成的数字音频文件的过程就称为声音的数字化。声音信息的数字化转换过程如图2.3所示。图2.3 声音信息的数字化转换过程

1)声音信号的描述(1)声音信号时间域描述法:音频信号的频率范围是20 Hz~20 kHz,声音信号可以表示为随时间变化的连续波形,即以时间为横轴,振幅为纵轴的连续变化的单值函数曲线。声音信号的强弱程度用分贝做单位,它是对声音信号取对数运算后得到的值,如图2.4所示。图2.4 声音信号的幅度描述图2.5 声音信号的频率描述(2)声音信号频率域描述法:用声音信号的频率成分来描述声音信号。声音信号的频率是指声音信号每秒钟的变化次数,单位为Hz,用f表示,周期T=1/f,T的意义是信号变化一个周期所需要的时间,或者说是信号的2个峰值点之间的时间,如图2.5所示。

2)声音信号的数字化过程

首先用麦克风作为传感器把声能转换为电能。(1)采样

作用:把连续的声音信号变成离散的声音信号。

模拟声音在时间上是连续的,数字音频是一个数据序列,在时间上只能是断续的,因此,当把模拟声音变成数字声音时,需要以固定的时间间隔(采样周期)抽取模拟信号的幅度值,这个过程称为采样。

[1]采样频率f的概念

采样后得到的是离散的声音振幅样本序列,称为采样值,或称为样本,仍是模拟量。单位时间内采样次数称为采样频率f,采样频率越高,越接近模拟信号的精度,声音的保真度越好,但采样获得的数据量也越大。在MPC中,采样频率标准定为:11.025 kHz、22.05 kHz、44.1 kHz。

[2]采样定理

对时间连续的函数X(t),按一定的时间间隔T取值,得到离散信号X(nT)。n为整数,T为采样周期,1/T为采样频率。对于一般波形而言,当满足f>2f时,采样不失真。f是信号的高端截止频率。cc

根据采样定理,采样频率f必须高于该信号所含的最高f的两倍,才可保证原模拟信号的质量。如11.025kHz的采样频率仅能捕获低于22.05 kHz的音频;又如对于完全的声波,频率在20~20000 Hz之间,则采样f>2×20000=40000 Hz时,才可获得较佳的听觉效果。

[3]常用的采样频率f有三种,如表2.1所示:表2.1 常用采样频率(2)量化

作用:把采样得到的信号幅度的样本值从模拟量转换成数字量。

采样后的信号,在时间上是离散的,但其幅值仍是连续的模拟信号。量化是将采样所得到的幅值序列X(nT),量化成有限个幅度值B的集合X,即用二进制数进行编码,用B位二进制码可以表示2个不同的量化电平。

数字量的二进制位数是量化精度。在MPC中,量化精度标准定为8位或16位。量化精度越高,所得到的数字化波形与原来的模拟波形越接近,量化误差越小。采样和量化的过程称为模/数(A/D)转换。(3)编码

作用:把数字化声音信息按一定数据格式表示。

量化以后会丢失某些信息。量化的精度越高,丢失的信息就越少,但量化的精度过高,会产生较多的位数,从而占用较多的存储空间和耗费大量的处理时间。

声音数字化后,常以波形声音的文件格式WAV存储,称为数字化波形声音。如图2.6所示。图2.6 WAV格式数字化波形图

2.1.3 数字音频的文件格式

1)WAV文件

WAV是Microsoft公司的音频文件格式。来源于对模拟信号的直接采样,各采样点的值以8位或16位量化位数表示,其文件大小为:

WAV文件字节数=采样频率(Hz/s)×量化位数×声道数/8

当采样频率为44.1(kHz),量化位数为16,含左右声道时,1秒钟立体声WAV文件的大小是:44100×16×2/8=176400字节

WAV文件还原而成的声音音质取决于声音卡采样频率的大小,采样频率越高,音质越好,但形成的WAV文件就越大,因此减小WAV文件的主要途径是降低采样频率。声卡采样、编码的有关参数,如表2.2所示。表2.2 采样、量化与数据量

波形音频一般适用于以下几种场合:(1)播放的声音是讲话语音,音乐效果对声音的质量要求不太高的场合。(2)需要从CD-ROM光驱同时加载声音和其他数据,声音数据的传送不独占处理时间的场合。(3)需要在PC机、硬盘中存储的声音数据在1分钟以下,以及可用存储空间足够大的时候。它是Windows所使用的标准数字音频。

2)VOC文件

VOC文件是Creative公司波形音频文件格式。

利用声霸卡提供的软件可实现VOC和WAV文件的转换:程序VOC2WAV转换Creative的VOC文件到Microsoft的WAV文件;程序WAV2VOC转换Microsoft的WAV文件到Creative的VOC文件。

3)MIDI文件

MIDI文件是(Musical Instrument Digital Interface)乐器数字化接口的缩写。

MIDI是一种技术规范,它定义了把乐器设备连接到计算机端口的标准以及控制PC机MIDI设备之间信息交换的一套规则,它是数字式音乐的国际标准。把MIDI信息作为文件存储起来,这个文件就成为MIDI文件,其扩展名为MID。它与波形文件不同,记录的不是声音本身,而是将每个音符记录为一个数字,实际上就是数字形式的乐谱,因此可以节省空间,适合长时间音乐的需要。

MIDI文件和WAV文件的采样方法不同,MIDI文件没有记录任何声音信息,只是发给音频合成器一系列指令,指令说明了音高、音长、通道号等音乐信息,具体发出声音的硬件是合成器。编写MIDI音乐有专门的软件,播放音乐时,首先由MIDI合成器根据MIDI文件中的指令产生声音,然后将该声音信号送到声卡模拟信号混合芯片中进行混合,最后从扬声器中发出声音。MIDI文件比WAV文件小得多。一个30分钟的立体声音乐,以MIDI文件格式存储需要200 KB,而同样音质的波形文件需30 MB的空间,但MIDI标准对语音的处理能力差。

4)MP3文件

MP3全称是MPEG Layer 3,狭义上讲就是以MPEG Layer 3标准压缩编码的一种音频文件格式。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案(Perceptual Coding Schemes)。按照压缩质量(每bit的声音效果)和编码方案的复杂程度分别是Layer 1、Layer 2、Layer 3。所有这三层的编码采用的基本结构是相同的。

MPEG语音编码具有很高的压缩率,我们通过计算可以知道1分钟CD音质(44100 Hz×16 bit×60 s×2声道)的WAV文件如果未经压缩需要10 MB左右的存储空间。而MPEG Layer 1和Layer 2这两层的压缩率分别可达1:4和1:6~1:8,MPEG Layer 3的压缩率更是高达1:10~1:12,也就是说一般1分钟的CD音质的音乐经过MPEG Layer 3压缩编码可以压缩到1 M左右而基本保持不失真,这也就是我们所说的MP3音乐文件。一张650 MB的光盘原来只能存储大约十几首CD歌曲,现在却可以存储上百首MP3歌曲。因此,市场上先后出现了许多MP3软件播放器和MP3播放机,备受广大年轻人的喜欢,但MP3至今没有版权保护。

5)WMA文件

WMA(Windows Media Audio)是微软开发的Windows媒体格式之一,这是一种可以与MP3格式叫板的音频格式。它压缩比高、音质好,同样音质的WMA文件的体积只是MP3文件的1/2,甚至更小,更加有利于网络传输。在48 Kb/s的码率下可获得接近CD的品质,在64 Kb/s的码率下则可以获得与CD相同的品质。

6)RA文件

随着流媒体技术的发展,人们可以实现在网上边下载边收听歌曲,边下载边欣赏视频节目的愿望。RealAudio就是RealNetworks公司开发的新型流式音频文件,其文件后缀为.RA(RealAudio)。这是为了解决网络传输带宽资源而设计的,主要用于在低速率的广域网上实时传输音频信息。RealPlayer、Winmap就是用来播放流式音频文件的两种著名的播放器。

除了RA外,Real格式的文件扩展名还有AU、RM、RAM、RMI等,AU格式的文件是音频的;RA、RM格式的文件既有音频,也有视频;RAM、RMI文件通常应用在网页中,是一种文本文件,其中包含RA或RM文件的路径,点击其链接后会启动RealPlayer来播放RA或RM文件。

上述介绍的几种音频文件格式,各自有各自的特点及应用环境,在必要的时候,可以利用转换工具实现不同文件格式的转换。

2.2 声卡

2.2.1 声卡的发展历史

音频卡是处理各种类型数字化声音信息的硬件,多以插件的形式安装在微机的扩展槽上,也有的与主板集成在一起。音频卡又称声音卡,简称声卡。

作为多媒体电脑的象征,声卡的历史远不如其他PC硬件来得长久。不过回顾一下声卡的技术发展历程是非常有意义的,更有利于全面认识声卡的技术特点和发展趋势。

1)从PC喇叭到ADLIB音乐卡

在声卡还没有被发明的时候,PC游戏是没有任何声音效果的。即使有,那也是从PC机小喇叭里发出的那种“滴里啦”的刺耳声。虽然效果差,但在那个时代这已经令人非常满意了。直到ADLIB声卡的诞生,才使人们享受到了真正悦耳的电脑音效。

ADLIB声卡是由英国的ADLIB AUDIO公司研发的,最早的产品于1984年推出,它的诞生开创了电脑音频技术的先河,所以它是名副其实的“声卡之父”。由于是早期产品,它在技术和性能上存在着许多不足之处。虽然我们称之为“声卡”,但其功能却仅局限于提供音乐,而没有音效,这是非常遗憾的缺陷。在相当一段时间里,ADLIB声卡曾是多媒体领域的一个重要标准,直到CREATIVE崛起后,ADLIB才逐渐退出历史舞台。如今已经很难在市场上看到它们的产品,但Windows的驱动程序信息库中却依然保留着ADLIB的位置。

2)Sound Blaster系列——CREATIVE时代的开始

CREATIVE公司,国内又称“创新”公司。Blaster声卡(声霸卡)是CREATIVE在20世纪80年代后期推出的第一代声卡产品,但是在功能上已经比早期的ADLIB卡强出不少,其最明显的特点在于兼顾了音乐与音效的双重处理能力,这是CREATIVE引以为豪的,所以在声卡发展的历程中,Sound Blaster具有划时代的意义。虽然它仅拥有8位单声道的采样率,在声音的回放效果上精度较低,但它却使人们第一次在PC上得到了音乐与音效的双重听觉享受,在当时红极一时。

此后,CREATIVE又推出了后续产品——Sound Blaster PRO(SB PRO),它增加了立体声功能,进一步加强了PC机的音频处理能力。因此SB PRO声卡在当时被编入了MPC1标准(第一代多媒体标准),成为发烧友们追逐的对象。

在取得了音乐与音效的完美组合之后,CREATIVE并没有满足现状,他们在技术上继续寻求新的突破。Sound Blaster与Sound Blaster PRO都只有8位的信号采样率,音质比较粗糙;SB PRO虽然拥有立体声处理能力,但依然不能弥补采样损失所带来的缺憾。Sound Blaster 16的推出彻底改变了这一状况,它是第一款拥有16位采样精度的声卡,通过它实现了CD音质的信号录制和回放,使声卡的音频品质达到了一个前所未有的高度。在此后相当长的时间内Sound Blaster 16成为了多媒体音频部分的新一代标准。

从Sound Blaster到SB PRO,再到SB 16,CREATIVE逐渐确立了自己声卡霸主的地位。随着技术的发展和成本的降低,也使得声卡从一个高不可攀的奢侈品高度(早期的声卡非常昂贵),渐渐成为了普通多媒体电脑的标准配置。

3)SB AWE系列声卡——MIDI冲击波

Sound Blaster系列声卡发展到SB 16这一款,已经是非常成熟的产品体系了。但是SB 16与SB、SB PRO一样,在MIDI(电子合成器)方面采用的都是FM合成技术,对于乐曲的合成效果比较单调乏味。到了20世纪90年代中期,一种名为“波表合成”的技术开始趋于流行,在试听效果上远远超越了FM合成。于是,CREATIVE在1995年适时地推出了具有波表合成功能的Sound Blaster Awe 32声卡。SB Awe 32具有一个32复音的波表引擎,并集成了1 MB容量的音色库,使其MIDI合成效果大大超越了以前所有的产品。

虽然Awe 32的效果比FM高出不少,但还远远不能体现出MIDI的真正神韵,其中音色库容量小是主要原因。因此,CREATIVE又在1997年推出了Sound Blaster Awe 64系列,其中的“重磅炸弹”——SB Awe 64 GOLD更是拥有了4 MB的波表容量和64复音的支持,使MIDI效果达到了一个空前的高度。Awe 32和Awe 64作为与SB 16系列共存的产品系列,在MIDI合成能力上下了不小的功夫,但是由于这种性能提升需要以增加产品成本为代价,真正的市场反应并不好。

4)PCI声卡——新时代的开始

从Sound Blaster一直到SB Awe 64 GOLD,声卡始终是采用ISA接口形式的。不过随着技术的进一步发展,ISA接口过小的数据传输能力成为了声卡发展的瓶颈。把接口形式从ISA转移到PCI成为了声卡发展的大势所趋。PCI声卡从理论上具有加大传输通道(ISA为8 MB/s,PCI可达133 MB/s),提升数据宽带的功能。从而在声卡上实现了三维音效和DLS技术,使得声卡的性能得到多方面提升,但总体成本却能大幅度下降,可谓两全其美。目前,CREATIVE的主力产品——Sound Blaster Live!系列就是最为典型的高档PCI声卡产品,代表了当今较高的技术水平。

近年来又涌现出了不少新兴的声卡芯片开发设计厂商,客观上起到了进一步加剧市场竞争的作用。而随着技术的迅速发展,厂家们已经不再局限于在性能上兼容CREATIVE的产品,而是力求取得属于自己的特色和发展空间。可以预见,今后声卡将向功能多样化、声音信号数字化的方向发展,CREATIVE一家独霸天下的历史将一去不复返。

2.2.2 声卡的声道

(1)单声道:当通过两个扬声器回放单声道信息的时候,人们可以明显感觉到声音是从两个音箱中间传递到耳朵里的。(2)立体声:声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。在音乐欣赏中,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想像力,更加接近于临场感受。(3)四声道环绕:四声道环绕规定了4个发音点:前左、前右,后左、后右,听众则被包围在这中间。同时还可以增加一个低音音箱,以加强对低频信号的回放处理。核心是三维音效。(4)5.1声道:5.1声道即Dolby Digital 5.1和DTS 5.1两种数字多声道环绕声音频格式。它具左右两路主声道、中置声道、左右两路环绕声道和一个重低音声道。前面5个声道都是全频域声道,重低音声道是一个不完全声道,只发120 Hz以下的低音,称之为0.1声道,这样便构成了5.1声道格式,如图2.7所示。(5)6.1声道:6.1声道指Dolby Digital EX和DTS ES两种数字多声道环绕声音频格式。它们都是一种扩展型环绕声音频格式,即分别在Dolby Digital 5.1和DTS 5.1的基础上,为了让左右环绕声衔图2.7 5.1声道接得更好而增加后中间一路环绕声道,这便形成了6.1声道格式。(6)7.1声道:7.1声道指THX Surround EX系统。THX是Lucas公司对电影院的一种认证标准,不是音频格式。它严格地制订了电影院相关影音器材与环境的标准,只要符合THX标准且经过认证,就能有相当的水准。这样只要消费者选择具有THX认证的影院,就会有绝佳的影音享受。后来THX移植到家庭影院,认证高品质的视听器材,并针对家庭环境的不同有着独特的要求。例如在5.1声道系统中,它要求的环绕声是双向发声的侧声道,而非单向发声的后声道,以达到电影院那种多只扬声器阵列排列的效果。可见THX并非Dolby Digital和DTS那样为一种音频格式,而是一种音频后处理模式,目的是获得更佳的视听享受。当6.1声道的Dolby Digital EX和DTS ES出来后,THX将其进一步演化成THX Surround EX系统,为了兼容原双向发声的侧声道和再度加强环绕声效包围感,于是在原侧音道的基础上又增加了两只后声道,这就构成了7.1声道。值得注意的是,THX Surround EX是将Dolby Digital EX和DTS ES的6.1声道扩展成7.1声道,并不是一种音频录音格式,它将其环绕声效表现得更佳而已。(7)8.2声道:8.2声道首次出现在YAMAHA的DSP-AX1 AV扩大机中,称之为10声道扩大机。它是为了加强环绕声场的效果,在Dolby Digital EX和DTS ES的6.1声道的基础上,增加了YAMAHA独家的前置环绕声道(喇叭箱放置在主声道的后上方),再增加一只重低音输出,后中间环绕声也由单路扩展成双路,这就构成了YAMAHA独家的8.2环绕声。

2.2.3 声卡的功能和分类

1)声卡的功能

声卡的功能主要有以下几个方面:音频录放、编辑与合成、MIDI接口、文语转换和语音识别以及CD-ROM接口和游戏棒接口等。(1)音频录放

通过声卡,人们可将外部的声音信号录入计算机,并以文件形式保存,需要时只需调出相应的声音播放即可。使用不同声卡和软件录制的声音文件格式可能不同,但它们之间可以相互转换。

录音声源有:麦克风、立体声线路输入、CD。(2)编辑与合成

编辑与合成就像一部数字音频编辑器,它可以对声音文件进行各种特殊的处理,如倒播、增加回音效果、静噪音、往返放音、交换声道等。

音乐合成功能和性能主要是依赖于合成芯片。(3)MIDI接口

用于外部电子乐器与计算机之间的通信,实现对多台带有MIDI接口的电子乐器的控制和操作。MIDI音乐存放成MID文件比以WAV格式存放的文件更节省空间。MID文件也能被编辑和播放,甚至可在计算机上作曲,通过喇叭播放或控制电子乐器。(4)文语转换和语音识别

文语转换指把计算机内的文本转换成声音,如可以通过语音合成技术使计算机朗读文本;通过采用语音识别功能,让用户通过说话指挥计算机等。

一般的声卡只能合成英文语音,但国内清华大学和中国科学院等单位开发的汉语文语转换软件能将计算机内的文本文件或字符串转换成汉语语音,并具有语音信箱的功能,大大扩展了语音合成技术的应用范围。(5)声卡的其他接口

[1]CD-ROM接口:声卡提供了CD-ROM接口,使其可与CD-ROM驱动器相连,实现对CD唱片的播放,如果再加上一对较好的功放音箱,计算机将具有组合音响的功能。

[2]游戏棒接口:标准的PC游戏棒接口,可接一个或两个游戏棒。

2)声卡的分类

声卡的分类主要根据数据采样量化的位数来分,通常分为8位、16位、32位等几类,位数越高,量化精度越高,音质就越好。

2.2.4 声卡的工作原理

声卡的工作原理其实很简单,麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,两者不能混用,声卡的作用就是实现两者的转换。在结构上,声卡可分为模/数(A/D)转换电路和数/模(D/A)模转换电路两部分。模/数转换电路负责将麦克风等声音输入设备采集到的模拟声音信号转换为电脑能处理的数字信号;而数/模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号。

声卡的工作原理框图主要由以下几个部分组成:(1)声音的合成与处理

这是音频卡的核心部分,它由数字声音处理器、调频(FM)音乐合成器及乐音数字接口(MIDI)控制器组成。这部分的主要任务是完成声波信号的A/D和D/A转换,利用调频技术控制声音的音调、音色和幅度等。(2)混合信号处理器

混合信号处理器内置数字/模拟混音器,混音器的声源由MIDI信号、CD音频、线路输入、麦克风等组成。可以选择一个声源或几个不同的声源进行混合录音。(3)功率放大器

由于混合信号处理器输出的信号功率还不够大,不能推动扬声器或音箱,所以一般都有一个功率放大器把功率放大,使得输出的音频信号有足够的功率,如图2.8所示。图2.8 声卡结构图(4)总线接口和控制器

总线接口有多种,早期的音频卡为ISA总线接口,现在的音频卡一般是PCI总线接口。

总线接口和控制器是由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及直接存储器访问(DMA)控制逻辑组成。

2.2.5 声卡的外接插口

声卡通过一些外部接口实现声音信号的采集和播放。不同厂商的声卡其功能不一样,提供的外部接口也有所不同,但通常都应该有下面所列出的一些接口,如图2.9所示。(1)声音信号输入接口(Line In)

通过该插孔可以把其他声音设备,如收录机等设备的音频输出信号连接到声卡,以便通过声卡播放或者记录下来存入计算机中。(2)麦克风输入接口(Mic In)

该插孔与话筒连接,以便接收从话筒来的音频输入信号。(3)声音信号输出接口(Line Out)

用于与外部的功率放大器连接,输出音频信号。有源音箱应该与此插孔连图2.9 声卡的外部接口接。(4)喇叭输出接口(Spk Out)

用于与耳机、无源音箱或者喇叭连接,一般有2~4 W的输出功率。(5)游戏杆和MIDI插孔

用于与操纵杆或MIDI设备连接。(6)CD输入连接器

与CD-ROM的音频信号线相连接,这样就可以播放CD唱盘的音乐了。(7)CD-ROM驱动器接口

可用于与CD-ROM驱动器连接。有的声卡没有这个连接器,采用IDE接口的CD-ROM可以直接插入主板上的IDE接口,不必使用这个连接器。

2.3 音频压缩技术和标准

2.3.1 概述

数字化的音频信号必须经过编码处理,以适应存储和传输的要求,并且在音频信号再生时,得到最好音质的声音。音频压缩技术涉及到三个方面:压缩和解压缩后音频信号的还原性和高质量;压缩比;压缩和解压缩算法计算的复杂性。

音频信号的压缩方法有:

2.3.2 声音压缩标准

1)ITU-T G系列声音压缩标准

国际上主要有国际电信联盟(ITU)和国际电工委员会(IEC)两个国际标准组织研究制订电信方面的标准。IEC着重制订与产品有关的标准,而ITU则着重制订与应用有关的标准,ITU的全称是International Telecommunication Union。国际电联电信标准化部门(ITU-T)主要制订全球电信领域中有关技术和应用方面的标准。国际上,对于语音信号压缩编码的审议在CCITT下设的第十五研究组进行,相应的建议为G系列。ITU-T在G系列建议中对语音编码技术进行了标准化,已经公布了一系列语音编码协议,采用波形基编码方式的主要有G.711、G.721、G.722、G.723、G.726、G.727,采用参数基编码方式的主要有G.728、G.729、G.729A、G.723.1。(1)G.711

1972年,CCITT为电话质量和语音压缩制定了PCM标准G.711,其速率为64 Kb/s,使用μ律或A率的非线性量化技术,主要用于公共电话网中。(2)G.722

1988年,CCITT为调幅广播质量的音频信号压缩制定了G.722标准,它使用子带编码方案(SBC),其滤波器组将输入信号分成高低两个子带信号,然后使用ADPCM进行编码。G.722能将224 Kb/s的调幅广播质量的音频信号压缩为64 Kb/s,主要用于视听多媒体和会议电视等。

G.722标准把音频信号采样频率由8 kHz提高到16 kHz,是G.711PCM采样率的2倍,使得要被编码的信号频率由原来的3.4 kHz扩展到7 kHz,从而使音频信号的质量明显高于G.711的质量。(3)G.723

1996年,ITU-T通过了用于多媒体传输的5.3 Kb/s或6.3 Kb/s双速率话音编码的G.723标准,可应用于可视电话及IP电话等系统中。(4)G.728

1992年,CCITT为进一步降低压缩的速率制定了G.728标准,其速率为16 Kb/s,主要用于公共电话网中。(5)G.729

1996年3月,ITU-T通过了G.729标准,它使用8 Kb/s的共轭结构代数码激励线性预测算法,应用于无线移动网、数字多路复用系统和计算机通信等系统中。

2)MPEG音频编码标准

MPEG代表的是MPEG活动影音压缩标准,MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层(MPEG AUDIO Layer 1/2/3),分别与MP1、MP2和MP3这三种声音文件相对应。MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4:1和6:1~8:1,而MP3的压缩率则高达10:1~12:1,也就是说1分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。因此,目前Internet网上的音乐格式以MP3最为常见。

Layer 3算法与Layer 1和Layer 2算法框架基本相同,区别在于完成32位均匀子带样点分割后,对每个子带作改进的离散余弦变换(MDCT),将其映射到频域的18个样点上(共576个样点)。在心理学模型计算中也采用不同于Layer 1和Layer 2的算法。量化器采用噪声造型(Noise Shaping),而不是Layer-1和Layer-2的线形量化,样点编码采用霍夫曼编码,而不是PCM编码(Pulse Code Modulation)。另外在多声道扩展中,Layer 3在Layer 1和Layer 2的基础上增加了MS矩阵编码。Layer 3是对Layer 1、Layer 2向下兼容的一种算法,在低码率时比Layer 1和Layer 2有明显的优势。但Layer 3也有不足之处,在纯语音的编码上的性能不是很好。在最新的MPEG-4标准中,音频编码将包含语音编码和感知编码。如表2.3所示。表2.3 MPEG 1 Audio三个压缩层次

MP3格式开始于20世纪80年代中期(1987年),1998年,当Winamp作为免费的音乐播放器在网络上传播的时候,开始了MP3的狂潮。

MP3是一个让音乐界产生巨大震动的一个声音格式,MP3格式可以使音乐文件在音乐质量做很小牺牲的情况下将文件大小缩小很多。MP3文件能以不同的比率压缩,但是压缩得越多,声音质量下降得也越多。标准的MP3压缩比是10:1,一个3分钟长的音乐文件压缩后大约是4 MB。

音乐信号中有许多冗余成分,其中包括间隔和一些人耳分辨不出的信息(如混杂在较强背景中的弱信号)。CD声音不经压缩,采用44.1 kHz的固定速率采样,可以保证最大动态音乐的良好再现,当然,信息量较少处的数据量也是相同的,因而存在压缩的可能性。频宽为20~20 kHz(顶级CD Player可向下延伸至2 Hz)的音响已成为目前的音乐标准。MP3为降低声音失真采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然它是一种有损压缩,但是它的最大优势是以极小的声音失真换取较高的压缩比。

MP3采用与杜比AC-3相似的变压缩比率(VBR)压缩技术,采样的压缩比率依照音乐中信息的多寡,并利用人耳的掩蔽效应来减少冗余数据。经过MP3编解码后,尽管还原的信号与原信号不完全一致,仪器实测的指标也不高,但主观听音效果却基本未受影响,而数据量却大大减少,只有原来的1/10~1/12,约1 MB/min。也就是说,一张650 MB的CD盘可容纳超过10小时的近似CD音质的音乐(44.1 kHz,16 bit)。换句话说,采用44.1 kHz的取样率,MP3的压缩比例能够达到1:10~1:12,而且基本上拥有近似CD的音质。

MP3作为高质量的音乐压缩标准,已成为Internet网上最常见的音乐格式,正影响着越来越多的人的生活。目前,在Internet网上,有众多可供下载MP3音乐文件的站点,并出现了很多MP3编、解码软件和硬件设备。

3)MP4

MP3问世不久,就凭借较高的压缩比和较好的音质创造了一个全新的音乐领域,但MP3的开放性不可避免地导致了版权之争,在这样的背景下,文件更小、音质更好、并能有效保护版权的MP4应运而生了。

MP3是一个音频压缩的国际标准,而MP4却是一个商标的名称,它采用美国电话电报公司(AT&T)开发的以“知觉编码”为关键技术的a2b音乐压缩技术,能将压缩比成功地提高到15:1而不影响音乐的实际听感。MP4的特点如下:(1)每首MP4乐曲就是一个.exe的可执行文件,使用方便。(2)体积更小和音质更好。采用a2b音频压缩技术,使MP4文件大小仅为MP3的3/4左右,更适合在Internet网上传播。(3)采用了独特的“Solana”数字水印技术,方便追踪和发现盗版发行行为。针对MP4的非法解压,可能导致MP4原文件的损毁。(4)支持版权保护。MP4乐曲中内置了作者、版权持有者等版权说明,既可声明版权,又表示了对作者和演唱者的尊重。(5)比较完善的功能。能独立调节左右声道音量控制,内置波形/分频动态音频显示和音乐管理器,支持多种彩色图像,网站链接及无限制的滚动显示文本等。

4)AC-3编码和解码

AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适应增量调制(ADM),它把20 kHz的宽带立体声音频信号编码成512 Kb/s的数据流。AC-1曾在卫星电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它采用类似MDCT的重叠窗口的快速傅里叶变换(FFT)编码技术,其数据率在256 Kb/s以下。AC-2被应用在PC声卡和综合业务数字网等方面。

AC-3是在AC-1和AC-2基础上发展出来的多通道编码技术,因此保留了AC-2的许多特点,如窗处理、变换编码、自适应比特分配;AC-3还利用了多通道立体声信号间的大量冗余性,对它们进行“联合编码”,从而获得了很高的编码效率。AC-3采用基于改良离散余弦变换(MDCT)的自适应变换编码(ATC)算法。ATC算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论,即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显。因此,划分频带的滤波器组要有足够锐利的频率响应,以保证临界频带外的噪声衰减足够大,使时域和频域内的噪声限定在掩蔽门限以下。

在AC-3编码器的比特分配技术中,采用了已广泛应用的前向和后向自适应比特分配原则。前向自适应方法是编码器计算比特分配,并把比特分配信息明确地编入数据比特流中。它的特点是在编码器中使用听觉模型,因此修改模型对解码器没有影响;其缺点是要占用一部分有效比特,用来传送比特分配信息。后向自适应方法没有从编码器得到明确的比特分配信息,而是从数码流中产生比特分配信息,优点是不占用有效比特,因此有更高的传输效率;缺点是从接受的数据中计算比特分配,计算不能太复杂,否则解码器的成本升高,另外编码器中的听觉模型更新后,解码器的算法随之也要做相应改变。AC-3采用的是混合前向/后向自适应比特分配,因此克服了后向自适应方法的大部分缺点。

AC-3的开发起源于HDTV,但首先是在电影中使用,这使人们真正享受到5.1通道立体声效果。美国已选定AC-3为HDTV的声音编码标准,并在1996年亚特兰大奥运会上试验播出。在美国,AC-3已用于数字有线电视,以取得与HDTV相容,初期仍以两声道节目为主,随着AC-3多声道节目丰富后,将会以多声道节目为主。AC-3还可应用于高密度多功能光盘DVD的声音标准。

2.4 MIDI

MIDI是音乐与计算机结合的产物。MIDI泛指数字音乐的国际标准,初始建于1982年。多媒体Windows支持在多媒体节目中使用MIDI文件。标准的多媒体PC平台能够通过内部合成器或连到计算机MIDI端口的外部合成器播放MIDI文件。利用MIDI文件演奏音乐,所需的存储量最少,如演奏2分钟乐曲的MIDI文件只需不到8 KB的存储空间。

2.4.1 MIDI标准的内容

(1)规定了电子乐器与微型机之间连接的电缆和接口标准(用两端带有5针D型插头的电缆线)。(2)规定了电子乐器之间或电子乐器与微型机之间传送数据的通信协议。(3)定义了如何对音乐进行编码。编码表相当于乐谱,通过发送编码互相通信。

2.4.2 MIDI标准的优点

(1)生成的文件比较小,无需压缩

MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。

MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其他装置让它产生声音或执行某个动作的指令,因此MIDI文件记录的是发出声音的命令,而不是声音波形。

MIDI文件结构紧凑,很适合在网上传播,若记录1分钟音乐只需10 KB,而采用波形文件(.WAV)则需10 MB,相差1000倍,所以不需要压缩。(2)便于编辑

编辑命令比编辑声音波形要容易得多,可以对每个细节进行处理,如曲子的音调和速度都可随意修改。(3)可以作背景音乐

MIDI音乐可以和其他的媒体,如数字电视、图形、动画、话音等一起播放,作为配音或伴音,可以加强演示效果。

2.4.3 产生MIDI音乐的方法

1)频率调制合成法(Frequency Modulation,FM)

FM合成器算法要解决的问题就是如何用13个参数的组合产生不同的乐音,例如,用什么样的波形作为数字载波波形?用什么样的波形作为调制波形?用什么样的波形参数去组合?

声音包络发生器用来调制声音的电平,这个过程也称为幅度调制,并且作为数字式音量控制旋钮。

2)乐音样本合成法,也称为波形表(Wavetable)合成法

方法:把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。

优势:可以合成FM不能产生的乐音,声音更加逼真。

2.4.4 MIDI系统

MIDI数据流:是单向异步的数据位流,速率31.25 Kb/s,每单位10位(1位开始位,8位数据位和1位停止位)。

MIDI乐器上的MIDI接口通常包含IN(输入)、OUT(输出)和THRU(转发)三种MIDI连接器。

MIDI数据流来源:MIDI控制器(MIDI controller)。

MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的MIDI数据流。常用的是乐器键盘(musical instrument keyboard)和MIDI音序器(MIDI sequencer)

MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。

MIDI数据流的接收设备:MIDI声音发生器(MIDI sound generator)或者MIDI声音模块(MIDI sound module)。它们在MIDI IN端口接收MIDI信息,然后播放声音。

1)一个简单的MIDI系统

由一个MIDI键盘控制器和一个MIDI声音模块组成。

许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,但可以通过该设备中的控制功能(local control)打开(ON)或者关闭(OFF)该链接。

2)复杂的MIDI系统

单个物理MIDI通道(MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器。在MIDI信息中,用4个二进制位来表示这16个逻辑通道。

音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收。

在一个MIDI设备上的MIDI IN连接器接收到的信息可通过MIDI THRU连接器输出到另一个MIDI设备,并可以菊花链的方式连接多个MIDI设备,这样就组成了一个复杂的MIDI系统。

3)用PC机构造的MIDI系统

在这个系统中,PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。

应用软件通过PC总线把信息发送到MIDI接口卡,MIDI接口卡把信息转换成MIDI消息,然后送到多音色声音模块,同时播放出许多不同的乐音。

使用安装在PC机上的高级MIDI音序器软件,用户可把MIDI键盘控制器连接到MIDI接口卡的MIDI IN端口,也可以有相同的音乐创作功能。

多媒体个人计算机(MPC)规范要求声卡必须有MIDI接口和MIDI声音模块,称为合成器。合成器分为FM合成器和波表合成器两种。

2.5 语音识别技术

让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。语音识别是一门交叉学科,关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。

2.5.1 语音识别的发展历史

语音识别的研究工作大约开始于20世纪50年代,当时AT&T Bell实验室实现了第一个可识别10个英文数字的语音识别系统——Audry系统。

60年代,计算机的应用推动了语音识别技术的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔科夫模型算法(HMM)理论。在实践上,实现了基于线性预测频谱和DTW技术的特定人孤立语音识别系统。

80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN与HMM模型建立的语音识别系统性能相当。图2.10 语音识别技术的发展

进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

我国语音识别研究工作起步于50年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中国科学院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际上最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三个选项识别率达99.96%,并且可以识别普通话与四川话两种语言,达到了实用要求。

2.5.2 语音识别的分类

通常语音识别系统有以下几种分类方式:

1)按可识别的词汇量分类

根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量识别系统。(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百至上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度,词表越大,困难越多。

2)按语音的输入方式分类

根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。(1)孤立词识别系统。一次只提供一个单一词的识别,用户必须把输入的每个词用暂停分开,如识别0~9十个数字、人名、地名、控制命令、英语单词、汉语音节或短语。(2)连接词识别系统。连接词的语音由所说的短语组成,而短语又是由词序列组成。对连接词识别时需要用到词与词之间的连接信息,如连呼数字串的识别。(3)连续语音识别系统。连续语音由完整句子组成,它需要更大的词汇表比较,因此,连续语音的识别比孤立词、连接词语音识别要复杂得多。连续语音识别系统可以分成三部分:

第一部分包括数字化、幅度归一化、时间归一化和参数表示;第二部分包括分割并把语音段标记成在基于知识或基于规则系统上的符号串;最后一部分是设计用于识别词序列而进行语音段匹配。

3)按发音人分类

根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。(1)特定人语音识别系统。对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练,具体方法是由特定人口述待识词或指定字表,系统建立相应的特征库,之后,特定人即可口述待识词由系统识别。特定人系统的优点是它是可训练的,系统很灵活,可以训练它来识别新词;缺点是由一个用户训练的系统不能被另一个用户使用,如果训练系统的用户得了常见的感冒或声音有些变化,系统就会识别不出用户或犯错误。在支持大量用户的系统中,存储要求是很高的,因为必须为每个用户存储语音识别数据。(2)非特定人语音识别系统。非特定人语音识别系统可识别任何用户的语音,它不需要任何来自用户的训练,因为它不依赖于个人的语音签名。不管是男声还是女声,也不管讲的是普通话还是方言,都没有关系。为生成非特定人语音识别系统,大量用户训练了大词汇表的识别器,在训练系统时,男声和女声,不同的口音和方言,以及带有背景噪音的环境都计入了考虑范围之内,以生成参考模板。系统并不是为每种情况下的每个用户建立模板,而是为每种声音生成一批模板,并在此基础上建立词汇表。

2.5.3 语音识别的工作原理

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图2.11所示。图2.11 语音识别的实现过程

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

1)语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节结构,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

2)特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征参数提取就是完成这项工作的技术。它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉、感知方面的一些研究成果。实验证明,采用这种技术对语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但性能难以与上述技术相比,有待进一步研究。

3)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔科夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音和大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔科夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔科夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔科夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的情况下,CHMM优于DHMM和SCHMM。

HMM模型的训练和识别都已研究出有效的算法,并不断完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不具有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

2.5.4 语音识别的困难与对策

语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解,但是对机器来说,识别系统利用这些方面的知识有效地描述这些语法和语义还有困难。另外,目前研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。

具体来讲,困难主要表现在以下几方面:(1)语音识别系统的适应性差。主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。(2)高噪声环境下语音识别进展困难。因为此时人的发音变化很大,像声音变高、语速变慢、音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。(3)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。(4)我们对人类的听觉理解、知识积累、学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。(5)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决。如识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等等技术细节需要解决。

为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大交互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络等等所有这些努力都取得了一定成绩。

不过,如果要使语音识别系统性能有较大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。

2.5.5 语音识别的前景和应用

目前世界各国都加快了语音识别应用系统的研究开发,并已有一些实用的语音识别系统投入商业运营。在美国语音识别系统的销售额逐年上升,由于使用了语音识别系统,使企业赢得了巨额收入。

在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想像一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作似乎是不可能的了。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术相结合使人们能够脱离键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天,特别是中小词汇量对非特定人语音识别系统识别精度已经大于98%,而对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并已取得很好的效果。此外,已经应用的系统还有AT&T 800语音识别服务系统、NTT ANSER语音识别银行服务系统、Northen Telecom股票价格行情系统,使得原本手工操作的工作改用语音就可方便地完成。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

从语音识别技术的发展可以看出,科学技术推动了社会发展,满足了人们的需求,社会需求也反过来推动科学技术发展。多媒体时代迫切需解决自动语音识别的难题,以推动语音识别理论和应用研究的发展。

可以预测在近十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上,人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类所面临的一大挑战。

3 图像信号处理技术

3.1 数字图像基础

图像是多媒体中携带信息的极其重要的媒体,有人曾发表过统计资料,认为人们获取的信息70%来自视觉系统,实际就是图像和电视。但是,图像数字化之后的数据量非常大,在因特网上传输时很费时间,在盘上存储时需要消耗大量的存储资源,因此就必须要对图像数据进行压缩。压缩的目的就是要满足存储容量和传输带宽的要求,而付出的代价是大量的计算。几十年来,许多科技工作者一直在孜孜不倦地寻找更有效的方法,用比较少的数据量表达原始的图像。

图像数据压缩主要根据下面两个基本事实来实现。一个是图像数据中有许多重复的数据,使用数学方法来表示这些重复数据就可以减少数据量;另一个是由于人的眼睛对图像细节和颜色的辨认有一个极限,把超过极限的部分去掉,这也就达到压缩数据的目的。利用前一个事实的压缩技术就是无损压缩技术,利用后一个事实的压缩技术就是有损压缩技术。实际的图像压缩是综合使用各种有损和无损压缩技术来实现的。

3.1.1 视觉系统对颜色的感知

颜色是视觉系统对可见光的感知结果。可见光是波长在380~780 nm之间的电磁波,我们看到的大多数光不是一种波长的光,而是由许多不同波长的光组合成的。研究表明,人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞,另外还有一种在光功率极低的条件下才起作用的杆状体细胞,因此颜色只存在于眼睛和大脑。在计算机图像处理中,对锥体细胞作用的处理要远比杆状细胞的作用重要。人的视觉系统对颜色的感知可归纳出如下几个特性:(1)眼睛本质上是一个照相机。人的视网膜通过神经元来感知外部世界的颜色,每个神经元或者是一个对颜色敏感的锥体,或者是一个对颜色不敏感的杆状体(Rod)。(2)红(Red)、绿(Green)、蓝(Blue)三种锥体细胞对不同频率的光的感知程度不同,对不同亮度的感知程度也不同,如图3.1所示。这就意味着,人们可以使用数字图像处理技术来降低数据率而不使人感到图像质量明显下降。

自然界中的任何一种颜色都可以由红(R)、绿(G)、蓝(B)这三种颜色值之和来确定,它们构成一个三维的RGB矢量空间。这就是说,R、G、B的数值不同混合得到的颜色就不同,也就是光波的波长不同。如图3.2所示,使用基色波长为700 nm(红色)、546.1 nm(绿色)和435.8 nm(蓝色)时,在可见光范围里,相加混色产生某一波长的光波所需要的三种基色的数值。图中的纵坐标表示单位光强度,横坐标表示波长,负值表示某些波长(即颜色)不能精确地通过相加混色得到。使用等量的三基色可匹配等能量的白光。图3.1 视觉系统对颜色和亮度的响应特性图3.2 产生波长不同的光所需要的三基色值

3.1.2 图像的颜色模型

一个能发出光波的物体称为有源物体,它的颜色由该物体发出的光波决定,使用RGB相加混色模型;一个不发光波的物体称为无源物体,它的颜色由该物体吸收或者反射的那些光波决定,用CMY相减混色模型。

电视机和计算机显示器使用的阴极射线管(Cathode Ray Tube,CRT)是一个有源物体。CRT使用三个电子枪分别产生红(R)、绿(G)和蓝(B)三种波长的光,并以各种不同的相对强度综合起来产生颜色,如图3.3所示。组合这三种光波以产生特定颜色称为相加混色,称为RGB相加模型。相加混色是计算机应用中定义颜色的基本方法。

从理论上讲,任何一种颜色都可用三种基本颜色按不同的比例混合得到。三种颜色的光强越强,到达我们眼睛的光就越多,它们的比例不同,我们看到的颜色也就不同,没有光到达眼睛,就是一片漆黑。当三基色按不同强度相加时,总的光强增强,并可得到任何一种颜色。某一种颜色和这三种颜色之间的关系可用下面的式子来描述:颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)

当三基色等量相加时,得到白色;等量的红绿相加而蓝为0值时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。这些三基色相加的结果如图3.4所示。图3.3 彩色显像管产生颜色的原理图3.4 相加混色

一幅彩色图像可以看成是由许多的点组成的。图像中的单个点称为像素(Pixel),每个像素都有一个值,称为像素值,它表示特定颜色的强度。一个像素值往往用R、G、B三个分量表示。如果每个像素的每个颜色分量用一位二进制数来表示,那么每个颜色的分量只有“1”和“0”这两个值。也就是说,每种颜色的强度是100%,或者是0%。在这种情况下,每个像素所显示的颜色是8种可能出现的颜色之一,如表3.1所示。表3.1 相加色

对于标准的电视图形阵列(Video Graphics Array,VGA)适配卡的16种标准颜色,其对应的R、G、B值如表3.2所示。在Microsoft公司的Windows中,用代码0~15表示。在表中,代码1~6表示的颜色比较暗,它们是用最大光强值的一半产生的颜色;9~15是用最大光强值产生的。表3.2 16色VGA调色板的值

在表3.2中,每种基色的强度是用8位表示的,因此可产生224种颜色。但实际上要用一千六百多万种颜色的场合是很少的。在多媒体计算机中,除用RGB来表示图像之外,还用色调-饱和度-亮度(Hue-Saturation-Lightness,HSL)颜色模型。在HSL模型中,H定义颜色的波长,称为色调;S定义颜色的强度,表示颜色的深浅程度,称为饱和度;L定义掺入的白光量,称为亮度。用HSL表示颜色的重要性,是因为它比较容易为画家所理解。若把S和L的值设置为1,当改变H时就是选择不同的纯颜色;减小饱和度S时,就可体现掺入白光的效果;降低亮度时,颜色就暗,相当于掺入黑色。因此在Windows中也用了HSL表示法,16色VGA调色板的值也表示在表3.2中。

用彩色墨水或颜料进行混合,这样得到的颜色称为相减色。在理论上说,任何一种颜色都可以用三种基本色按一定比例混合得到。这三种颜色是青色(Cyan)、品红(Magenta)和黄色(Yellow),通常写成CMY,称为CMY模型。用这种方法产生的颜色之所以称为相减色,是因为它减少了视觉系统识别颜色所需要的反射光。

在相减混色中,当三基色等量相减时得到黑色;等量黄色(Y)和品红(M)相减而青色(C)为0时,得到红色(R);等量青色(C)和品红(M)相减而黄色(Y)为0时,得到蓝色(B);等量黄色(Y)和青色(C)相减而品红(M)为0时,得到绿色(G)。这些三基色相减结果如图3.5所示。图3.5 相减混色

彩色打印机和印刷彩色图片都是采用这种原理。按每个像素每种颜色用1位表示,相减法产生的8种颜色如表3.3所示。由于彩色墨水和颜料的化学特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色(Blacking),所以CMY又写成CMYK。表3.3 相减色

RGB彩色空间和CMY彩色空间也可以使用图3.6所示的立方体来表示。图3.6 RGB彩色空间和CMY彩色空间的表示法

3.1.3 彩色空间的线性变换标准

为了利用人的视角特性降低数据量,通常把RGB空间表示的彩色图像变换到其他彩色空间。目前采用的彩色空间变换有YIQ、YUV和YCC三种。每一种彩色空间都产生一种亮度分量信号和两种色度rb分量信号,而每一种变换使用的参数都是为了适应某种类型的显示设备。其中,YIQ适用于NTSC彩色电视制式,YUV适用于PAL和SECAM彩色电视制式,YCC适用于计算机用的显示器。rb(1)YUV与YIQ模型

在彩色电视制式中,使用YUV和YIQ模型来表示彩色图像。在PAL彩色电视制式中使用YUV模型,其中,Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量;在NTSC彩色电视制式中使用YIQ模型,其中的Y表示亮度,I、Q是两个彩色分量。

YUV表示法的重要性是它的亮度信号(Y)和色度信号(U、V)是相互独立的,也就是Y信号分量构成的黑白灰度图与用U、V信号构成的另外两幅单色图是相互独立的。由于Y、U、V是独立的,所以可以对这些单色图分别进行编码。此外,黑白电视能接收彩色电视信号也就是利用了YUV分量之间的独立性。

YUV表示法的另一个优点是可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低。若把人眼正好能分辨出的黑白相间的条纹换成不同颜色的彩色条纹,那么眼睛就不再能分辨出条纹来。由于这个原因,就可以把彩色分量的分辨率降低而并不明显影响图像的质量,因而就可以把几个相邻像素不同的彩色值当作相同的彩色值来处理,从而减少所需的存储容量。

例如,要存储RGB 8:8:8的彩色图像,即R、G和B分量都用8位二进制数表示,图像的大小为640×480像素,那么所需要的存储容量为921 600字节。如果用YUV来表示同一幅彩色图像,Y分量仍然为640×480,并且Y分量仍然用8位表示,而对每四个相邻像素(2×2)的U、V值分别用相同的一个值表示,那么存储同样的一幅图像所需的存储空间就减少到460 800字节。这实际上也是图像压缩技术的一种方法。

无论是用YIQ、YUV、YCC还是用HSL模型来表示彩色图像,由rb于现在所有的显示器都采用RGB值来驱动,这就要求在显示每个像素之前,需要把彩色分量值转换成RGB值。这种转换需要花费大量的计算时间。这是一个要在软硬件设计中需要综合考虑的因素。(2)YUV与RGB彩色空间变换

在考虑人的视觉系统和阴极射线管(CRT)的非线性特性之后,RGB和YUV的对应关系可以近似地用下面的方程式表示:Y=0.299R+0.587G+0.114BU=-0.147R-0.289G+0.436BV=0.615R-0.515G-0.100B

或者写成矩阵的形式,(3)YIQ与RGB彩色空间变换

RGB和YIQ的对应关系用下面的方程式表示:Y=0.299R+0.587G+0.114BI=0.596R-0.275G-0.321BQ=0.212R-0.523G+0.311B

或者写成矩阵的形式,(4)YCC与RGB彩色空间变换rb

数字域的彩色空间变换与模拟域的彩色空间变换不同。它们的分量使用Y、C和C来表示,与RGB空间的转换关系如下:rbY=0.299R+0.578G+0.114BC=(0.500R-0.418 7G-0.081 3B)+128rC=(-0.168 7R-0.331 3G+0.500B)+128b

或者写成矩阵的形式,

RGB与YCC间的变换关系可写成如下的形式,rb

3.1.4 图像的基本属性

描述一幅图像需要使用图像的属性。图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等。

1)分辨率

我们经常遇到的分辨率有显示分辨率和图像分辨率两种。(1)显示分辨率

显示分辨率是指显示屏上能够显示出的像素数目。例如,显示分辨率为640×480,表示显示屏分成480行,每行显示640个像素,整个显示屏就含有307 200个显像点。屏幕能够显示的像素越多,说明显示设备的分辨率越高,显示的图像质量也就越好。除像手提式那样的计算机用液晶显示LCD(Liquid Crystal Display)外,一般都采用CRT显示,它类似于彩色电视机中的CRT。显示屏上的每个彩色像点由代表R、G、B三种模拟信号的相对强度决定,这些彩色像点就构成一幅彩色图像。

计算机用的CRT和家用电视机用的CRT之间的主要差别是,显像管玻璃面上的孔眼掩模和所涂的荧光物不同。孔眼之间的距离称为点距。因此常用点距来衡量一个显示屏的分辨率。电视机用的CRT的平均分辨率为0.76 mm,而标准SVGA显示器的分辨率为0.28 mm。孔眼越小,分辨率就越高,这就需要更小更精细的荧光点。这也就是为什么同样尺寸的计算机显示器比电视机的价格贵得多的原因。

早期用的计算机显示器的分辨率是0.41 mm,随着技术的进步,分辨率由0.41mm一直降到0.26 mm以下。显示器的价格主要集中体现在分辨率上,因此在购买显示器时应在价格和性能上综合考虑。(2)图像分辨率

图像分辨率是指组成一幅图像的像素密度的度量方法。对同样大小的一幅图,如果组成该图的图像像素数目越多,则说明图像的分辨率越高,看起来就越逼真;相反,图像显得越粗糙。

在用扫描仪扫描彩色图像时,通常要指定图像的分辨率,用每英寸(1英寸=2.54厘米)多少点(dots per inch,dpi)表示。如果用300 dpi来扫描一幅8 in×10 in的彩色图像,就得到一幅2 400×3 000个像素的图像。分辨率越高,像素就越多。

图像分辨率与显示分辨率是两个不同的概念。图像分辨率是确定组成一幅图像的像素数目,而显示分辨率是确定显示图像的区域大小。如果显示屏的分辨率为640×480,那么一幅320×240的图像只占显示屏的1/4;相反,2 400×3 000的图像在这个显示屏上就不能显示一个完整的画面。

有时在显示一幅图像时,有可能会出现图像的宽高比与显示屏上显示出的图像的宽高比不一致的现象。这是由于显示设备中定义的宽高比与图像的宽高比不一致造成的。例如一幅200×200像素的方形图,有可能在显示设备上显示的图不再是方形图,而变成了矩形图。这种现象在20世纪80年代的显示设备上经常遇到。

2)像素深度

像素深度是指存储每个像素所用的位数,它也是用来度量图像分辨率的。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R、G、B三个分量表示,若每个分量用8位,那么一个像素24共用24位表示,就是说像素的深度为24,每个像素可以是2种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,因而它的深度就越深。

虽然像素深度或图像深度可以很深,但各种VGA的颜色深度却受到限制。例如,标准VGA支持4位16种颜色的彩色图像,多媒体应用中推荐至少用8位256种颜色。由于设备的限制,加上人眼分辨率的限制,一般情况下,不一定要追求特别深的像素深度。此外,像素深度越深,所占用的存储空间越大。相反,如果像素深度太浅,那也会影响图像的质量。

在用二进制数表示彩色图像的像素时,除R、G、B分量用固定位数表示外,往往还增加1位或几位作为属性位。例如,RGB 5:5:5表示一个像素时,用2个字节共16位表示,其中R、G、B各占5位,剩下1位作为属性位。在这种情况下,像素深度为16位,而图像深度为15位。

属性位用来指定该像素应具有的性质。例如在CD-I系统中,用RGB 5:5:5表示的像素共16位,其最高位(b15)用作属性位,并把它称为透明位,记为T。T的含义可以这样来理解:假如显示屏上已经有另一幅图存在,当这幅图或者这幅图的一部分要重叠在上面时,T位就用来控制原图是否能看得见。例如定义T=1,原图完全看不见;T=0,原图能完全看见。

在用32位表示一个像素时,若R、G、B分别用8位表示,剩下的8位常称为α通道(alpha channel)位,或称为覆盖位、中断位、属性位。它的用法可用一个预乘α通道(premultiplied alpha)的例子说明。假如一个像素(A,R,G,B)的四个分量都用规一化的数值表示,(A,R,G,B)为(1,1,0,0)时显示红色。当像素为(0.5,1,0,0)时,预乘的结果就变成(0.5,0.5,0,0),这表示原来该像素显示红色的强度为1,而现在显示红色的强度降了一半。

用这种办法定义一个像素的属性在实际中很有用。例如在一幅彩色图像上叠加文字说明,而又不想让文字把图覆盖掉,就可以用这种办法来定义像素,而该像素显示的颜色又有人把它称为混合色。在图像产品生产中,也往往把数字电视图像和计算机生产的图像混合在一起,这种技术称为视图混合(Video Keying)技术,它也采用α通道。

3)真彩色、伪彩色与直接色

搞清真彩色、伪彩色与直接色的含义,对于编写图像显示程序、理解图像文件的存储格式有直接的指导意义,也不会在出现诸如这样的现象时感到困惑,如本来是用真彩色表示的图像,但在VGA显示器上显示的图像颜色却不是原来图像的颜色。(1)真彩色

真彩色是指在组成一幅彩色图像的每个像素值中,有R、G、B三个基色分量,每个基色分量直接决定显示设备的基色强度,这样产生的彩色称为真彩色。例如用RGB 5:5:5表示的彩色图像,R、G、B各用5位,用R、G、B分量大小的值直接确定三个基色的强度,这样得到的彩色是真实的原图彩色。

如果用RGB 8:8:8方式表示一幅彩色图像,就是R、G、B都用8位来表示,每个基色分量占一个字节,共3个字节,每个像素的颜色就是由这3个字节中的数值直接决定,可生成的颜色数就是224。用3个字节表示的真彩色图像所需要的存储空间很大,而人的眼睛是很难分辨出这么多种颜色的,因此在许多场合往往用RGB 5:5:5来表示,每个彩色分量占5个位,再加1位显示属性控制位共2个字节,生15成的真颜色数目为2=32 KB。

在许多场合,真彩色图像通常是指RGB 8:8:8,即图像的颜色数等于224,也常称为全彩色(full color)图像。但在显示器上显示的颜色就不一定是真彩色,要得到真彩色图像需要有真彩色显示适配器才行。(2)伪彩色

伪彩色图像的含义是,每个像素的颜色不是由每个基色分量的数值直接决定,而是把像素值当作彩色查找表(Color Look-Up Table,CLUT)的表项入口地址,去查找一个显示图像时使用的R、G、B强度值,查找到的R、G、B强度值产生的彩色称为伪彩色。

彩色查找表CLUT是一个事先做好的表,表项入口地址也称为索引号。例如16种颜色的查找表,0号索引对应黑色……15号索引对应白色。彩色图像本身的像素数值和彩色查找表的索引号有一个变换关系,这个关系可以使用Windows 95/98定义的变换关系,也可以使用你自己定义的变换关系。使用查找得到的数值显示的彩色是真的,但不是图像本身真正的颜色,它没有完全反映原图的颜色。(3)直接色

每个像素值分成R、G、B分量,每个分量作为单独的索引值对它做变换。也就是通过相应的彩色变换表找出基色强度,用变换后得到的R、G、B强度值产生的彩色称为直接色。它的特点是对每个基色进行变换。

采用这种系统产生的颜色与真彩色系统相比,相同之处是都采用R、G、B分量决定基色强度,不同之处是前者的基色强度直接用R、G、B决定,而后者的基色强度由R、G、B经变换后决定。因而这两种系统产生的颜色就有差别。试验结果表明,使用直接色在显示器上显示的彩色图像看起来更真实自然。

这种系统与伪彩色系统相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行变换,后者是把整个像素当作查找表的索引值进行彩色变换。

3.2 图像的分类和格式

3.2.1 图像的分类

1)矢量图与点位图

在计算机中,表达图像和计算机生成的图形图像有两种常用的方法:一种叫矢量图法,另一种叫点位图法。虽然这两种生成图的方法不同,但在显示器上显示的结果几乎没有什么差别。

矢量图是用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。这种方法实际上是用数学方法来描述一幅图,然后变成许多的数学表达式,再编程,用语言来表达。在计算显示图时,也往往能看到画图的过程。绘制和显示这种图的软件通常称为绘图程序。

矢量图有许多优点。例如,当需要管理每一小块图像时,矢量图法非常有效;目标图像的移动、缩小、放大、旋转、拷贝、属性的改变(如线条变宽变细、颜色的改变)也很容易做到;相同的或类似的图可以把它们当作图的构造块,并把它们存到图库中,这样不仅可以加速画的生成,而且可以减小矢量图文件的大小。

然而,当图变得很复杂时,计算机就要花费很长的时间去执行绘图指令。此外,对于一幅复杂的彩色照片(例如一幅真实世界的彩照),恐怕就很难用数学方法来描述,因此就不能用矢量法表示,而是采用点位图法表示。

点位图法是把一幅彩色图分成许多的像素,每个像素用若干个二进制位来指定该像素的颜色、亮度和属性。因此一幅图由许多描述每个像素的数据组成,这些数据通常称为图像数据,而这些数据作为一个文件来存储,这种文件又称为图像文件。如要画点位图,或者编辑点位图,可用类似于绘制矢量图的软件工具,这种软件称为画图程序。

点位图的获取通常用扫描仪、摄像机、录像机、激光视盘以及视频信号数字化卡一类的设备,通过这些设备把模拟图像信号变成数字图像数据。

点位图文件占据存储器的空间比较大。影响点位图文件大小的因素主要有两个,即图像分辨率和像素深度。分辨率越高,组成一幅图的像素越多,则图像文件越大;像素深度越深,就是表示单个像素的颜色和亮度的位数越多,图像文件就越大。而矢量图文件的大小则主要取决于图的复杂程度。

矢量图与点位图相比,显示点位图文件比显示矢量图文件要快,矢量图侧重于“绘制”、“创造”,而点位图偏重于“获取”、“复制”。矢量图和点位图之间可以用软件进行转换,由矢量图转换成点位图采用光栅化(Rasterizing)技术,这种转换也相对容易;由点位图转换成矢量图用跟踪(Tracing)技术,这种转换在实际中很难实现,尤其是对复杂的彩色图像。

2)灰度图与彩色图

灰度图按照灰度等级的数目来划分。只有黑白两种颜色的图像称为单色图像,如图3.7所示的标准图像。图中的每个像素的像素值用1位存储,它的值只有“0”或者“1”,一幅640×480的单色图像需要占据37.5 KB的存储空间。

图3.8是一幅标准灰度图像。如果每个像素的像素值用1个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个值,一幅640×480的灰度图像就需要占据300 KB的存储空间。图3.7 标准单色图图3.8 标准灰度图

彩色图像可按照颜色的数目来划分,例如256色图像和真彩色24(2=16 777 216种颜色)等。图3.9是一幅用256色标准图像转换成的256级灰度图像,彩色图像的每个像素的R、G和B值用一个字节来表示,一幅640×480的8位彩色图像需要307.2 KB的存储空间;图3.10是一幅真彩色图像转换成的256级灰度图像,每个像素的R、G、B分量分别用1个字节表示,一幅640×480的真彩色图像需要921.6 KB的存储空间。图3.9 256色标准图像转换成的灰度图图3.10 24位标准图像转换成的灰度图

许多24位彩色图像是用32位存储的,这个附加的8位叫做alpha通道,它的值叫做alpha值,它用来表示该像素如何产生特技效果。

使用真彩色表示的图像需要很大的存储空间,在网络上传输也很费时间。由于人的视觉系统的颜色分辨率不高,因此在没有必要使用真彩色的情况下尽可能不用。

3.2.2 常用图像文件格式

1)BMP位图文件

位图文件(Bitmap-File,BMP)格式是Windows采用的图像文件存储格式,在Windows环境下运行的所有图像处理软件都支持这种格式。Windows 3.0以前的BMP位图文件格式与显示设备有关,因此把它称为设备相关位图(Device-Dependent Bitmap,DDB)文件格式。Windows 3.0以后的BMP位图文件格式与显示设备无关,因此把这种BMP位图文件格式称为设备无关位图(Device-Independent Bitmap,DIB)格式,目的是为了让Windows能够在任何类型的显示设备上显示BMP位图文件。BMP位图文件默认的文件扩展名是BMP或者bmp。

BMP图像文件格式共分为三个域:第一个域是文件头,它又分为BMP文件头和BMP信息头两个字段。在文件头中主要说明文件类型、实际图像数据长度、图像数据的起始位置,同时还说明图像分辨率,长、宽及调色板中用到的颜色数。第二个域是彩色映射。第三个域是图像数据。BMP文件存储数据时,图像的扫描方式从左向右,从下而上。

2)GIF文件格式

GIF(Graphics Interchange Format)是CompuServe公司开发的图像文件存储格式。它支持64 000像素的图像,256到16M颜色的调色板,单个文件中的多重图像,按行扫描的迅速解码,有效地压缩以及与硬件无关。

GIF图像文件以数据块(Block)为单位来存储图像的相关信息。一个GIF文件由表示图形/图像的数据块、数据子块以及显示图形/图像的控制信息块组成,称为GIF数据流(Data Stream)。数据流中的所有控制信息块和数据块都必须在文件头(Header)和文件结束块(Trailer)之间。

GIF文件格式采用了LZW(Lempel-Ziv-Welch)压缩算法来存储图像数据,定义了允许用户为图像设置背景的透明属性。此外,GIF文件格式可在一个文件中存放多幅彩色图形/图像。如果在GIF文件中存放有多幅图,那么它们可以像幻灯片那样显示或者像动画那样演示。

3)JPEG文件格式

JPEG(Joint Photographic Experts Group)是由ISO和IEC两个组织机构联合组成的专家组,负责制定的静态的数字图像数据压缩编码标准。这个专家组开发的算法称为JPEG算法,并且成为国际上通用的标准,因此又称为JPEG标准。JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像又可用于彩色图像。

JPEG专家组开发了两种基本的压缩算法,一种是采用以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩算法;另一种是采用以预测技术为基础的无损压缩算法。使用有损压缩算法时,在压缩比为25:1的情况下,压缩后还原得到的图像与原始图像相比较,非图像专家难以找出它们之间的区别,因此得到了广泛的应用。例如,在V-CD和DVD-Video电视图像压缩技术中,就使用了JPEG的有损压缩算法来取消空间方向上的冗余数据。

有关JPEG标准我们将在后续章节中作详细介绍。

4)TIFF文件格式

标记图像文件格式(Tag Image File Format,TIFF)是由Aldus和Microsoft公司为扫描仪和桌上出版系统研制开发的一种通用图像文件格式。它全部都是基于标志域的概念,是一种极其灵活易变的格式,它支持多种压缩编码方法,如RLE编码数据、LZE编码数据、CCITT格式数据以及RGB的数据。

5)PNG文件格式

PNG是20世纪90年代中期开始开发的图像文件存储格式,其目的是用来替代GIF和TIFF文件格式,同时增加一些GIF文件格式所不具备的特性。流式网络图形格式(Portable Network Graphic Format,PNG)名称来源于非官方的“PNG's Not GIF”,是一种位图文件(Bitmap File)存储格式,读成“ping”。PNG用来存储灰度图像时,灰度图像的深度可达到16位;存储彩色图像时,彩色图像的深度可达到48位,并且还可存储多达16位的α通道数据。PNG使用从LZW派生的无损数据压缩算法。

PNG文件格式保留GIF文件格式的下列特性:

使用彩色查找表(或者叫做调色板),可支持256种颜色的彩色图像。

[1]连续式读/写性能:图像文件格式允许连续读出和写入图像数据,这个特性很适合于在通信过程中生成和显示图像;[2]逐次逼近显示:这种特性可使在通信链路上传输图像文件的同时在终端上显示图像,把整个轮廓显示出来之后逐步显示图像的细节,也就是先用低分辨率显示图像,然后逐步提高它的分辨率;[3]透明性:这个性能可使图像中某些部分不显示出来,用来创建一些有特色的图像;[4]辅助信息:这个特性可用来在图像文件中存储一些文本注释信息;独立于计算机软硬件环境。

PNG文件格式中增加了下列GIF文件格式所没有的特性:

每个像素为48位的真彩色图像;每个像素为16位的灰度图像;可为灰度图和真彩色图添加α通道;添加图像的γ信息;使用循环冗余码(Cyclic Redundancy Code,CRC)检测损害的文件;加快图像显示的逐次逼近显示方式;标准的读/写工具包;可在一个文件中存储多幅图像。

6)其他常用图像文件的后缀

如表3.4所示。表3.4 常用图像文件名称及后缀

3.2.3 图像处理中的常用名词

(1)亮度:是指颜色所引起的人眼对明亮程度的感觉。(2)饱和度:是指颜色的深浅程度,如淡红、深红等。(3)色调:是指光呈现的颜色,如红、黄、蓝等。(4)颜色:颜色可以用亮度、色调和饱和度这三个特征来表示。(5)色度:是色调和饱和度的总称,表示光颜色的类别与深浅程度。(6)对比度:是指图像的明暗变化或光度大小的差别。(7)模糊:是指通过减少相邻像素的对比度以平滑图像。(8)锐化:是指通过增加像素之间的对比度以突出图像。(9)色道:一个图像可以分解成多个单色图像,每一个图像的灰度代表一个特定的色道。

3.3 图像输入/输出设备

3.3.1 笔输入

说到笔输入系统,手写板和手写笔必不可少,所以我们从手写板及手写笔两方面进行介绍。

1)手写板

从技术发展的角度说,更为重要的是手写板的性能。手写板主要分为三类:电阻式压力板、电磁式感应板和电容式触控板。(1)电阻式压力板

电阻式压力板是由一层可变形的电阻薄膜和一层固定的电阻薄膜构成,中间由空气相隔离。其工作原理是:当用笔或手指接触手写板时,对上层电阻加压使之变形并与下层电阻接触,下层电阻薄膜就能感应出笔或手指的位置。优点:原理简单、工艺不复杂、成本较低、价格也比较便宜。缺点:[1]由于它是通过感应材料的变形才能判断位置,所以,材料容易疲劳,使用寿命较短。[2]感触不是很灵敏。使用时压力不够则没有感应,压力太大时又易损伤感应板,而且用力过大或长时间使用会很疲劳。(2)电磁式感应板

电磁式感应板是通过手写板下方的布线电路通电后,在一定空间范围内形成电磁场,来感应带有线圈的笔尖的位置进行工作。使用者可以用它进行流畅的书写,手感也很好。电磁式感应板分为“有压感”和“无压感”两种,其中有压感的输入板可以感应到手写笔在手写板上的力度,这样的手写板对于一些从事美术的人员来说是个很好的工具,可以直接用手写板来进行绘画,很方便。不过电磁式感应板也有缺点:[1]对电压要求高,如果使用的电压达不到规定的要求,就会出现工作不稳定或不能使用的情况,而且相对耗电量大,不适宜在笔记本电脑上使用。[2]电磁式感应板抗电磁干扰较差,在使用手机时电磁式感应板不能正常工作。[3]手写笔笔尖是活动部件,使用寿命短(一般为一年左右)。电磁式感应板虽然对手的压力感应有较强的辨别力,但必须用手写笔才能工作,不能用手指直接操作。(3)电容式触控板

电容式触控板的工作原理是通过人体的电容来感知手指的位置,即当使用者的手指接触到触控板的瞬间,就在板的表面产生了一个电容。在触控板表面附着一种传感矩阵,这种传感矩阵与一块特殊芯片一起,持续不断地跟踪着使用者手指电容的“轨迹”,经过内部一系列的处理,从而能够每时每刻精确定位手指的位置(X、Y坐标),同时测量由于手指与板间距离(压力大小)形成的电容值的变化,确定Z坐标,最终完成X、Y、Z坐标值的确定。因为电容式触控板所用的手写笔无需电源供给,所以特别适合于便携式产品。这种触控板是在图形板方式下工作的,其X、Y坐标的精度可高达每毫米40点(即每英寸1000点)。

与电阻式压力板和电磁式感应板相比,电容式触控板表现出了更加良好的性能。由于它轻触即能感应,用手指和笔都能操作,使用方便。而且手指和笔与触控板的接触几乎没有磨损,性能稳定,经机械测试使用寿命长达30年。另外,整个产品主要由一块只有一个高集成度芯片的PCB(Print Circuit Board)印刷电路板组成,元件少,同时产品一致性好、成品率高,这两方面使得电容式触控板大量生产时成本较低。而且电容触控技术在笔记本电脑中已经采用多年,实践证明了其性能极其稳定。从压感上来说,采用电容式触控技术的手写板也同样具有512级压感,达到了目前压感的最高水平。无论是从技术角度还是从厂商的倾向方面都可以看出,电容式触控手写板是手写板发展的趋势。

除了手写板工作机理的不同所导致的性能上的差异,手写板还有一些通用的评测指标,如压感级数及精度等等。精度又称分辨率,指的是单位长度上所分布的感应点数。精度越高,对手写的反映越灵敏,对手写板的要求也越高。面积则是手写板一个很直观的指标,手写板区域越大,书写的回旋余地就越大,运笔也就更加灵活方便,输入速度往往会更快,当然其价格也相应更高。

2)手写笔

手写笔也是手写系统中一个很重要的部分。早期的输入笔要从手写板上输入电源,因此笔的尾部均有一根电缆与手写板相连,这种输入笔也称为有线笔。较先进的输入笔在笔壳内安装有电池,有的则借助于一些特殊技术而不需要任何电源,因此无须用电缆连接手写笔,这种笔也称为无线笔。无线笔的优点是携带和使用起来非常方便,同时也较少出现故障。输入笔一般还带有两个或三个按键,其功能相当于鼠标按键,这样在操作时就不用在手写笔和鼠标之间来回切换了。

早期的手写笔只有一级压感功能,只能感应到单一的笔迹,而现在不少产品都具有压力感应功能,即除了能检测出用户是否划过了某点外,还能检测出用户划过该点时的压力有多大,以及倾斜角度是多少。有了压感能力之后,用户就可以把手写笔当作画笔、水彩笔、钢笔或喷墨笔来进行书法书写、绘画或签名,远远超出了一般的写字功能。

除了硬件外,手写笔的另一项核心技术是手写汉字识别软件,目前各类手写笔的识别技术都已相当成熟,识别率和识别速度也完全能够满足实际应用的要求。

3.3.2 触摸屏

现在较为常见的触摸屏产品有四种:红外线触摸屏、电容式触摸屏、电阻触摸屏和表面声波触摸屏。

1)红外线触摸屏

红外线触摸屏原理很简单,只是在显示器上加上光点距架框,无需在屏幕表面加上涂层或接连控制器。光点距架框的四边排列了红外线发射管及接收管,在屏幕表面形成一个红外线网。用户以手指触摸屏幕某一点,便会挡住经过该位置的横竖两条红外线,计算机便可即时算出触摸点位置。红外触摸屏不受电流、电压和静电干扰,适合恶劣的环境使用。其主要优点是价格低廉、安装方便、不需要卡或其他任何控制器,可以用在各档次的计算机上。不过,由于只是在普通屏幕上增加了框架,因此,在使用过程中架框四周的红外线发射管及接收管很容易损坏,且分辨率较低。

2)电容式触摸屏

电容式触摸屏的构造主要是在玻璃屏幕上镀一层透明的薄膜体层,再在导体层外加上一块保护玻璃,双玻璃设计能彻底保护导体层及感应器。

电容式触摸屏在触摸屏四边均镀上狭长的电极,在导电体内形成一个低电压交流电场。用户触摸屏幕时,由于人体电场,手指与导体层间会形成一个耦合电容,四边电极发出的电流会流向触点,而电流强弱与手指到电极的距离成正比,位于触摸屏幕后的控制器会计算电流的比例及强弱,准确算出触摸点的位置。电容触摸屏的双玻璃不但能保护导体及感应器,更有效地防止外在环境因素对触摸屏造成影响,如果屏幕沾有污物、尘埃或油渍,电容式触摸屏依然能准确算出触摸位置。

3)电阻触摸屏

电阻触摸屏的屏体部分是一块与显示器表面非常吻合的多层复合薄膜,由一层玻璃或有机玻璃作为基层,表面涂有一层透明的导电层(OTI,氧化铟),上面再盖有一层外表面硬化处理、光滑防刮的塑料层,它的内表面也涂有一层OTI,在两层导电层之间有许多细小(小于千分之一英寸)的透明隔离点把它们隔开绝缘。当手指接触屏幕,两层OTI导电层出现一个接触点,因其中一面导电层接通Y轴方向的5V均匀电压场,使得侦测层的电压由零变为非零,控制器侦测到这个接通后,进行A/D转换,并将得到的电压值与5V相比,即可得到触摸点的Y轴坐标,同理得出X轴的坐标。电阻屏根据引出线数多少,分为四线、五线等多线电阻触摸屏。五线电阻触摸屏的A面是导电玻璃而不是导电涂覆层,导电玻璃的工艺使其的寿命得到极大的提高,并且可以提高透光率。电阻式触摸屏的OTI涂层比较薄容易脆断,涂得太厚会降低透光并形成内反射,降低清晰度。OTI外虽多加了一层薄塑料保护层,但依然容易被锐利物件所破坏,且由于经常被触动,表层OTI使用一定时间后会出现细小裂纹,甚至变型,如其中一点的外层OTI受破坏而断裂,便失去作为导电体的作用,触摸屏的寿命便不能长久。但电阻式触摸屏不受尘埃、水、污物影响。

4)表面声波触摸屏

表面声波触摸屏的触摸屏部分可以是一块平面、球面或是柱面的玻璃平板,安装在CRT、LED、LCD或是等离子显示器屏幕的前面。这块玻璃平板只是一块纯粹的强化玻璃,和其他触摸屏技术的区别是没有任何贴膜和覆盖层。玻璃屏的左上角和右下角各固定了竖直和水平方向的超声波发射换能器,右上角则固定了两个相应的超声波接收换能器。玻璃屏的四个周边则刻有由疏到密间隔非常精密的45°角反射条纹。发射换能器把控制器通过触摸屏电缆送来的电信号转化为声波能量向左方表面传递,然后由玻璃板下边的一组精密反射条纹把声波能量反射成向上的均匀面传递,声波能量经过屏体表面,再由上边的反射条纹聚成向右的线传播给X轴的接收换能器,接收换能器将返回的表面声波能量变为电信号。发射信号与接收信号波形在没有触摸的时候,接收信号的波形与参照波形完全一样。当手指或其他能够吸收或阻挡声波能量的物体触摸屏幕时,X轴途经手指部位向上走的声波能量被部分吸收,反应在接收波形上,即某一时刻位置上波形有一个衰减缺口。接收波形对应手指挡住部位信号衰减了一个缺口,计算缺口位置即得触摸坐标,控制器分析到接收信号的衰减并由缺口的位置判定X坐标。之后,Y轴以同样的过程判定出触摸点的Y坐标。除了一般触摸屏都能响应的X、Y坐标外,表面声波触摸屏还响应第三轴——Z轴坐标,也就是能感知用户触摸压力大小值。三轴一旦确定,控制器就把它们传给主机。

表面声波触摸屏不受温度、湿度等环境因素影响,分辨率极高,有极好的防刮性,寿命长(5 000万次无故障),透光率高(92%),能保持清晰透亮的图像质量,没有漂移,最适合公共场所使用。但表面感应系统的感应转换器在长时间运作下,会因声能所产生的压力而受到损坏。一般羊毛或皮革手套都会接收部分声波,对感应的准确度也受一定的影响。屏幕表面或接触屏幕的手指如沾有水渍、油渍、污物或尘埃,也会影响其性能,甚至令系统停止运作。

另外触摸屏的三个基本特征也非常重要。它们分别是:(1)透明性能:触摸屏是由多层的复合薄膜构成,透明性能的好坏直接影响到触摸屏的视觉效果。衡量触摸屏透明性能不仅要从它的视觉效果来衡量,还应该包括透明度、色彩失真度、反光性和清晰度这四个特性。(2)绝对坐标系统:我们传统的鼠标是一种相对定位系统,只和前一次鼠标的位置坐标有关。而触摸屏则是一种绝对坐标系统,要选哪就直接点哪,与相对定位系统有着本质的区别。绝对坐标系统的特点是每一次定位坐标,与上一次定位坐标没有关系,每次触摸的数据通过校准转为屏幕上的坐标,不管在什么情况下,触摸屏这套坐标在同一点的输出数据是稳定的。不过由于技术原理的原因,并不能保证同一触摸点每一次采样的数据相同,不能保证绝对坐标定位。(3)检测与定位:各种触摸屏技术都是依靠传感器来工作的,甚至有的触摸屏本身就是一套传感器。各自的定位原理和各自所用的传感器决定了触摸屏的反应速度、可靠性、稳定性和寿命。

3.3.3 扫描仪

扫描仪是一种被广泛应用于计算机的输入设备。作为光电、机械一体化的产品,自问世以来以其独特的数字化图像采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。

1)扫描仪的组成

主要由上盖、原稿台、光学成像部分、光电转换部分、机械传动部分组成。

上盖主要是将要扫描的原稿压紧,以防止扫描灯光线泄露。原稿台主要是用来放置扫描原稿的地方。光学成像部分俗称扫描头,即图像信息读取部分,它是扫描仪的核心部件,其精度直接影响扫描图像的还原逼真程度。它包括以下主要部件:灯管、反光镜、镜头以及电荷耦合器件(Charge Couple Device,CCD)。扫描精度即是指扫描仪的光学分辨率,主要是由镜头的质量和CCD的数量决定。由于受制造工艺的限制,目前普通扫描头的最高分辨率为20 000像素,应用在A4幅面的扫描仪上,可实现2 400dpi的扫描精度,这样的精度能够满足多数领域的需求。光电转换部分是指扫描仪内部的主板,它是一块安置有各种电子元件的印刷电路板,它是扫描仪的“心脏”,同时它也是扫描仪的控制系统。在扫描仪扫描过程中,它主要完成CCD信号的输入处理,以及对步进电机的控制,并将读取的图像以任意的解析度进行处理或变换成所需的解析度。机械传动部分主要包括步进电机、驱动皮带、滑动导轨和齿轮组。

2)扫描仪的工作原理

一般来讲,扫描仪扫描图像的方式大致有三种:以光电耦合器(CCD)为光电转换元件的扫描、以接触式图CIS(或LIDE)为光电转换元件的扫描和以光电倍增管(PMT)为光电转换元件的扫描。(1)以光电耦合器(CCD)为光电转换元件的扫描仪工作原理

多数平板式扫描仪使用CCD为光电转换元件,它在图像扫描设备中最具代表性。与数字相机类似,在图像扫描仪中,也使用CCD作图像传感器。但不同的是,数字相机使用的是二维平面传感器,成像时将光图像转换成电信号,而图像扫描仪的CCD是一种线性CCD,即一维图像传感器。

扫描仪对图像画面进行扫描时,线性CCD将扫描图像分割成线状,每条线的宽度大约为10μm。光源将光线照射到待扫描的图像原稿上,产生反射光(反射稿所产生的)或透射光(透射稿所产生的),然后经反光镜组反射到线性CCD中。CCD图像传感器根据反射光线强弱的不同转换成不同大小的电流,经A/D转换处理,将电信号转换成数字信号,即产生一行图像数据。同时,机械传动机构在控制电路的控制下,步进电机旋转带动驱动皮带,从而驱动光学系统和CCD扫描装置在传动导轨上与待扫原稿做相对平行移动,将待扫图像原稿一条线一条线的扫入,最终完成全部原稿图像的扫描。

通常,用线性CCD对原稿进行的“一条线”扫描输入被称为“主扫描”,而将线性CCD平行移动的扫描输入被称为“副扫描”。

普通的CCD扫描仪在扫描时,须在被扫描物体表面形成一条细长的白色光带,光线通过一系列镜面和一组透镜,最后由CCD元件接收光学信号。但是,在这种条件下,光学分辨率被CCD像素数量所限制。(2)接触式图像传感器(Contact Image Sensor,CIS)

CIS是近年来才出现的名词,其实这种技术与CCD技术几乎是同时诞生的。绝大多数手持式扫描仪采用CIS技术。CIS感光器件一般使用制造光敏电阻的硫化镉作感光材料,硫化镉光敏电阻本身漏电大,各感光单元之间干扰大,严重影响清晰度,这是该类产品扫描精度不高的主要原因。它不能使用冷阴极灯管而只能使用LED发光二极管阵列作为光源,这种光源无论在光色还是在光线的均匀度上都比较差,导致扫描仪的色彩还原能力较低。LED阵列由数百个发光二极管组成,一旦有一个损坏就意味着整个阵列报废,因此这种类型产品的寿命比较短。CIS无法使用镜头成像,只能依靠贴近目标来识别,没有景深,不能扫描实物,只适用于扫描文稿。CIS对周围环境温度的变化也比较敏感,环境温度的变化对扫描结果有明显的影响,因此对工作环境的温度有一定的要求。

LIDE(Lifestyle Design)型扫描仪由三部分组成:光导、柱状透镜和线性光学传感器。光导的主要作用是增强红、绿、蓝三种色彩通道的光照强度;柱状透镜则可以确保反射光更好地向传感器聚焦(这是提高扫描精度的关键措施);线性传感器则最大限度地避免了边缘变形的问题。由于省略了一系列反射镜,LIDE型扫描仪避免了因此带来的各种像差和色差,较好地重现原稿的细节和色彩。(3)光电倍增管(PMT)工作原理

与采用线性CCD为图像传感器的平板式扫描仪不同,光电倍增管(Photo Multiplier Tube,PMT)为滚筒式扫描仪采用的光电转换元件。

在各种感光器件中,PMT是性能最好的一种,无论在灵敏度、噪声系数还是动态范围上都遥遥领先于其他感光器件,而且它的输出信号在相当大范围内保持着高度的线性输出,使输出信号几乎不需要做任何修正就可以获得准确的色彩还原。

PMT实际是一种电子管,其感光材料主要是由金属铯的氧化物及其他一些活性金属(一般是镧系金属)的氧化物共同构成。这些感光材料在光线的照射下能够发射电子,经栅极加速后冲击阳电极,最后形成电流,再经过扫描仪的控制芯片进行转换,就生成了物体的图像。在目前所有的扫描技术中,PMT是性能最好的一种,其灵敏度、噪声系数、动态密度范围等关键性指标远远超过了CCD及CIS等感光器件。同样,这种感光材料几乎不受温度的影响,可以在任何环境中工作。但是这种PMT的成本极高,一般只用在专业的滚筒式扫描仪上。

所以说,扫描仪的简单工作原理就是利用光电元件将检测到的光信号转换成电信号,再将电信号通过模/数转换器转化为数字信号传输到计算机中。无论何种类型的扫描仪,它们的工作过程都是将光信号转变为电信号。所以,光电转换是它们的核心工作原理。扫描仪的性能取决于它把任意变化的模拟电平转换成数值的能力。

3.3.4 数码相机

数码相机是由镜头、CCD、A/D转换器、MPU(Microprocessor Unit,微处理器)、内置存储器、LCD(液晶显示器)、PC卡(可移动存储器)和接口(计算机接口、电视机接口)等部分组成,通常它们都安装在数码相机的内部,当然也有一些数码相机的液晶显示器与相机机身分离。

数码相机的工作原理如下:当按下快门时,镜头将光线汇聚到感光器件CCD上,CCD是半导体器件,它代替了普通相机中胶卷的位置,它的功能是把光信号转变为电信号。这样,我们就得到了对应于拍摄景物的电子图像,但是它还不能马上被计算机处理,还需要按照计算机的要求进行从模拟信号到数字信号的转换,A/D转换器器件用来执行这项工作。接下来MPU对数字信号进行压缩并转化为特定的图像格式,例如JPEG格式。最后,图像文件被存储在内置存储器中。

1)镜头

几乎所有的数码相机镜头的焦距都比较短,当你观察数码相机镜头上的标识时也许会发现类似“f=6mm”的字样,表示它的焦距仅为6mm。其实,这个焦距和传统相机还是有所区别的。f=6mm相当于普通相机的50mm镜头(因相机不同而不同)。因为标准镜头、广角镜头、长焦镜头以及鱼眼镜头都是针对35mm普通相机而言的,它们分别用于一般摄影、风景摄影、人物摄影和特殊摄影。各种镜头的焦距不同使得拍摄的视角不同,而视角不同产生的拍摄效果也不相同。但是焦距决定视角的一个条件是成像的尺寸,35mm普通相机成像尺寸是24mm×36mm(胶卷),而数码相机中CCD的成像尺寸小于这个值两倍甚至十倍,在成像尺寸变小焦距也变小的情况下,就有可能得到相同的视角。

2)CCD

数码相机使用CCD代替传统相机的胶卷,因此CCD技术成为数码相机的关键技术,CCD的分辨率被作为评价数码相机档次的重要依据。摄像机中使用的是点阵CCD,扫描仪中使用的是线阵CCD,而数码相机中既有使用点阵CCD的又有使用线阵CCD的。一般数码相机都使用点阵CCD,专门拍摄静态物体的扫描式数码相机使用线阵CCD,它牺牲了时间换取可与传统胶卷相媲美的极高分辨率(可高达8 400×6 000)。CCD器件上有许多光敏单元,它们可以将光线转换成电荷,从而形成对应于景物的电子图像,每一个光敏单元对应图像中的一个像素,像素越多图像越清晰,如果我们想增加图像的清晰度,就必须增加CCD的光敏单元的数量。数码相机的指标中常常同时给出多个分辨率,例如640×480和1 024×768,其中,最高分辨率的乘积为786 432(1 024×768),它是CCD光敏单元85万像素的近似数,因此当我们看到“85万像素CCD”的字样,就可以估算该数码相机的最大分辨率。

许多早期的数码相机都采用上述的分辨率,它们可为计算机显示的图片提供足够多的像素,因为大多数计算机显卡的分辨率是640×480、800×600、1 024×768、1 152×864等。CCD本身不能分辨色彩,它仅仅是光电转换器。实现彩色摄影的方法有多种,包括给CCD器件表面加以彩色滤镜阵列(Color Filter Array,CFA),或者使用分光系统将光线分为红、绿、蓝三色,分别用三片CCD接收。

3)A/D转换器

它是将模拟电信号转换为数字电信号的器件。A/D转换器的主要指标是转换速度和量化精度。转换速度是指将模拟信号转换为数字信号所用的时间,由于高分辨率图像的像素数量庞大,因此对转换速度要求很高,当然高速芯片的价格也相应较高。量化精度是指可以将模拟信号分成多少个等级。如果说CCD是将实际景物在X和Y的方向上量化为若干像素,那么A/D转换器则是将每一个像素的亮度或色彩值量化为若干个等级,这个等级在数码相机中叫做色彩深度。数码相机的技术指标中均给出了色彩深度值,其实色彩深度就是色彩位数,它以二进制的位(bit)为单位,用位的多少表示色彩数的多少,常见的有24位、30位和36位。具体来说,一般中低档数码相机中每种基色采用8位或10位表示,高档相机采用12位。三种基色红、绿、蓝总的色彩深度为基色位数乘以3,即8×3=24位、10×3=30位或12×3=36位。数码相机色彩深度反映了数码相机能正确表示色彩的多少,以24位为例,三基色(红、绿、蓝)各占8位二进制数,也就是说红色8可以分为2=256个不同的等级,绿色和蓝色也是一样,那么它们的组合为256×256×256=16 777 216,即1 600多万种颜色,而30位可以表示10亿多种、36位可以表示680亿多种颜色。色彩深度值越高,就越能真实地还原色彩。

4)MPU

数码相机要实现测光、运算、曝光、闪光控制、拍摄逻辑控制以及图像的压缩处理等操作就必须有一套完整的控制体系。数码相机通过MPU实现对各个操作的统一协调和控制。和传统相机一样,数码相机的曝光控制可以分为手动和自动。手动曝光就是由摄影者调节光圈大小、快门速度;自动曝光方式又可以分为程序式自动曝光、光圈优先式曝光和快门优先式曝光。MPU通过对CCD感光强弱程度的分析,调节光圈和快门,又通过机械或电子控制调节曝光。

5)存储设备

数码相机中存储器的作用是保存数字图像数据,这如同胶卷记录光信号一样,不同的是存储器中的图像数据可以反复记录和删除,而胶卷只能记录一次。存储器可以分为内置存储器和可移动存储器。内置存储器为半导体存储器,安装在相机内部,用于临时存储图像,当向计算机传送图像时须通过串行接口等接口传送。它的缺点是装满之后要及时向计算机转移图像文件,否则就无法再往里面存入图像数据。早期的数码相机多采用内置存储器,而新近开发的数码相机更多地使用可移动存储器。这些可移动存储器可以是3.5英寸软盘、PC(PCMCIA)卡、Compact Flash卡、Smart Media卡等。这些存储器使用方便,拍摄完毕后可以取出更换,这样可以降低数码相机的制造成本,增加应用的灵活性,并提高连续拍摄的性能。存储器保存图像的多少取决于存储器的容量,以及图像质量和图像文件的大小。图像的质量越高,图像文件就越大,需要的存储空间就越多。显然,存储器的容量越大,能保存的图像就越多。一般情况下,数码相机能保存10~200幅图像。下面给大家介绍一些常用的存储方案:(1)Smart Media卡:是最常见的数码相机存储卡,由于没有内置控制部分,成本最低。目前大部分的数码相机采用了SM卡,速度和其他存储方式差不多,其实内核都是Flash Memory。(2)Compact Flash卡:分别有CF1和CF2格式,它和SM卡的区别是自带控制模块,体积大。同时除了Flash Memory外还支持其他存储模式。当存储量大于128 MB的时候必须使用CF2的格式。(3)IBM的Micro Drive卡:它是IBM专门为数码相机准备的优秀存储方案。采用CF2接口,兼容CF2存储卡,只要能插入CF2存储卡的数码相机都能使用它。同时有PC卡的接口,在支持PC卡接口的专业数码相机中也能使用它。它比用Flash Memory作为存储体的卡的速度快得多。(4)Click:是生产移动存储设备的著名公司Iomega推出的独特的磁盘。这种体积并不比CF卡大多少的小小磁盘可以存储40 MB的数据,但成本远远低于使用闪存技术的产品。而且,Click可以被计算机存取。(5)Memory Stick:由Sony公司推出的存储设备,体积大概相当于半块口香糖的大小,容量也达到了64 MB。

6)LCD

LCD为液晶显示屏,数码相机使用的LCD与笔记本电脑的液晶显示屏工作原理相同,只是尺寸较小。从种类上讲,LCD大致可以分为两类,即DSTN-LCD(双扫扭曲向列液晶显示器)和TFT-LCD(薄膜晶体管液晶显示器)。与DSTN相比,TFT的特点是亮度高,从各个角度观看都可以得到清晰的画面,因此数码相机中大多采用TFT-LCD。LCD的作用有三个:一是取景,二是显示,三是显示功能菜单。

7)输出接口

数码相机的输出接口主要有计算机通信接口、连接电视机的视频接口和连接打印机的接口。常用的计算机通信接口有串行接口、并行接口、USB接口和SCSI接口。若使用红外线接口,则要为计算机安装相应的红外接收器及其驱动程序。如果你的数码相机带有PCMCIA存储卡,那么可以将存储卡直接插入笔记本电脑的PC卡插槽中。

3.3.5 虚拟现实的三维交互工具

虚拟现实(Virtual Reality)技术是通过计算机图形构造的虚拟环境,借助相应硬件手段的帮助,如数据手套、头盔和立体眼镜等设备,使用户产生身临其境的感觉,以达到虚拟设计与装配、机器人遥控操作和模拟驾驶训练等方面的目的。

下面简单介绍一些在VR系统有代表性的设备。(1)BOOM可移动式显示器:它是一种半投入式视觉显示设备。使用时,用户可以把显示器方便地置于眼前,不用时可以很快移开。BOOM使用小型的阴极射线管,产生的像素数远远小于液晶显示屏,图像比较柔和,分辨率为1 280×1 024像素的彩色图像。(2)数据手套:数据手套是一种输入装置,它可以把人手的动作转化为计算机的输入信号。它由很轻的弹性材料构成。该弹性材料紧贴在手上,同时附着许多位置、方向传感器和光纤导线,以检测手的运动。光纤可以测量每个手指的弯曲和伸展,而通过光电转换,手指的动作信息可以被计算机识别。(3)TELETACT手套:它是一种用于触觉和力觉反馈的装置,利用小气袋向手提供触觉和力觉的刺激。这些小气袋能被迅速地加压和减压。当虚拟手接触一件虚拟物体时,存储在计算机里的该物体的力模式被调用,压缩机迅速对气袋充气或放气,使手部有一种非常精确的触觉。(4)数据衣:是为了让VR系统识别全身运动而设计的输入装置。数据衣对人体50多个不同的关节进行测量,包括膝盖、手臂、躯干和脚。通过光电转换,身体的运动信息被计算机识别。通过BOOM显示器和数据手套与虚拟现实数据交互。(5)头盔显示器(Head Mounted Display,HMD):头盔显示器的光学技术设计和制造技术日趋完善,不仅作为个人应用显示器,它还是紧凑型大屏幕投影系统设计的基础,可将小型LCD显示器件的影像透过光学系统做成全像大屏幕。除了在现代先进军事电子技术中得到普遍应用成为单兵作战系统的必备装备外,还拓展到民用电子技术中。

3.4 动态图像输入设备

动态图像输入设备就是将模拟摄像机、录像机、LD视盘机、电视机等输出的视频数据或者视频音频的混合数据输入电脑,并转换成电脑可辨别的数字数据,存储在电脑中,成为可编辑处理的视频数据文件。

3.4.1 图像捕捉卡

按照图像捕捉卡用途可分为广播级视频采集卡、专业级视频采集卡、民用级视频采集卡,它们档次的高低主要是采集图像的质量不同。

广播级视频采集卡特点是采集的图像分辨率高,视频信噪比高;缺点是视频文件所需硬盘空间大,每分钟数据量至少要消耗200 MB。一般连接专业摄/录像机,所以它多用于录制电视台所制作的节目。

专业级视频采集卡的档次比广播级的性能稍微低一些,分辨率两者是相同的,但压缩比稍微大一些,其最小的压缩比一般在6:1以内,输入输出接口为AV复合端子与S端子,此类产品适用于广告公司和多媒体公司制作节目及多媒体软件应用。民用级视频采集卡的动态分辨率一般较低,绝大多数不具有视频输出功能。

图像捕捉卡有以下一些特点:

在电脑上通过视频采集卡可以接收来自视频输入端的模拟视频信号,对该信号进行采集、量化成数字信号,然后压缩编码成数字视频。大多数视频采集卡都具备硬件压缩的功能,在采集视频信号时,首先在卡上对视频信号进行压缩,然后再通过PCI接口把压缩的视频数据传送到主机上。一般的PC视频采集卡采用帧内压缩的算法把数字化的视频存储成AVI文件,高档一些的视频采集卡还能直接把采集到的数字视频数据实时压缩成MPEG-1格式的文件。

由于模拟视频输入端可以提供不间断的信息源,视频采集卡要采集模拟视频序列中的每帧图像,并在采集下一帧图像之前把这些数据传入PC系统。因此,实现实时采集的关键是每一帧所需的处理时间。如果每帧视频图像的处理时间超过相邻两帧之间的相隔时间,则要出现数据的丢失。采集卡都是把获取的视频序列先进行压缩处理,然后再存入硬盘,也就是说视频序列的获取和压缩是在一起完成的,免除了再次进行压缩处理的不便。不同档次的采集卡具有不同质量的采集压缩性能。

图像捕捉卡由以下几部分组成:(1)A/D变换和数字解码:从彩色摄像机、录像机或其他视频信号源得到的彩色全电视信号,首先送到具有钳位电路和自动增益功能的运算放大器,最后经过A/D变换器将彩色全电视信号转换成8位数字信号,送给彩色多制式数字解码器。(2)窗口控制器:[1]PC总线接口部分;[2]视频输入裁剪、变比例部分;[3]VRAM读/写、刷新控制部分;[4]输出窗口VGA同步、色键控制部分。

通过对控制状态寄存器编程可以提供下述功能:[1]在计算机图形监视器上,能够显示全屏幕的活动图像;[2]为显示运动图像,PC Video能够改变扫描速度,实现窗口控制;[3]通过独立的X、Y坐标和彩色键联信号可实现窗口位置控制;[4]真彩色图像的获取和显示;[5]用广播质量的视频带宽,输入分辨率可达1 024×512;[6]支持工业标准视频输入格式,如NTSC、PAL、SECAM、S-VHS、RGB;[7]支持标准4:1:1和4:2:2 YUV,及16位RGB格式;[8]输出放大因子可为2、4和8。(3)帧存储器系统:帧存储器的主要作用有三个:[1]从摄像机来的视频信号,经过A/D变换,数字解码,在视频窗口控制器的控制下,将它们实时地存到帧存储器,大约74ns存一个像素数据;[2]彩色监视器每隔74ns要从帧存储器取一个像素数据,经D/A转换,变成模拟的RGB信号,供彩色监视器显示帧存储器中真彩色全屏幕运动图像使用;[3]计算机可以通过视频窗口控制器,对阵存储器的内容进行读/写操作。(4)数模转换和矩阵变换。(5)视频信号和VGA信号的叠加:由于两路信号均为模拟信号,因此使用了模拟开关电路实现两信号的叠加。(6)数字式多制式视频信号编码部分:是以数字方式进行视频信号编码的编码器,支持PAL和NTSC两种制式。

3.4.2 摄像头和摄像机

1)摄像头

摄像头是将摄像单元和视频捕捉单元集成在一起,只能实时连续捕获数字化的图像和视频信号,但没有存储能力,它可以通过USB接口与计算机相连接,计算机通过软件可以实时获取图像和视频信号。根据所用元件的不同,摄像头可分为CCD摄像头和CMOS摄像头。衡量摄像头的指标主要有灵敏度、分辨率和视频捕获速度等。

目前摄像头的连接方式有接口卡、并口和USB口三种。

2)摄像机

与摄像头不同的是,摄像机(又称为视频摄像机或电视摄像机)能够实时连续捕获并存储数字化的图像和视频信号。

最早的摄像机以电真空摄像管作为摄像器件。现在,除了非常专业或特定的一些摄像机外,绝大多数采用CCD等为摄像器件,且是数字化的。

数字摄像机具有高质量的图像、高稳定性、易于调整且精确、简单的操作及丰富的功能。通过调整图像参数,达到各种效果,可以对高亮度、细节、肤色和其他重要参数提供新的调整方法而获得更大的灵活性。因此越来越多的使用者开始采用数字摄像机。

灵敏度、分解力、信噪比是摄像机的三个最重要的指标。(1)灵敏度

摄像机灵敏度是在标准摄像状态下摄像机光圈的数值。即在灵敏度开关设置在0dB(分贝)位置,反射率为89.9%的白纸,2 000 lx(勒[克司])的照度,标准白光(碘钨灯)的照明条件下,图像信号达到标准输出幅度时,光圈的数值称为摄像机的灵敏度。通常灵敏度可达到F8.0,新型优良的摄像机灵敏度可达到F11,相当于高灵敏度ISO-400胶卷的灵敏度水平。(2)分解力

分解力又称为清晰度。其含义是:在水平宽度为图像屏幕高度的范围内,可以分辨垂直黑白线条的数目。

现在,最高分辨分别为850线、900线和1 200线。有的摄像机采用像素错位的技术,号称分解力达到850线。实际上,片面追求很高的分解力是没有意义的。由于电视台中的信号处理系统,以及电视接收机中信号处理电路的频带范围有限,特别是录像机的带宽范围的限制,使摄像机的分解力很高,在信号处理过程中也要遭受损失,最终的图像不可能显示出这么高的分解力。摄像机的垂直分解力主要取决于扫描格式,即扫描的行数。因此,对于摄像机的垂直清晰度不必加以考虑。(3)信噪比

表示在图像信号中包含噪声成分的指标。在显示的图像中,表现为不规则的闪烁细点。噪声颗粒越小越好。信噪比的数值以dB表示。目前摄像机的加权信噪比可以做到65 dB。用肉眼观察,已经不会感觉到噪声颗粒存在的影响了。

除上述主要指标外,还有一些其他的指标,如灰度特性、动态范围和拐点特性、量化比特数等。

数字摄像机可以通过USB等接口直接与计算机相连接。

4 图像和视频信号压缩编码技术与相关国际标准

4.1 引言

数字图像和数字视频信息是多媒体信息的重要组成部分,其数据量居多媒体信息量的首位。因此数字图像和视频信息的压缩编码技术就成为多媒体技术的关键之一。大量的数据对于计算机的存储、访问、处理以及在通信线路上的传输都带来巨大的负担,人们可以利用该信息存在的大量冗余信息,采用各种方法进行压缩。由此多媒体技术中产生了各种各样的压缩编码技术和相关国际标准。本章将介绍重要的和常用的压缩编码技术。

4.1.1 压缩的重要性和可行性

1)媒体数据压缩的必要性

多媒体数据数字化后的海量性。一幅大小为512×512(像素)的黑白图像,每像素用8 bit表示,其大小为多少呢?首先理解一下题目的含义:“512×512(像素)”的意思是图像的横向有512个像素点,纵向有512个像素点,如图4.1所示。“每像素用8 bit表示”的意思是每一个像素点的值,对于黑白图像来说就是每一个像素点的灰度值,在计算机存储器中用8位表示。那么,已知的图像就有512×512个点,有一个点就要存储一个8位,所以,该图像的存储空间大小为:图4.1 512×512(像素)的黑512×512×8=262 144 bit=256 KB。白图像示意图

像素:能独立地赋予颜色和亮度的最小单位。

每像素用8 bit表示,也可以写成8 bit/pel,pel是“pixel:picture+element”的简写。

在此顺便强调一下表示存储空间大小的单位:

大写字母“B”表示字节(Byte);小写字母“b”表示二进制位(bit)。

1 KB=1 024 B;1 MB=1 024×1 024 KB;1 GB=1 024×1 024 MB;1 TB=1 024×1 024 GB.

同样一幅大小为512×512的彩色图像,每一像素用8 bit表示,其大小应为黑白图像的3倍(彩色图像的像素不仅有亮度值Y,而且有两个色差值)。

也就是512×512×8×3=6 291 456 bit≈6.3 Mb。

上述彩色图像按NTSC制,每秒钟传送30帧,其每秒的数据量为:

6.3 Mb×30帧/s=189 Mb/s≈23.6 MB/s

那么,一个650MB的硬盘可以存储的图像为:650 MB÷23.6 MB/s≈27.5s

可见视频、图像所需的存储空间之大。

再来看一下数字音频,双通道立体声激光唱盘(CD-DA),采样频率为44.1 kHz,采样精度为16位/样本,其1秒钟的音频数据量为:

44.1 ×16×2≈1.41 Mb/s。

一个650 MB的硬盘可以存储约1小时的音乐。

由此可见,如此大的数据量单靠扩大存储容量和增加通信干线的传输速率是不现实的。因此数据压缩是必要的。

总之,多媒体信息包括文本、声音、动画、图形、图像以及视频等多种媒体信息。经过数字化处理后其数据量是非常大的,如果不进行数据压缩处理,计算机系统就无法对它进行存储、处理和交换。

2)多媒体数据压缩的可行性

多媒体数据压缩是必要的,那么能否对多媒体数据进行压缩呢?我们一起来探讨一下多媒体数据压缩的可能性。

多媒体数据能不能被压缩,关键是多媒体数据中存在不存在“数据冗余”。答案是肯定的。

我们先来明确一下“信息量”与“数据量”之间的关系:信息量=数据量-冗余量,通常用“I”表示信息量;“D”表示数据量;“du”表示冗余量。

信息量与数据量的关系为:I=D-du

中文广播员1分钟读180个汉字,1个汉字存储2个字节,共需360个字节。

采样频率为8 kHz(人类语言带宽为4 kHz)。

采样1分钟,其数据量为:8 Kb/s×60 s=480 Kb/min

一分钟的数据冗余为:480 KB/360 B≈1 000(倍)的冗余

下面我们来看一下图像数据。图像数据也存在着大量的空间冗余和时间冗余。

例如:图4.2中的图像“A”是一个规则物体。光的亮度、饱和度及颜色都一样,因此,数据A有很大的冗余。这样可以用图像“A”的某一像素点的值(亮度、饱和度及颜色),代表其他的像素点,实现压缩。

这是语音数据和序列图像(电视图像和运动图像)中所经常包含的冗余。在一个图像序列的两幅相邻图像中,后一幅图像与前一幅图像之间有着较大的关联,这反映为时间冗余。图4.2 时域冗余

除了上面讲述的时间冗余和空间冗余外,还存在着结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余、纹理的统计冗余等。相关内容请参看第1.4.2节内容。

数据压缩的典型操作包括准备、处理、量化和编码,数据可以是静止图像、视频和音频数据等。下面以图像处理为例对压缩过程作简要说明。首先进行预处理,包括D/A转换和生成适当的数据表达信息。例如,一幅图像切分成8×8像素的块,每一像素以固定的数据位表达。第二步进行数据处理,是使用复杂算法压缩处理数据。从时域到频域的变换可以用离散余弦变换。在运动图像压缩中,对帧间每个8×8块采用运动向量编码。第三步进行量化,量化过程定义了从实数到整数映射的方法。这一处理过程会导致精度的降低。被量化对象视它们的重要性而区别处理。例如,可以采用不同的数据位来进行量化。第四步进行熵编码,它对数据流进行无损压缩。例如,数据流中一个零值序列可以通过定义零值本身和后面的重复个数来进行压缩。“处理”和“量化”可以在反馈环中交互地重复多次。压缩后的视频构成数据流,其中图像起点和压缩技术的标识说明成为数据流的一部分,纠错码也可以加在数据流中。

解压缩是压缩的逆过程,特定的编码器和解码器以不同的方法构成。在对称应用中,编码和解码代价应基本相同。在非对称应用中,解码过程比编码过程耗费的代价要小,这种技术用于以下情形:压缩的过程仅一次,采样的时间不限;解压缩经常使用并需要迅速完成。如一个音视频电子教材仅需要生成一次,但它可以被许多学生使用,因此它需要多次被解码。在这种情况下,实时解码成为基本要求,而编码则不需要实时完成。

4.1.2 数据压缩技术的分类

多媒体数据压缩方法根据不同的依据可产生不同的分类。通常根据压缩前后有无质量损失分为有失真(损)压缩编码和无失真(损)压缩编码。有失真压缩是不可逆编码方法,经有失真压缩编码的图像不能完全恢复,但视觉效果一般可被接受;无失真压缩是可逆的编码方法,经无失真压缩编码的图像能完全恢复,没有任何偏差和失真。

1)按压缩方法分

有失真压缩编码、无失真压缩编码。

2)按多媒体数据编码分(1)PCM:a.固定;b.自适应。(2)预测编码:a.固定:DPCM、ΔM;b.自适应:DPCM、ΔM。(3)变换编码:a.傅立叶;b.离散余弦(DCT);c.离散正弦(DST);d.沃尔仕-哈达马;e.哈尔;f.斜变换;g.卡胡南-劳夫(K-L);h.小波。(4)统计编码(熵编码):a.霍夫曼;b.算术编码;c.费诺;d.香农;e.游程(RLC);f.LZW。(5)静态图像编码:a.方块;b.逐渐浮现;c.逐层内插;d.比特平面;e.抖动。(6)电视编码:a.帧内预测;b.帧间编码:运动估计、运动补偿、条件补充、内插、帧间预测。(7)其他编码:a.矢量量化;b.子带编码;c.轮廓编码;d.二值图像。

3)按编码算法原理分(1)预测编码;(2)变换编码;(3)量化与向量量化编码;(4)信息熵编码;(5)子带编码;(6)结构编码;(7)基于知识的编码。

4.1.3 常用编码方法介绍

1)统计编码

数据压缩的理论基础是信息论,数据压缩的理论极限是信息熵。

那么,我们首先要明确信息熵的概念,这个概念很重要,它是学习数据压缩编码技术的一个最基本的概念,在讲信息熵之前要讲两个基本概念,这两个基本概念就是信息、信息量。

第一个概念“信息”。信息是用不确定的量度定义的。也就是说信息被假设为由一系列的随机变量所代表,它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”,也就是要进行研究与压缩的对象。

比如:你在考试过后,没收到考试成绩(考试成绩通知为消息)之前,你不知道你的考试成绩是否及格,那么你就处于一个不确定的状态;当你收到成绩通知(消息)是“及格”,此时,你就去除了“不及格”(不确定状态,占50%),你得到了消息——“及格”。一个消息的可能性愈小,其信息含量愈大;反之,消息的可能性愈大,其信息含量愈小。

第二个概念是信息量。

指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。也可以说是辨别N个事件中特定事件所需提问“是”或“否”的最小次数。

例如:从64个数(1~64的整数)中选定某一个数(采用折半查找算法),提问:“是否大于32?”,则不论回答是与否,都消去半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数,则所需的信息量是6。

我们现在可以换一种方式定义信息量,也就是信息论中信息量的定义。

设从N中选定任一个数X的概率为P(x),假定任选一个数的概率都相等,即P(x)=1/N,则信息量I(x)可定义为:I(X)=LogN=-Log1/N=-LogP(x)。222

上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同。设底取大于1的整数α,考虑一般物理器件的二态性,通常α取2,相应的信息量单位为比特(bit);当α=e,相应的信息量单位为奈特(Nat);当α=10,相应的信息量单位为哈特(Hart);

显然,当随机事件x发生的先验概率P(x)大时,算出的I(x)小,那么这个事件发生的可能性大,不确定性小,事件一旦发生后提供的信息量也少。必然事件的P(x)等于1,I(x)等于0,所以必然事件的消息报道,不含任何信息量;但是一件人们都没有估计到的事件(P(x)极小),一旦发生后,I(x)大,包含的信息量很大。所以随机事件的先验概率与事件发生后所产生的信息量有密切关系。I(x)为x发生后的自信息量,它也是一个随机变量。

P(x)大时,算出的I(x)小必然事件的P(x)等于1,I(x)等于0。

P(x)小时,算出的I(x)大必然事件的P(x)等于0,I(x)等于1。

I(x)为x发生后的自信息量,它也是一个随机变量。

现在可以给“熵”下个定义了。信息量计算的是一个信源的某一个事件(X)的自信息量,而一个信源若由n个随机事件组成,n个随机事件的平均信息量就定义为熵。

熵的准确定义是:信源X发出的x(j=1,2,……n),共n个随机j事件的自信息统计平均(求数学期望),即H(x)=E{I(x)}=jH(x)在信息论中称为信源X的“熵”,它的含义是信源X发出任意一个随机变量的平均信息量。

解释和理解信息熵有以下四种含义:(1)当处于事件发生之前,H(X)是不确定性的度量;(2)当处于事件发生之时,是一种惊奇性的度量;(3)当处于事件发生之后,是获得信息的度量;(4)还可以理解为是事件随机性的度量。

在明确了信息熵的含义后,我们下一个要思考的问题就是最需要解决的理论基础问题,统计编码的理论基础是什么?

香农信息论认为:信源所含有的平均信息量(熵),就是进行无失真编码的理论极限。信息中或多或少的含有自然冗余。

例如上例当P(x)=1时,必然P(x)=P(x)=P(x)1234=P(x)=P(x)=P(x)=P(x)=0,这时熵H(X)=-P(x)56781logP(x)=0。21

最大离散熵定理:所有概率分布P(X)所构成的熵,以等概率j时为最大。

此最大值与熵之间的差值,就是信源X所含的冗余度(Redundancy)。

只要信源不是等概率分布,就存在着数据压缩的可能性。这就是统计编码的理论基础。

如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码又叫做熵保存编码,或者叫熵编码。

熵编码的特性:熵编码是无失真数据压缩,用这种编码结果经解码后可无失真地恢复出原图像。(1)霍夫曼编码:霍夫曼编码方法于1952年问世,迄今为止,仍经久不衰,广泛应用于各种数据压缩技术中,且仍不失为熵编码中的最佳编码方法。

霍夫曼编码就是依据可变字长最佳编码定理。

该定理的内容是:在变长码中,对于概率大的符号,编以短字长的码;对于概率小的符号,编以长字长的码;如果码制长度严格按照符号概率的大小的相反顺序排列,则平均码字长一定小于按其他任何符号顺序排列方式得到的码字长。

霍夫曼编码的具体实现步骤如下:

[1]概率统计(如对一幅图像,或m幅同种类型图像作灰度信号统计),得到n个不同概率的信息符号。

[2]将n个信源信息符号的n个概率,按概率大小排序。

[3]将n个概率中最后两个小概率相加,这时概率个数减为n-1个。

[4]将n-1个概率,按大小重新排序。

[5]重复第[3]步,将新排序后的最后两个小概率再相加,相加和与其余概率再排序。

[6]如此反复重复n-2次,得到只剩两个概率序列。

[7]以二进制码元(0、1)赋值,构成霍夫曼码字。编码结束。(2)算术编码

与霍夫曼编码不同,算术编码(Arithmetic Coding)跳出了分组编码的范畴,从全序列出发,采用递推形式的连续编码。它不是将单个的信源符号映射成一个码字,而是将整个输入符号序列映射为实数轴上[0,1]区间内的一个小区间,其长度等于该序列的概率;再在该小区间内选择一个代表性的二进制小数,作为实际的编码输出,从而达到了高效编码的目的。不论是否是二元信源,也不论数据的概率分布如何,其平均码长均能逼近信源的熵。

算术编码方法比霍夫曼编码等熵编码方法要复杂,但是它不需要传送像霍夫曼编码的霍夫曼码表,同时算术编码还有自适应能力的优点,所以算术编码是实现高效压缩数据中很有前途的编码方法。

算术编码基本原理:算术编码方法是将被编码的信息表示成实数0和1之间的一个间隔。信息越长的编码表示它的间隙就越小,表示这一间隙所需二进位就越多,大概率符号出现的概率越大,对应于区间愈宽,可用长度较短的码字表示;小概率符号出现概率越小,层间愈窄,需要较长码字表示。

信息源中连续的符号根据某一模式生成概率的大小来减少间隔。可能出现的符号要比不太可能出现的符号范围少,因此只增加了较少的比特位。

当信源概率比较接近时,建议使用算术编码,因为此时霍夫曼编码的结果趋于定长码,效率不高。根据对主要的统计编码方法的比较,算术编码具有最高的压缩效率。

但实现上,算术编码比霍夫曼编码复杂,特别是硬件。

算术编码也是变长编码,因此,算术编码也使用于分段信息。在误差扩散方面,比分组码要严重,因为它是从全序列出发来编码的,一旦有误码,就会一直延续下去。因而算术编码的传输要求有高质量的信道,或采用检错反馈重发的方式。

值得指出的是,实际上并不存在某种唯一的“算术码”,而是有一大类算术编码的方法。仅IBM公司便拥有数十项关于算术编码的专利。(3)行程编码

行程编码(Run Length Code),也称行程长度编码。行程编码是无失真压缩编码方法。计算机多媒体静止图像数据压缩标准算法中就采用了行程编码方法。

行程编码的基本原理是建立在图像的统计特性基础上的。对于黑、白二值图像,由于图像的相关性,每一行扫描线总是由若干段连续的黑像素点和连续出现的白像素点构成。黑(白)像素点连续出现的像素点数称行程长度,简称长度。黑像素点的长度和白像素点的长度总是在交替发生,交替发生变化的频度与图的复杂度有关。现在我们把灰度1(黑)和1的行程长度,或0(白)和0的行程长度组合,构成编码输入码元而进行编码,并按其出现的概率,分配以不同码长的码字。大概率以短码;小概率以长码。

设像素的一个扫描行是由整数序列x,x,……x(x表示像素)12N构成,其对应灰度为g,g,……g,在一维行程编码中,将x序列映12N射成整数对(g·L)的序列,其中g表示像素x的灰度,L表示具有kkkkkg灰度像素点的连续像素点数,即行程长度。k

行程编码一般分为:一维行程编码和二维行程编码。

2)预测编码

预测编码(Predictive Coding)是统计冗余数据压缩理论的三个重要分支之一,它的理论基础是现代统计学和控制论。预测编码主要是减少了数据在时间和空间上的相关性,因而对于时间序列数据有着广泛的应用价值。

它的基本思想是:建立一个模型,这个模型利用以往的样本数据,对下一个新的样本值进行预测,将预测所得的值与实际值相减得到一个差值,再对该差值进行编码。由于差值很小,可以减少编码的码位,实现压缩。(1)预测编码原理

模型→利用以往的样本数据→对下一个新的样本值进行预测→将预测所得的值与实际值的差值进行编码→由于差值很小,可以减少编码的码位。

也就是说先建立一个模型,在编码端(发送端)按此模型计算预测值并求出预测值和实际值之差,再将“差”编码,通过信道将“差”的编码传送给接收端,接受端也有一个与发送端一致的模型,按此模型解码。

以图像数据压缩为例,预测编码方法是从相邻像素之间有很强的相关性特点考虑的。比如当前像素的灰度或颜色信号,数值上与其相邻像素总是比较接近,除非处于边界状态。那么,当前像素的灰度或颜色信号的数值,可用前面已出现的像素的值进行预测(估计),得到一个预测值(估计值),将实际值与预测值求差,对这个差值信号进行编码、传送。(2)预测编码方法

线性预测编码方法分为线性预测和非线性预测编码,也称差值脉冲编码调制法(Differention Pulse Code Modulation,DPCM)。下面对差值脉冲编码调制法的基本原理作一简单介绍。

DPCM的基本原理:一幅二维静止图像,设空间坐标(i,j)像素点的实际灰度为f(i,j),F(i,j)是根据以前已出现的像素点的灰度对该点的预测灰度,也称预测值或估计值。

f(i,j)——空间坐标 像素点的实际灰度值。

F(i,j)——空间坐标像素点的预测灰度值。

实际值和预测值之间的差值:e(i,j)=f(i,j)-F(i,j)。

将差值定义为预测误差,由于图像像素之间有极强的相关性,所以这个预测误差是很小的。编码时,不是对像素点的实际灰度f(i,j)进行编码,而是对预测误差信号e(i,j)进行量化、编码、发送,由此而得名为差值脉冲编码调制法。

DPCM编码、解码系统包括发送、接收和信道传送三部分。

第一部分发送端由编码器、量化器组成;第二部分接收端包括解码器和预测器等;第三部分是信道传送(若发送端不带量化器——可逆的无失真的DPCM编码,是信息保持编码;若发送端带量化器——有失真的DPCM编码)。

由此可见,DPCM系统具有结构简单,容易用硬件实现(接收端的预测器和发送端的预测器完全相同)的优点。

可见引入量化器会引起一定程度的信息损失,使图像质量受损。但是,为了压缩比特数,利用人眼的视觉特性,对图像信息丢失不易觉察的特点,带有量化器有失真的DPCM编码系统还是普遍被采用。

前述的DPCM系统是预测系数和量化器参数一次设计好后,不再改变。但是在图像平坦区和边缘处要求量化器的输出差别很大,否则会导致图像出现令人讨厌的噪声。

自适应技术的概念是预测器的预测系数和量化器的量化参数,能够根据图像的局部区域分布特点而自动调整。实践证明ADPCM编码、解码系统与DPCM编码、解码系统相比,不仅能改善恢复图像的评测质量和视觉效果,同时还能进一步压缩数据。

ADPCM系统包括自适应预测(即预测系数的自适应调整)和自适应量化(即量化器参数的自适应调整)两部分内容。

自适应预测:我们在预测值计算公式中增加一个可变参数m,m的取值根据量化误差的大小自适应调整。m自动增大,预测误差减小,使斜率过载尽快收敛;m自动减小,预测误差加大,使量化器输出不致正负跳变,减轻颗粒噪声。

自适应量化:自适应量化的概念是,根据图像局部区域的特点,自适应地修改和调整量化器的参数,包括量化器输出的动态范围、量化器判决电平(量化器步长)等。实际上是在量化器分层确定后,当预测误差值小时,将量化器的输出动态范围减小,量化器步长减小;当预测误差大时,将量化器的输出范围扩大,量化器步长扩大。参数改变的原则是量化误差低于该误差下的视觉阈值,将误差掩盖。

预测编码方法在运动图像压缩和传输中有大量的应用,如电视信号的预测编码。

电视信号的预测编码包括电视信号的帧内DPCM编码和帧间DPCM编码两部分。当今世界上彩色电视有三种制式:NTSC制、PAL制与SECAM制。这三种制式的行频、场频、帧频不同,略有差别,但是它们共同点是频率高、周期短。要保证画面质量,须在一行内或一帧时间内完成实时编码操作。

国际无线电咨询委员会(CCIR)制定的演播室质量数字电视编码标准,即CCIR 601标准,推荐彩色电视的采样格式有:Y:C:Crb为4:2:2格式和Y:C:C为4:4:4格式。在4:2:2格式中,亮度信rb号Y的采样频率为13.5MHz,两个彩色信号C、C采样频率都用6.75 rbMHz。在4:4:4格式中,亮度信号Y和两个彩色信号C、C采样频率rb都用13.5 MHz。以4:4:4采样格式为例,当每像素量化成8 bit,那么其数据速率为13.5 MHz×8 bit×3=324 Mb/s。如此高的数据速率,无论在通信线路上传输或者存储都是难以实现的,所以电视信号的压缩编码是十分重要的问题。

帧间编码技术处理的对象是序列图像(也称为运动图像)。随着大规模集成电路的迅速发展,已有可能把几帧的图像存储起来作实时处理,利用帧间的时间相关性进一步消除图像信号的冗余度,提高压缩比。帧间编码的技术基础是预测技术。帧间编码除了上述讲的条件补充法外,还有一个比较重要的技术就是运动补偿。运动补偿技术得到特别的重视,在标准化视频编码方案MPEG中,运动补偿技术是其使用的主要技术之一。使用运动补偿技术对提高编码压缩比很有好处,尤其对于运动部分只占整个画面较小的会议电视和可视电话,引入运动补偿技术后,压缩比可以提高很多。用这一技术计算图像中运动部分位移的两个分量,可使预测效果大大提高。运动补偿方法是跟踪画面内的运动情况对其加以补偿之后再进行帧间预测。这项技术的关键是运动向量的计算。

3)变换编码

利用预测编码可以去除图像数据的时间和空间的冗余,直观、简捷和容易实现,特别适用于硬件实现。对于传输速率高的地方,大多采用这种方法。但是由于预测编码的压缩能力有限,DPCM一般压缩到2~4倍。变换编码是进行一种函数变换,不是直接对空域图像信号编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换系数进行编码处理。

变换编码的理论基础是“联合信息熵必不大于各分量信息熵之和。”也就是说,对于联合信源(x,y),其冗余度也隐含在信源间的相关性之中,通常不易直接对各分量进行编码,应尽量去除各分量间的相关性。

变换编码技术已有近30年的历史,技术上比较成熟,理论上也比较完备,广泛应用于各种图像数据压缩,诸如单色图像、彩色图像、静止图像、运动图像,以及多媒体计算机技术中的电视帧内图像压缩和帧间图像压缩等。

正交变换的种类很多,如傅里叶变换、沃尔什变换、哈尔变换、斜变换、余弦变换、正弦变换、K-L变换等。

余弦变换是傅里叶变换的一种特殊情况。在傅里叶级数展开式中,如果被展开的函数是实偶函数,那么,其傅里叶级数中只包含余弦项,再将其离散化,由此可导出余弦变换,或称之为离散余弦变换(DCT)。

离散余弦变换,在数字图像数据压缩编码技术中,可与最佳变换K-L变换媲美,因为DCT与K-L变换压缩性能和误差很接近,而DCT计算复杂度适中,又具有可分离特性,还有快速算法等特点,所以近年来在图像数据压缩中,采用离散余弦变换编码的方案很多,特别是20世纪90年代迅速崛起的计算机多媒体技术中,JPEG、MPEG、H.261等压缩标准,都用到离散余弦变换编码进行数据压缩。(1)一维离散余弦变换

设一维离散函数f(x),x=0,1,……N-1,把f(x)扩展成为偶函数的方法有两种,以N=4为例,可得出如图4.3和图4.4所示的两种情况。图4.3称偶对称,图4.4称奇对称,从而有偶离散余弦变换(EDCT)和奇离散余弦变换(ODCT)。图4.3 偶对称图4.4 奇对称

由图4.3和4.4看出,对于偶对称扩展,对称轴在x=-1/2处。

采样点数增到2N。

奇对称扩展,对称轴在x=0处。

采样点数增到2N-1。

由离散傅里叶变换定义出发,对公式(4.1)作傅里叶变换,以Fs(u)表示,则得

式中:u=-N,-N+1,……N-1。

当u=0时,F(0)=f(x);s

当u=-N时,F(-N)=s

当u=±1,±2,……±(N-1)时,F(u)=F(-u);且ss

F(u)+F(-u)=ss

考虑正变换公式与逆变换公式的对称性,令

当u=0,C(0)=(4.4)

当u=1,2,……N-1,C(u)=(4.5)

式中:u=0,g(0,x)=(4.6)

u=1,2,……N-1;

定义式(4.4)和式(4.5)为离散偶余弦正变换公式;式(4.6)和式(4.7)为离散偶余弦变换公式。

离散偶余弦逆变换公式为:

将式(4.4)和式(4.5)合并、化简,可得到一维离散偶余弦正变换公式,即

式中:u=0,1,……N-1;

当u=0时,E(u)=1/

当u=1,2,……N-1时,E(u)=1。(2)二维离散偶余弦变换

设空域变量取值范围为:

x=0,1,……N-1;

y=0,1,……N-1.

频域变量取值范围为:

u=0,1,……N-1;

v=0,1,……N-1,那么,

二维离散偶余弦正变换公式为:

式中:u=0,1,……N-1;

v=0,1,……N-1.

E(u)=E(v)=1/,当u=0,v=0

E(u)=E(v)=1,当u=1,2,……N-1;v=1,2,……N-1

二维离散偶余弦逆变换公式为:

式中:x,y=0,1,……N-1。

E(u)=E(v)=1/2,当u=0,v=0;

E(u)=E(v)=1,当u=1,2,……N-1;v=1,2,……N-1。

二维离散余弦变换核具有可分离特性,所以,其正变换和逆变换均可将二维变换分解成一系列一维变换(行、列)进行计算。(3)借助FFT实现离散余弦变换

由公式(4.4)和公式(4.5)一维离散偶余弦正变换公式,略加变换,即

当u=0时,C(u)=

当u=1,2,……N-1时,

式中,可用FFT算法计算,其结果乘以,取实部即可得到离散余弦变换结果。计算FFT时,x=0,1,……2N-1求和。但实际上,在x=N,N+1,……2N+1范围内,f(x)均得零,故仍然计算N个点。(4)二维快速离散余弦变换γβ

二维快速离散余弦变换算法,是直接对二维图像数据M×N=2×2逐层对半分块,并重新排列数据,直至被分割的子块尺寸为1×1为止。这种算法既不是将二维分离成行、列,再进行一系列的一维变换算法,也不是借助于FFT,再取实部的算法。二维快速余弦变换,只需做实数乘法和加法,对于x方向取样点数为M,y方向采样点数为N的f(x,y)图像数据块,其快速余弦变换的实数乘法次数为3/8MNlog(MN)。2为了公式推导简化,把采样点数M、N和常数4都放在正变换式中。即

[1]正变换(DCT)

式中:u=0,1,……M-1;

v=0,1,……N-1.

[2]逆变换(IDCT)

式中:x=0,1,……M-1;

y=0,1,……N-1.

4.2 静止图像压缩编码标准

1986年成立的联合图片专家组JPEG(Joint Photographic Experts Group),主要任务是制定静态图像帧内压缩编码ISO/IEC 10918。1992年1月2日提出草案,1994年2月15日正式第一次编辑出版。JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像又可用于彩色图像。

JPEG专家组开发了两种基本的压缩算法:一种是采用以离散余弦变换(DCT)为基础的有损压缩算法;另一种是采用以预测技术为基础的无损压缩算法。使用有损压缩算法时,在压缩比为25:1的情况下,压缩后还原得到的图像与原始图像相比较,非图像专家难以找出它们之间的区别,因此得到了广泛的应用。例如,在V-CD和DVD-Video电视图像压缩技术中,就使用JPEG的有损压缩算法来取消空间方向上的冗余数据。为了在保证图像质量的前提下进一步提高压缩比,近年来JPEG专家组正在制定JPEG 2000(简称JP 2000)标准,这个标准中将采用小波变换(Wavelet)算法。

我们将重点介绍基于DCT变换有失真的压缩算法。

4.2.1 基于DCT的编码器框图

JPEG压缩是有损压缩,它利用了人的视角系统的特性,使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。JPEG系统框图如图4.5所示,压缩编码大致分成以下三个步骤:(1)使用正向离散余弦变换(Forward Discrete Cosine Transform,FDCT)把空间域表示变换成频率域表示。(2)使用加权函数对DCT系数进行量化,这个加权函数对于人的视觉系统是最佳的。(3)使用霍夫曼可变字长编码器对量化系数进行编码。图4.5 JPEG压缩编码框图

解压缩的过程与压缩编码过程正好相反。

JPEG算法与彩色空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JPEG算法中。JPEG算法处理的彩色图像是单独的彩色分量图像,因此它可以压缩来自不同彩色空间的数据,如RGB、YCC和CMYK。br

4.2.2 JPEG编码算法和实现

JPEG压缩编码算法的主要计算步骤如下:(1)正向离散余弦变换(FDCT)。(2)量化(Quantization)。(3)Z字形编码(Zigzag Scan)。(4)使用差值脉冲编码调制(DPCM)对直流系数(DC)进行编码。(5)使用行程长度编码(Run-Length Encoding,RLE)对交流系数(AC)进行编码。(6)熵编码(Entropy Coding)。

1)正向离散余弦变换

下面对正向离散余弦变换(FDCT)变换作几点说明。(1)对每个单独的彩色图像分量,把整个分量图像分成8×8的图像块。

分块方法:从左到右,从上到下。黑白图像:64个灰度值。彩色图像:64个亮度分量,64个色差分量。例如:分辨率为576行×720列的彩色图像,有亮度子块:576÷8×720÷8=6 480个,有色差子块:576÷8×360÷8=3 240个。

如图4.6所示,并作为两维离散余弦图4.6 离散余弦变换变换DCT的输入。通过DCT变换,把能量集中在少数几个系数上。(2)DCT变换使用下式计算,

它的逆变换使用下式计算,

上面两式中,C(u)=C(v)=1/,当u,v=0;

C(u)=C(v)=1,其他。

f(i,j)经DCT变换之后,F(0,0)是直流系数,其他为交流系数。(3)在计算两维的DCT变换时,可使用下面的计算式把两维的DCT变换变成一维的DCT变换,如图4.7所示。图4.7 两维DCT变换方法

2)量化

量化是对经过FDCT变换后的频率系数进行量化。量化的目的是减小非“0”值系数的幅度以及增加“0”值系数的数目。量化是图像质量下降的最主要原因。

对于有损压缩算法,JPEG算法使用如图4.8所示的均匀量化器进行量化,量化步距是按照系数所在的位置和每种颜色分量的色调值来确定的。因为人眼对亮度信号比对色差信号更敏感,因此使用了两种量化表:如图4.9所示的亮度量化值和如图4.10所示的色差量化值。从这两张图可以看出,一个对亮度的量化步长划分的“细”一些,一个对色度的量化步长划分的“粗”一些;两张表都是在低频部分(左上角)步长小一些,在高频部分(右下角)步长大许多。

因为DCT变换后能量大部分集中在左上角,所以对其细一些。这样量化就是用DCT系数除以量化表。那么量化后高频部分会出现一些“0”,就实现了压缩,而且失真也就是在此发生的。JPEG标准的具体做法是用64个DCT系数除以(一一对应)量化表中的64个数。图4.8 均匀量化器

此外,由于人眼对低频分量的图像比对高频分量的图像更敏感,因此图中的左上角的量化步距要比右下角的量化步距小。图4.9和图4.10中的数值对CCIR 601标准电视图像已经是最佳的。如果不使用这两种表,也可以用自己的量化表替换它们。图4.9 亮度量化值表图4.10 色度量化值表

3)Z字形编排

量化后的系数要重新编排,目的是为了增加连续的“0”系数的个数,就是“0”的游程长度,方法是按照Z字形的式样编排,如图4.11所示。这样就把一个8×8的矩阵变成一个1×64的矢量,频率较低的系数放在矢量的顶部。

4)直流系数的编码

8×8图像块经过DCT变换之后得到的DC直流系数有两个特点,一是系数的数值比较大,二是相邻8×8图像块的DC系数值变化不大。根据这个特点,JPEG算法使用了差分脉冲调制编码(DPCM)技术,对相邻图像块之间量化DC系数的差值(DIFF)进行编码,DIFF=DC(0,0)-DC(0,0)kk-1图4.11 量化DCT系数的编排

5)交流系数的编码

量化AC系数的特点是1×64矢量中包含有许多“0”系数,并且许多“0”是连续的,因此使用非常简单和直观的游程长度编码(RLE)对它们进行编码。

JPEG使用了1个字节的高4位来表示连续“0”的个数,而使用它的低4位来表示编码下一个非“0”系数所需要的位数,跟在它后面的是量化AC系数的数值。

6)熵编码

使用熵编码还可以对DPCM编码后的直流DC系数和RLE编码后的交流AC系数作进一步的压缩,需对量化后的DC系数和行程编码后的AC系数进行基于统计特性的熵编码。JPEG建议使用两种熵编码方法:霍夫曼编码和自适应二进制算术编码(Adaptive Binary Arithmetic Coding)。

熵编码可分成两步进行,首先把DC和AC系数转换成一个中间格式的符号序列,第二步是给这些符号赋以变长码字。

第一步:中间格式符号表示。对交流系数AC的中间格式,由两个符号组成。

符号1(行程,尺寸)

符号2(幅值)

在这里需说明的是:关于符号1,当两个非零AC系数之间连续零的个数超过15时,用增加扩展符号1“(15,0)”的个数来扩充。对于8×8块的63个AC系数最多增加三个“(15,0)”扩展符号1。块结束(EOB)以(0,0)表示。

关于符号2,直接用二进制数编码表示,若幅值为负数用反码表示。

第二步:可变长度熵编码就是对符号1、符号2序列的统计编码。

对DC系数和AC系数中的符号1,查“霍夫曼码表”进行编码。“霍夫曼变长码表”和“霍夫曼变长整数表”是JPEG标准制定的,必须作为JPEG编码器的一部分输入。

7)组成位数据流

JPEG编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据,这样做的目的是为了便于传输、存储和译码器进行译码,这样组织的数据通常称为JPEG位数据流(JPEG bit stream)。

4.3 H.261标准

数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话、数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如会议电视。MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准,H.262标准等同于MPEG-2的视频编码标准,而最新的H.264标准则被纳入MPEG-4的第10部分。

4.3.1 概述

H.261又称为P×64,其中P为64 Kb/s的取值范围,是1~30的可变参数,它最初是针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码,而非恒定质量可变码流编码。

当P=1,2时,码率最高为128 Kb/s,仅适合于可视电话;当P≥6时,码率较高,可传送清晰度较好的图像,适合于会议电视。本节主要讨论H.261视频编码标准。

4.3.2 图像格式

为了使现有各种电视制式的电视图像在会议电视中相互转换,H.261建议采用了公用中间格式(Common Intermediate Format),即CIF格式,对于低码率传输则采用图像尺寸为1/4CIF的QCIF(Quarter CIF)格式。表4.1列出了彩色电视国际标准及相关参数。

CIF格式具有如下特性:(1)电视图像的空间分辨率为家用录像系统(Video Home System,VHS)的分辨率,即352×288。(2)使用非隔行扫描(Non-Interlaced Scan)。(3)使用NTSC帧速率,电视图像的最大帧速率为29.97帧/s。(4)使用1/2的PAL水平分辨率,即288线。(5)对亮度和两个色差信号(Y、C和C)分量分别进行编码。br表4.1 彩色电视国际标准

4.3.3 H.261编码器框图

图4.12给出可视电视会议电视系统的图像压缩编码标准H.261的编码器框图。图中各框图功能说明如下:(1)输入信号:根据应用场合,输入信号可以是CIF或QCIF格式数字图像。(2)信源编码器:对输入的CIF/QCIF数字图像进行压缩。(3)图像复接编码器:将每帧图像数据编排成四个层次的数据结构,以便在各层次中插入必要的信息数据,同时对量化后的直流DCT系数进行固定字长编码(FLC);对量化后的交流DCT系数进行可变字长编码(VLC)。(4)传输缓冲器:其容量按使用码率P×64 Kb/s加上固定富余量后确定。由于图像内容变化使输出码率变化,此信息反馈给编码控制器CC。CC控制信源编码器中量化器的量化步长,同时将步长辅助信息数据送到复接编码器中相应层次供解码用,由此实现自动控制码率高低(量化步长决定码率高低),以便适应图像内容的变化,充分发挥既定码率P×64 Kb/s的传输能力,尽可能保持码率满负载。(5)信道编码器:插入BCH(511,493)纠错码,该纠错码对于511比特串中的两个任意位置上的随机错误可以纠错,而最多可对6个随机错误纠错。(6)编码控制器CC:控制量化步长,控制帧内、帧间编码模式。图4.12 H.261的编码器框图

4.3.4 信源编码

信源编码器实际上是以宏块MB(Macro Block)为单位的。对Y:C:C=4:1:1格式,一个MB包含亮度分量Y的4个子块,色度分br量C、C的各一个子块,共6个子块,如图4.13所示。br图4.13 宏块内各子块的排列

信源编码器中各功能块介绍如下:

1)帧内、帧间编码模式

帧内、帧间编码模式由编码控制器控制。(1)帧内编码模式:其功能和JPEG相似。(2)帧间编码模式:由于可视电话帧频为30 Hz,相邻帧间有较强的相关性,所以允许每两帧传送图像之间可以有3帧不传(第2,第3,第4帧)。每次场景更换后的第1帧要传,所以第1帧进行帧内编码用I表示(Intra Frame)又称为I帧,第5帧为预测帧用P表示(Predicted Frame)又称为P帧。它是由I帧和信源第5帧经预测编码而得,P帧本身也可作为下一个P帧预测编码的基础。图中B帧由内插帧间编码获得,称为双向预测帧,用B表示(Bidirectional Predicted Frame)简称B帧。在H.261中不进行双向预测,即不使用B帧。I、P、B帧的关系图如图4.14所示。在进行帧间预测编码时是以运动估计、运动补偿为基础的,即不是传送P帧图像,而是传送运动矢量和预测误差。图4.14 I、P、B帧三种图像关系

2)DCT

对每个宏块中的6个8×8子块图像x(n,n)作2DDCT运算,产12生6个8×8子块DCT系数X(k,k)。12

3)量化

对DCT系数X(k,k)进行量化,量化公式为12

式中用S表示正负,S=0为正,S=1为负。q为量化步长q=1,2,……31。对每一宏块中的6个子块量化步长取相同值,q的选择由传输q缓存器存储余量决定,余量大,q取得小,使X(k,k)值高,输12q出码率高。解码时,若S=0,X(k,k)=2qX(k,k),若S=1则1212qX(k,k)=-2qX(k,k)。1212

4)运动估计和运动矢量

帧间预测编码的任务是寻找运动矢量和预测误差,在前一帧内对应于当前帧宏块位置的附近区域搜索最匹配的宏块,也就是寻找最相似的宏块(根据不同的匹配准则)。从而获得运动矢量MV(H,V):

式中C(n,n)是当前帧图像数据,P(n,n)是前一帧编码1212重建图像数据,H,V表示水平和垂直方搜索像素数,最大搜索范围为-15像素到+15像素。有些只搜索到-8像素到+7像素。这是在前帧亮度信号中进行搜索。

运动估计实际上是要找到运动矢量H、V,H和V表示前一帧中匹配宏块的位置,即相对于当前帧宏块水平方向向右移动H个像素,垂直方向向下移动V个像素,若为负值,则向相反方向移动。

在前一帧中找到最匹配的宏块后,可由下式求得预测误差。ΔMB(n,n)=C(n,n)-P(n+H,n+V)121212

上式中的n指水平方向向右16个像素差值,n指垂直方向向下1612个像素差值,共有16×16=256个像素差值。同理,在色度信号C 、bC 中搜索还各有8×8=64个像素差值,所以对一个宏块共有384个差r值。这些差值,称为预测误差,每个MB的预测误差再经过DCT量化等编码过程后传送。

5)帧内、帧间编码全过程

图4.15给出帧内、帧间编码全过程。图4.15 帧内、帧间编码(1)帧内编码

此时对输入宏块MB的每个子块作2 DDCT,经过量化,一个MB对应一个量化步长q,量化步长由传输缓存根据存储器余量决定编码控制器控制。量化后的宏块数据分为两路:一路输出到复接编码器,-1另一路经逆量化(Q),IDCT作为重建图像进入参考存储器,直到全帧图像处理完毕。(2)帧间编码

此时参考存储器中已存有前一帧的重建图像完整数据,当后继帧中的宏块MB到来时,作以下操作:首先进行运动估计,根据运动估计公式在后继帧宏块MB[C(n,n)]所对应的前一帧MB的±15个像12素范围内搜索最匹配的亮度块(即4个8×8亮度子块),得到运动矢量的两个分量H、V,运动矢量H、V即可从参考存储器中逐块取出匹配宏块P(n+H,n+V)(4个亮度子块,2个色度子块),再通过环路滤12波器滤波后得PF(n+H,n+V),然后与后继宏块C(n,n)相减得1212预测误差ΔMB(n,n)。12ΔMB(n,n)=C(n,n)-PF(n+H,n+V)121212

所得预测误差和运动矢量(H,V)经DCT量化(Q)后分两路。-1一路到复接编码器,另一路经逆量化(Q),IDCT在逆差值中与P(n+H,n+V)相加得后继帧重建空间图像CP(n,n),存在参考1212存储器中,直到后继帧全部处理完毕,帧间信源编码完成,参考存储器内容更新。

4.3.5 视频图像复接编码器

H.261建议的视频图像复接的结构是一种分层结构,由顶层至底层依次为图像层(Picture)、宏块组(GOB)层、宏块(MB)层、块(Block)层,共分四层。

宏块MB含4个亮度子块Y和2个色度子块C、C。MB的6个子块排br列方式如图4.16所示。

块组层GOB含33个MB,其排列方式如图4.17所示。

一帧CIF(或QCIF)图像由12(或3)个GOB构成。其排列方式如图4.18所示。图4.16 MB中子块的排列图4.17 GOB中MB的排列图4.18 一幅图像中GOB的排列

图像子块B含8×8像素。

视频图像数据按上述层次安排有利于数据交换和设备兼容。

4.3.6 信道编码器

为了能检测和纠正信道传输时出现的误码,需进行信道编码——纠错编码。H.261采用二进制BCH码,BCH码是循环冗余校验码,是线性码的一个子集。H.261采用的是BCH(511,493)码,即码长n=511位,其中信息码元k=493位,检验码元n-k=18位。

当传输缓存送来每帧图像数据时,则把这一连串数据分为492位为一组,加上一个F1码成为493位,把这组数据送入BCH编码器,经编码后输出511位,加上一个同步位成为512位即构成一同步帧。

BCH编码器加入的18位校验码是根据下列公式生成多项式g(x)和数据多项式f(x)按BCH编码规则形成的。

g(x)=(x+x+1)(x+x+x+x+1)949643

f(x)=V+Vx+Vx+……+Vx v=0或1,I=0,1,……4920122492492i

BCH码的码长n,信息码元k和纠错能力t之间有如下关系:

n=2m-1,n-k≤mt

式中,m为大于3的正整数,所以纠错能力为t≥9

对BCH(511.493)码有n=511=2-1,m=9,n-k=18≤9t。所以当t=2时,即可纠正2位误码,当每一同步为正的512到达解码器后,由BCH解码器解出信息码元493位,如果发现2位或2位以下的误码,则可自动纠正。

4.3.7 其他H系列的视频标准

1)H.263视频编码标准

H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。

H.263是ITU-T为低于64 Kb/s的窄带通信信道制定的视频编码标准。它是在H.261基础上发展起来的,其标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4:2:0亚取样图像。H.263与H.261相比采用了半像素的运动补偿,并增加了4种有效的压缩编码模式。

2)H.263视频压缩标准版本 Ⅱ

ITU-T在H.263发布后又修订发布了H.263标准的版本 Ⅱ,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。

为提高压缩效率,H.263+采用先进的帧内编码模式,增强的PB帧模式,改进了H.263的不足,增强了帧间预测的效果。去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。

为适应网络传输,H.263+增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载