数据压缩(第3版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-27 22:57:18

点击下载

作者:吴乐南

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据压缩(第3版)

数据压缩(第3版)试读:

第三版修订前言

本教材自从2005年10月出版第二版以来,在2006年入选“普通高等教育‘十一五’国家级规划教材”。由于我国高等教育的发展,教学和教材“精品化”的要求,特别是本学科领域认识的深化,技术的突破,需求的牵引,产品的创新,市场的竞争,以及对于标准的重视与前瞻,都持续地对本教材内容的修订与更新提出了紧迫的要求和更高的标准,因此,电子工业出版社和读者也要求编者在保持教材总体格局的前提下,对第二版继续进行修订、补充和更新。

第三版的章节总体结构同第二版,除修订了第二版的部分错误和疏漏外,基本保持了原作的框架风貌与教材特点。在内容的增删与更新方面主要进行了以下安排。

第1章:仅略做更新。

第2章:结构不变,做了少量的订正、润色与更新,列出了参考文献。

第3章:在少量订正和润色的基础上,通过新增3.3.5节“基本途径之六──利用方差变换”、3.5节“分布式信源编码”和3.6节“压缩感知”(可在教学中酌情处理,均以“*”号表示),将理论研究的新进展凝练为4条新的数据压缩基本途径,并列出了参考文献。

第4章:做了少量的订正、润色与更新,扩充了参考文献。重点针对4.4节“游程编码”,删除了内容陈旧且不实用的4.4.1节“基本方法分析”,更新了4.4.2节(原4.4.3节)“连续色调图像的二维编码”,以反映国内外视频压缩标准中的新进展。

第5章:结构不变,订正了印刷错误,更新了参考文献,主要将5.7.4节由原来的“H.264的宏块划分”更改为“预测块划分与亚像素精度”,以侧重基本原理的理解。

第6章:结构不变,订正了印刷错误,并配合正文内容增补了少量参考文献,以反映最新的研究进展。

第7章:除了7.2节外,其他结构不变,仅做少量润色和文献更新。重点改写了7.2节“宽带声音的子带编码”:扩充了7.2.1节“宽带音频编码的特点”;将原7.2.4节“音响信号压缩的分析模型”作为新的7.2.2节,并删除了其中一些陈旧或非标准的例子,以体现原理在标准前面介绍的教学合理性;将原7.2.2节“宽带音频编码的标准考虑”和原7.2.3节“MPEG音频编码标准的发展”的内容,合并调整为新的7.2.3节“宽带音频编码的MPEG标准”,并通过新的7.2.4节相应地增补“宽带音频编码的中国标准”;将原7.2.5节“动态码位分配及其MPEG实现”展开为新的7.2.5节“MPEG-1音频算法”和新的7.2.6节“MPEG-2 AAC音频算法”,使得各节之间的内容更加均衡,更便于教学内容的模块化组织,也能够更清晰地在整体上与新增的7.2.7节“DRA音频算法”和7.2.8节“SVAC音频算法”这两个新近公布的国家标准相对应,有利于读者的查找和对比。本章新增了大量的参考文献以供有兴趣的读者深入和溯源。

第8章:名称由原来的“视频压缩编码的国际标准简介”更改为“视频编码标准与进展简介”,以涵盖已实施的中国标准和新的标准化进展;将已经陈旧的原8.1节“H.261建议”、原8.2节“MPEG-1视频压缩标准”、原8.3节“MPEG-2视频压缩标准”和原8.4节“H.263建议”大幅删减,同时并入原8.5.2节“现有视频编码标准的共性技术”和原8.5.3节“经典标准算法的不足”的内容,整体浓缩为新的8.1节“视频压缩编码国际标准的发展”;将原8.5节“MPEG-4视频压缩标准概述”的其他内容,与原8.6节“MPEG-4基于内容的编码”整体合并,作为新的8.2节“MPEG-4基于内容的编码”;将原8.7节“H.264/AVC视频压缩标准”作为新的8.3节而适度扩充,删除了非正式出版的参考文献,补充了最新的研究进展;将原8.8节“AVS视频压缩标准简介”充实为新的8.4节“AVS视频压缩标准”;增加了全新的8.5节“SVAC视频压缩标准”、8.6节“H.265视频编码标准简介”和8.7节“立体视频编码技术介绍”,补充了大量的近期参考文献。

习题或思考题:仅有个别更新。

缩写词索引:继续充实。

参考文献:统一在书后按章列出,并在正文中有所标记,需要时按章查找即可。为了在有限的篇幅内给出更大的信息量,编者尤其注重给出国内近期的有关博士论文,这样读者在查找时可通过每篇博士论文的综述及后面上百篇的参考文献,追溯到更多的源头期刊和会议论文。这种方式应该有利于不同层次的读者各取所需。谨在此对所有文献的作者表示深深的谢意和敬意。

本教材的参考学时数和对教学内容的取舍仍可参照第一版的“前言”灵活安排。

本教材为“江苏省高等教育精品课程”配套教材,开通的教学网站提供本课程教学团队的全程教学录像和全部课件,需求者请登录:ww.hxedu.com.cn索取。

本教材3.6节由戚晨皓讲师编写,8.7节由罗琳副教授编写;陈阳教授提供了对于第二版的详细勘误;一些兄弟院校的任课教师也提出了许多宝贵意见,谨在此表示衷心的感谢。第三版时至今日才与读者见面,概因作者的耽搁,为此深感内疚。纵然时间太紧、发展太快可作为客观托辞,但跟踪吃力、缺乏动力却是真实写照,为此特别要对第三版的责任编辑陈晓莉女士多年来的耐心、理解、宽容和帮助表示真诚的敬意与谢意。本次修订仍遗留下许多作者自感仓促成文、未及深究以致难以把握的遗憾,恳请广大读者不断批评指正。

吴乐南

2012年7月18日于南京

第二版前言

本教材是根据原电子工业部《1996—2000年全国电子信息类专业教材编审出版规划》,由通信与信息工程专业教学指导委员会编审、推荐出版的。自从2000年6月第一版出版以来,虽然时间只过去了52个月,但我国高等教育的发展,教学要求的提高,特别是本学科领域技术的进步,产品的普及,市场的扩张,标准的换代,以及新的应用需求(如无线多媒体)的牵引,都相应地对本教材内容的更新提出了紧迫的要求和更高的标准。正是在这样的背景下,电子工业出版社要求编者在保持教材总体格局不应有大变化的前提下,对第一版进行修订、补充和更新。

第二版的章节总体结构同第一版,除修订了第一版的部分错误和疏漏外,基本保持了原作风貌,但在章、节、段的目录结构上,取消了原来某些章节中的第4级段落,使得各段(即第3级目录)的内容更均衡一些,以便教学内容的组织和选取。在内容的增删与更新方面主要进行了以下安排。

第1章与第3章不变,仅略做润色。

第2章:将原2.2节“量化”拆分为“标量量化”和“矢量量化”两节。

第4章:扩充了4.2节“霍夫曼编码”;调整了原来的4.3节“游程编码”,即将原6.3.4节“JPEG基本系统的编码”中有关编码的内容按照“难点分散”的原则,作为新的4.4.3节“连续色调图像的二维编码”调整过来。另外,新增了4.3节“Golomb编码与通用变长码”,以反映国内外视频压缩标准中的最新进展。

第5章:调整了5.3节,即将原来分散在原5.3节“语音信号的预测编码”与原7.2节“宽带声音的子带编码”中有关听觉感知方面的内容加以集中,形成新的5.3节“音频信号与听觉感知”;重新改写了原5.3节“语音信号的预测编码”,并作为新的5.4节;在原5.4节“静止图像的预测编码”中补充了国际标准H.264/AVC和国家标准AVS视频中新出现的帧内预测模式;将原5.5节“活动图像的预测编码”拆分为新的5.6节“视频信号与视觉感知”和5.7节“活动图像的预测编码”两节:前者并入了原8.1.1节和原8.2.1节的“输入图像格式”,以突出重点,便于查找;后者则新增了5.7.4节“H.264的宏块划分”。

第6章:在6.2节中新增了在H.264中出现的“基于DCT的整数变换”(6.2.5节),并改写了6.3节。

第7章:裁减了7.2节;重新改写了原7.3节“小波变换编码”:理论部分作为新的7.3节“小波分析简介”可在教学中酌情处理(以“*”号表示),应用部分则作为新的7.4节“静止图像的小波变换编码”,重点引入了新的JPEG 2000标准;而对原7.4节(现7.5节)“从波形基编码到模型基编码”(仍加以“*”号表示)则进行了较大的扩充,主要是在模型基编码方面,意在分散MPEG-4视频标准介绍中的难点,并将这些体现先进技术潮流但又尚未普及实用的内容呈现给读者评判和思考。

第8章:主要基于技术发展、产品更新和即将开始的主流应用方面的考虑,简化或裁减了涉及H.261、MPEG-1、MPEG-2和H.263的前4节;拆分并充实了原8.5节“MPEG-4视频压缩标准”;新增了8.7节“H.264/AVC视频压缩标准”和8.8节“AVS视频压缩标准简介”。除了展现国际上的新标准,也想为我国自己的标准做一点宣传。

另外,各章都增添了一些习题或思考题,而书末的“习题答案”和“缩写词索引”也有相应的充实。

关于参考文献,除了个别再次引用并标明出处者,第二版一般只列入本次修订所新增的新文献,而读者需要追溯的其他参考文献可在本教材的第一版及编者的旧作《数据压缩的原理与应用》(电子工业出版社,1995年2月第一版)找到。目的是既压缩篇幅,又为有研究兴趣的读者留下查找的线索;同时为方便查找,第二版的参考文献是按章列出并在正文中有所标记(当然又带来少量的重复)。编者谨在此对所有文献的作者表示深深的谢意和敬意。

本教材的参考学时数和对教学内容的取舍仍可参照第一版的“前言”灵活安排。

最后,编者真诚感谢电子工业出版社文宏武社长的鼓励和李秦华编辑的前期帮助,特别是对本次修订版的责任编辑陈晓莉女士的理解和宽容表示衷心的感谢。但是,尽管编者对于完稿期一拖再拖,仍感到时间太紧,发展太快,跟踪太吃力,力又不从心!使得本次修订仍遗留下许多连编者自己都深感遗憾之处,但愿能在“第三版”中加以弥补,也恳请广大读者不断批评指正。

吴乐南

2005年3月20日于南京

第一版前言

本教材是根据原电子工业部《1996—2000年全国电子信息类专业教材编审出版规划》,由通信与信息工程专业教学指导委员会编审、推荐出版的。本教材由东南大学吴乐南担任主编,北京大学徐孟侠教授担任主审,电子科技大学李在铭教授担任责任编委。

本教材的参考学时数为48学时(编者一直采用32学时),其主要内容大致可分为三部分。第一部分(第1至第3章)阐述数据压缩的基本概念、前提条件、评价准则、理论极限和主要途径,是全书的理论基础;第二部分(第4至第6章)讨论统计编码、预测编码和变换编码等数据压缩的经典方法和实用技术,是全书的主体;第三部分(第7和第8章)介绍了基于子带、小波、分形和模型的数据压缩理论、方法和进展,并作为综合应用的实例,给出了有关视频压缩编码的若干国际标准,是全书的深入和拓展。教材主要依据编者原作《数据压缩的原理与应用》(电子工业出版社,1995年2月第一版)并针对本科教学要求,分散难点(将有关标准所涉及的原理分散到各章),突出重点(注重概念,将必要的推导和证明留作习题),压缩篇幅(删除过时或未广泛应用的内容),更新内容(增加H.263、MPEG-4和MPEG-2 AAC的原理)。各章均有少量习题或思考题,书后附有参考文献、习题答案及全书缩写词的索引。

使用本教材时应注意根据不同的教学要求对内容进行适当取舍,灵活安排讲课时数。例如,教学时数为32/48学时,从第1章至第8章所用的参考学时数依次为2/2、3/4、5/6、6/8、5/8、5/6、2/4和2/6(均不包括加“*”的章节),留出2/4学时做实验。为利于自学或跨专业选修,本教材只要求读者具有普通工科大学生的概率论与线性代数基础。本教材也包含了一些较深入的内容,可用于研究生教学或参考。

本教材由吴乐南编写,其中第7.3.1至7.3.4节的内容及部分参考文献由王桥副教授提供。参加审阅工作的还有陈天授等同志,都为本书提出了许多宝贵意见,在此表示诚挚的感谢。由于编者水平有限,书中难免还存在一些缺点和错误,殷切希望广大读者批评指正。

编者

2000年1月

第1章 绪论

折中折中在深入本书讨论之前,先简单了解一下有关数据压缩的基本概念、定义、必要性、一般方法、技术分类和应用前景的概况,有助于提高我们的学习兴趣。

1.1 什么是数据压缩

人类社会已进入信息时代。而信息的本质,要求交流和传播。即使是最高度的机密,也需要有解密的使用者。否则,不能称之为信息。于是需要将信息从“这里”传输到“那里”——典型的“通信”概念;或者将信息从“现在”传输到“将来”——所谓“存储”问题。这两种物理过程,均可用图1.1所示的一个统一的数字传输系统模型来概括。图1.1 数字传输系统模型

图1.1中信源是数字的(或对模拟信号数字化的),而实际的物理传输通道却多为模拟信道,为此发送端通过调制器而接收端借助解调器实现数字序列在模拟信道上的传输。调制器加上解调器(modulator+demodulator)合称调制解调器(modem),简称调解器,它把物理上的模拟信道,转化为一个实际的数字信道。

之所以称“实际的”,是因为在传输过程中信道噪声和干扰在所难免,有可能使解调后的传输信息出错。为此,图1.1中的信道编码器加上信道解码器(coder+decoder)合称信道编解码器(codec)的任务,就是尽量使数字信息在传输过程中不出错或少出错,即使出了错也要能自动检错和尽量纠错。如果信道编码和信道解码(统称信道编码)足以保证数字序列的无误差传输,则图1.1中的信道codec就把由modem和模拟信道构成的实际数字信道,改造成一个理想的无噪声数字信道。因此,信道编码主要解决传输的可靠性问题。

而图1.1中的信源编码和信源解码即为本书所要研究的内容,统称为信源编码(阴影部分)。信源编码器加上信源解码器也合称信源codec,它通过对信源的压缩、扰乱、加密等一系列处理,力求用最少的数码最安全地传递最大的信息量。因此,信源编码面对的是传输的安全性和有效性。

信源编码和信道编码都是信息科学的重要分支。信源编码最初研究密码和压缩编码两大类编码方法,但随着理论基础和社会需求的细化,信息安全甚至密码学本身都已发展成为独立的学科。由此,信源编码主要解决传输的有效性问题,它构成了数据压缩的理论基础。那么,什么是数据压缩呢?

数据压缩,就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间。

所谓信号空间即被压缩对象,是指:

① 物理空间,如存储器、磁盘、磁带、光盘、USB闪存盘(U盘)等数据存储介质;

② 时间区间,如传输给定消息集合所需要的时间;

③ 电磁频段,如为传输给定消息集合所要求的频谱、带宽等。

也就是指某信号集合所占的空域、时域和频域空间。信号空间的这几种形式是相互关联的:存储空间的减少也意味着传输效率的提高与占用带宽的节省。这就是说,只要采用某种方法来减少某一种信号空间,就能压缩数据。从这个意义上讲,通过选择不同modem的调制与解调方式,可以在同样的频宽上传送更高的数码率,提高了单位频带的利用率,因而也具有频带压缩之功效。但这属于传输信道的频带压缩技术,与信源本身无关,不在本书讨论。只是有必要指出:调制/解调既影响频带利用的有效性,又涉及信息传输的可靠性。

究竟采用什么方法,以及压缩哪一种信号空间,要根据实际需要与技术条件决定。最初,人们关心提高电话信号传输带宽的利用率,继而希望图文传真提速,接着要求减小数据存储空间,而近年来则更紧迫于降低高清视频的传输码率,特别是无线多媒体通信的传输带宽。近代信源编码的理论与方法,主要也以压缩数字编码的数码率为目标。因此在今天,“数据压缩”与“信源编码”已是两个具有相同含义的术语了。

1.2 数据压缩的必要性

采用数字技术(或系统)有许多优越性,但也使数据量大增。表1.1列举了一些常见的数字化音、视频格式。如果对每个取样(取样①频率为f)的幅度值用R位二进制编码(叫做R比特)表示,就得到s数字信号的传输速率或比特率I,即表1.1 数字化音、视频格式

此即为该信号在通信线路上每秒钟应传送的位数,或者保存1秒钟信号样值所需占用的存储容量。传输速率I也可以用每秒千位(Kb/s)、每秒兆位(Mb/s)甚至每秒吉位(Gb/s)来表示。当信号带宽给定从而f为已知且不变时,传输速率就简单地由每样值的位数sR(或bit/样值)来确定。在有关编码的文献及本书中,比特率(或数码率、码率、速率、数据率)用来表示I和R,具体指哪一个可从其量纲看出,不会混淆。一般传输时多用I,而存储时只用R,因为此时不再涉及时间。【例1-1】从传输角度看:数字电话的取样率最低,按每一取样用8位压扩量化(见2.2.1节),通常其数码率也需要I=8×8=64Kb/s;一路广播级的彩色数字电视,若按4∶2∶2的分量编码标准格式(见5.5.1节),用13.5/6.75/6.75 MHz频率采样,每像素(pixel:picture+element,常简写为pel)用8位编码,数码率为

若实时传送,需占用上述数字话路3375个。若能将其压缩到原来的1/3,即可同时增开2250路数字电话;而一路4∶2∶2格式的高清晰度(或高分辨率)电视(HDTV:High Definition Television),数码率更可高达【例1-2】从存储角度看:一幅512×512像素、8bit/pel的黑白图像①占256 B;一幅512×512像素、每分量8位的彩色图像则占3×256=768B;一幅2230×2230×8bit的气象卫星红外云图占4.74MB,而一颗卫星每半小时即可发回一次全波段数据(5个波段),每天的数据量高达1.1GB。但这与光谱分辨率在λ/100(λ为光波长)的高光谱(Hyperspectral)甚至达到λ/1000的超高光谱(Ultraspectral)遥感图像的海量数据相比,却又差多了。【例1-3】海洋地球物理勘探遥测数据,是用60路传感器,每路信号按1kHz频率采样、16位模-数转换器(ADC)量化而得,每航测1km就需记录1盘0.5英寸的计算机磁带,而仅仅一条测量船每年就可勘测15000km!

由此可见,信息时代带来了“信息爆炸”。数据压缩的作用及其社会效益、经济效益将越来越明显。反之,如果不进行数据压缩,则无论传输或存储都很难实用化。而数据压缩的好处就在于:

① 较快地传输各种信源(降低信道占有费用)——时间域的压缩;

② 在现有通信干线上开通更多的并行业务(如电视、传真、电话、可视图文等)——频率域的压缩;

③ 降低发射功率(这对于依靠电池供电的移动通信终端,如手机、个人数字助理(PDA)、无线传感器网络(WSN)等尤为重要)——能量域的压缩;

④ 紧缩数据存储容量(降低存储费用)——空间域的压缩。

1.3 数据压缩技术的分类

数据压缩的分类方法繁多,尚未统一。从考察其一般方法入手,可望得到更本质的认识。数据压缩的一般步骤如图1.2所示。图1.2 数据压缩的一般步骤1.3.1 数据压缩的一般方法

所谓“数据”,通常是指信源所发信号的数字化表示或记录。而本书所谓的“数据压缩”,则是考虑以更少的数码来“进一步”地“表示”这样的原始数据。因此,任何数据压缩方法,都可以抽象成图1.2所示的3个主要步骤(有些步骤可以没有)。

① 建立一个数学模型,以便能更紧凑或更有效地“重新表达”规律性不那么明显(或本质性不那么突出)的原始数据;

② 设法更简洁地表达利用该模型对原始数据建模所得到的模型参数(或新的数据表示形式)。由于这些参数可能会具有无限的(或过高的)表示精度,因此可以将其量化为有限的精度——为区别于对原始信号数字化时已进行过的一次量化过程,故称为“二次量化”;

③ 对模型参数的量化表示或消息流进行码字分配,以得到尽可能紧凑的压缩码流。此时的编码要求能“忠实地”再现模型参数的量化符号,故称为“熵编码”。

显然,在这“三步曲”中,如果没有“②”且建模表达是一个可逆过程,则从压缩后的码流中就可能完全恢复原始数据;否则,由于“二次量化”的存在,便无法完全再现原始数据。由此,能够取得一致的分类方法,就是将数据压缩分为在某种程度上可逆的与实际上不可逆的两大类,这样更能说明它们的本质区别。而如果综合考虑图1.2的“三部曲”,则可将不可逆压缩理解为“混合编码”,因为通常的不可逆压缩过程中总是包含着可逆的编码技术(“两部曲”)。1.3.2 可逆压缩

可逆压缩也叫做无失真、无差错编码(error free coding)或无噪声(noiseless)编码,而不同专业的文献作者还采用了另外一些术语,如冗余度压缩(redundancy reduction)、熵编码(entropy coding)、数据紧缩(data compaction)、信息保持编码(lossless,bit-preserving),等等。香农(C.E.Shannon)在创立信息论时,提出把数据看做是信息和冗余度的组合。冗余度压缩的工作机理,是去除(至少是减少)那些可能是后来插入数据中的冗余度,因而始终是一个可逆过程。本书也更多地使用了冗余度压缩的术语。【例1-4】在一个数据采集系统中,如果信号在一段长时间内不变,则许多连续采样值将是重复的。若能去除这些重复数据,便可得到冗余度压缩。显而易见的方法就是计算两个不同采样值间重复采样的数目(叫做游程),然后将变化的采样值与该重复数目一起发送。显然,这种压缩技术总是可以根据压缩后的数据恢复原来的数据——没有丢失信息。这样做并未涉及数据在物理媒质上的具体存储表示,而有时这种表示本身也会引入额外的冗余度。【例1-5】工程上常用12位ADC采集数据。为了能高速采样并便于处理,往往就用一个字(2Byte)来保存一个样值,这就使得每一样值额外增加了4位冗余度,若改用3个字(48bit)存4个数据,即可消除这一额外冗余度,使数据存储更加紧凑。

这种对于数据外在冗余度的压缩常称为数据紧缩,其原理是直观的,效果是显然的,无须多加讨论。冗余度压缩是针对数据内部的多余信息进行研究,例如对例1-4中的重复数据采用不同的表示方法。虽然也有人不加区分地混用“compression”和“compaction”两术语,但读者应当注意“压缩”与“紧缩”二词的细微差异。1.3.3 不可逆压缩

不可逆压缩就是有失真(lossy)编码,信息论中称熵压缩(entropy compression)。【例1-6】为了简单地实现熵压缩,在监测采样值时设置某个门限:只有当采样值超过该门限时,才传输数据。如果这种事件不常出现,就会实现信号空间的较大压缩,但实际的原始采样值就不可能恢复——丢失了信息。【例1-7】设想将茶叶(“数据”)倒入一个铁罐(“存储器”)的情形:当罐子装满后,如果这时轻轻地将茶叶罐颠一颠、摇一摇,那么一定可以再多装些,这是因为原来茶叶之间有空隙。而摇晃则可在一定程度上挤掉这种“外在冗余度”——空气所占据的存储空间,使茶叶排列得更紧密(“数据紧缩”——同一个茶叶罐可装得更多)。其次我们设想原来的这些茶叶受了潮,体积自然会有所膨胀,即“数据”具有“内在冗余度”——水分。显然,水分与空气一样,都是我们所不需要的,只会浪费茶叶罐的“存储容量”。如果设法去掉水分,比如将茶叶烘干,那么其体积就会收缩(“冗余度压缩”),同一个罐子还可装得更多。注意,此时茶叶的形状仍然保持完整(“无失真压缩”)。不难想像,如果我们将罐内的茶叶压碎,显然还可以再多装一些,将干茶叶完全压成粉末,一定可以装得最多。但这时的茶叶已不成其为“叶”,只能算做“粉”(“有失真压缩”),而这种压缩已“不可逆”,即我们无法将茶叶末再“还原”成原来形态各异的茶叶。

由此我们已建立了一个初步的概念,即:

① 有冗余度就可以压缩(罐中有空气,茶叶含水分);

② 压缩只能在一定限度内可逆(茶叶倒出来仍然完整);

③ 超过此限度,必然带来失真(茶叶会破碎);

④ 允许的失真越大,压缩的比例也可以越大(如果不计较茶叶形状,则压得越碎,同一只罐装得也越多)。在第3章我们将会明白,这个“限度”,就是数据的“熵”,这也就是为什么有失真压缩又称为熵压缩的道理。

这些概念直观上不难理解,可却是本学科的一些基本结论。1.3.4 实用的数据压缩技术

为了去除数据中的冗余度,常常要考虑信源的统计特性,或建立信源的统计模型。因此,许多实用的冗余度压缩技术均可归结于一大类统计编码方法。此外,统计编码技术在各种熵压缩方法中也经常会用到。

熵压缩主要有两大类型:特征抽取和量化,如表1.2所示。

特征抽取的典型例子如指纹的模式识别:一旦抽取出足以有效表征与区分不同人指纹的特征参数,便可用其取代原始的指纹图像数据。类似的例子如石油勘探信号的处理:对浩瀚的地震勘探数据进行处理的最后有用结果,有时仅仅是得到了一张地层剖面图。显然,这一大类数据压缩技术是根据特定应用背景而专门设计的,其目的仅仅是为了保护信源中某些感兴趣的内容,根据压缩后的数据已无法在较低的失真度下重现信源的原始风貌,故不在本书讨论之列。表1.2 数据压缩技术的简单分类

对于实际应用而言,量化是更为通用的熵压缩技术:除了直接对无记忆信源的单个样本做所谓零记忆量化外,还可以将有记忆信源的多个相关样本映射到不同的空间,去除了原始数据中的相关性后再做量化处理。由此又引出了预测编码和变换编码这两类最常见的实用压缩技术。另外,在特征抽取与量化相结合的基础上,又发展出一类高效的分析/综合编码技术。而一个实用的高效编码方案常常要同时综合考虑各类编码技术之所长。换句话说,常见信源的标准压缩方法,常常是表1.2中熵压缩和熵编码的若干方案的“混合编码”。

1.4 数据压缩的标准和应用

数据压缩,可以说是一门既古老又年轻的学科。早在1843年出现的莫尔斯(S.Morse)电报码(见4.1.3节),就是最原始的变长码数据压缩实例。但由于技术实现上的障碍,长期以来主要处于理论研究和计算机仿真阶段。随着数字信号处理方法、计算机技术和微电子工艺的进步,特别是有关机构如国际标准化组织(ISO)、国际电工委员会(IEC)和国际电信联盟的电信标准部(ITU-T、ITU-TS或ITU-TSS)陆续制订的各种数据压缩与通信的标准和建议,极其有力地推动了标准化的数据压缩技术和高效的数字调制技术的迅速普及,使得图1.1所示的数字传输系统模型在通信、计算机、广播电视、光盘存储等各个领域都得到了成功的应用,直接引发了消费电子产品乃至整个电子信息领域的一场“数字化革命”,把我们带进了一个以网络化和多媒体化为主要技术特征的崭新时代。

标准化的数据压缩技术,为各种电子信息产品从模拟过渡到数字铺平了道路,其应用已随处可见,家喻户晓。表1.3是1990年以来已形成(或将形成)的主要数据压缩标准及其应用。这些标准的建立极大地推进了数据压缩技术的实用化、产业化,而全球性的技术竞争、标准开放和经济一体化潮流,反过来又强烈地刺激着信源编码理论研究的进一步拓展,因为任何一种新的数据压缩方法欲广为应用,其性能就必须比现有的标准方法更优异。表1.3 主要的数据压缩标准及其典型应用续表

本书首先用两章的篇幅对数据压缩的前提条件——“信源的数字化”、比较标准——“压缩系统评价”和“理论极限与基本途径”进行必要的讨论之后,将逐章对统计编码、预测编码、变换编码和分析/综合编码这几类实用的数据压缩技术加以详细介绍。它们分别以不同的理论准则为指导,并且把一些具体的压缩方法和压缩对象(数据类型)概括在一起。最后,通过对若干视频压缩国际标准的简单介绍,向读者展示完整的综合运用这些技术的实例。

习题与思考题

1-1 数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?

1-2 数据压缩的另一个基本问题是“为什么进行压缩”,对此你又是怎样理解的?

1-3 你如何理解信号的空域、时域和频域这几种空间形式是相互关联的?

1-4 利用数据压缩可以降低发射功率,道理何在?如何进行?

1-5 你了解计算机中对于浮点数(或实型数据)是如何建模表达、量化与编码的吗?

1-6 数据压缩技术是如何分类的?

1-7 特征抽取和量化有什么不同吗?

1-8 请列举几种你所见到的采用了数据压缩技术的产品。

1-9 数据压缩技术为什么要标准化?

1-10 你还知道哪些有关数据压缩的标准?

1-11 你认为表1.3中的数据压缩标准可以互换使用吗?为什么?

第2章 信源的数字化与压缩系统评价

为了对语音、图像等常见信源进行有效的处理、交互与保存,首先应将其数字化,这就是把模拟信号在幅度与时间上都离散化。对于图像等多维信源,需要在空间上也同时离散化(隐含在时间离散化中)。而对于彩色图像,还需要将给定色度空间的3基色(或3原色,如红、绿、蓝)值也同时离散化。常用的数字化方法是1938年Reeves取得的脉冲编码调制(PCM:Pulse Code Modulation)的专利,包括取样(sampling,也称采样或抽样,但标准术语是取样)、量化(quantization)和编码(coding)3个步骤。所谓取样,就是将①连续信号在时间、空间上离散化;所谓量化,就是将取样信号在幅②度上也离散化;而所谓编码,则是按一定规律把量化后的脉冲取样值(sample)按幅度大小变换成相应的二进制码,形成PCM信号。数字化过程常称为模-数变换(A/D),也可以理解为是对连续信源的编码。

信源数字化时一个很重要的设计指标就是:对一定的保真度要求,需要多大的数据速率(即每秒或每个取样的位数)?或反之,对某一限定的码率,其量化噪声(或信号噪声比)有多大?我们在对模拟信号的数字化及随后进行的数据压缩过程中,最基本的要求就是要尽量降低数字信号的码率,同时仍然保持一定的信号质量、能够实现的系统复杂度及允许的通信时延等,这就不能不涉及到对一种具体压缩方法或一个实际压缩系统的性能评价问题。

2.1 取样

连续信号可以有多种离散表示法,例如,傅里叶级数展开、泰勒级数展开、非正弦的正交函数展开等。但用周期取样表示最简单,也最常用。2.1.1 取样定理

设g(t)为时间连续的模拟信号,其最高角频率为Ω=2πF。我cc们知道,理想的周期取样,就是用间隔为T的单位冲激函数序列s

与待取样的模拟信号相乘,得到

其频谱可由g(t)的频谱G(Ω)与δ(t)的频谱Δ(Ω)卷积TT而得

由于冲激序列δ(t)的频谱函数Δ(Ω)亦为冲激序列,即TT

式中Ω=2π/T为取样角频率,把式(2.1.4)代入式(2.1.3),得ss

由式(2.1.5)可见,取样信号g(t)的频谱G(Ω)是原信号ssg(t)的频谱G(Ω)的周期性延拓(周期为Ω),或看成把G(Ω)s调制在冲激序列δ(t)的以G(Ω)为间隔的线谱上,但幅度为原Ts来的1/T。进一步分析式(2.1.5)还可以发现,根据信号原有频谱宽s度和取样频率的不同,取样信号的频谱可分为3种状态:

① 当Ω>2Ω时,以Ω为周期、分布宽度为2Ω的G(Ω-nΩ)scscs互相不会重叠。因此,用一个截止角频率为|Ω|=|G(Ω)|/2的理想低s通滤波器,就可以滤除所有高频分量,得到与原信号g(t)完全一样的频谱G(Ω)。这意味着用这样一个低通滤波器可以不失真地从取样信号中完全恢复原信号;

② 当Ω<2Ω时,位于nΩ的各频谱G(Ω-nΩ)的分布宽度2Ωscssc大于两频谱的间隔Ω,相互有重叠而产生叠加。若试图用同一低通s滤波器取出原频谱,则除了原有频谱没有完全取出外,还会混入来自相邻周期的频谱分量,取出的频谱形状也自然与原始的不同。从时间域看,相当于在原有信号上附加了干扰,称为混叠干扰(aliasing);

③ 当Ω=2Ω时,位于nΩ的各频谱G(Ω-nΩ)恰好邻接。此时scss能否利用一个理想的低通滤波器不失真地恢复原信号,是有条件的。

取样周期的倒数就是取样频率,即f=1/T,而满足f=2F的取样sssc频率即为熟知的奈奎斯特(Nyquist)频率。上述原理可用下面的取样定理表述。【定理2.1(一维取样)】如果模拟信号g(t)的频率f限制在|f|≤F,则只要取样频率满足f>2F,就可通过截止频率为F的理想低通cscc滤波器将取样准确地恢复成原信号。

要把一维周期取样推广至二维情况,可以有几种方法,最直接的就是在矩形坐标上周期取样,一般简称为矩形取样,在此只给出结论。【定理2.2(二维取样)】若二维信号f(x,y)的空间频率u和va分别限制在|u|≤U和|v|≤V,那么只要取样周期Δx、Δy满足Δx<1/2Uccc和Δy<1/2V,就可以准确地由取样信号恢复该信号。c

矩形取样的概念可以推广到二维以上,此时相当于在超立方体点阵上取样。2.1.2 内插恢复

如上所述,若取样时满足奈奎斯特准则,即Ω>2Ω,那么取样sc信号g(t)就可通过一个具有以下幅频特性s

的理想低通滤波器,无混叠失真地恢复为模拟信号 g(t)。

对式(2.1.6)进行傅里叶反变换,可求得滤波器的冲激响应为

它与输入g(t)的卷积就是低通滤波器的输出g(t)。利用式s(2.1.2)可得

其中,h(t-nT)由式(2.1.7)及Ω=Ω/2=π/T,可化为scss

称h(t-nT)为内插(或插值)函数,其特点是仅在取样点nTss上取值为1,而在其余的(n±1)T,(n±2)T等样点上函数值均为ss零,即sinc函数。

把式(2.1.9)代入式(2.1.8),则

式(2.1.10)是一个插值公式,内插函数为h(t-nT),插值间距s为取样间隔T,权重为各取样点上的值g(nT)。表明原始信号g(t)ss可由无穷多加权sinc函数移位后的和来重建,即可以通过内插函数把离散信号恢复为连续信号。具体地说,在各取样点上,由于仅仅该取样点所对应的内插函数不为零且等于1,所以式(2.1.10)保证了各取样点上的信号值在恢复为g(t)时仍不变;而g(t)在取样点之间的值,则由各内插函数延伸到此的值与相应取样值的乘积的总和组成,为无限项之和。因内插函数是低通滤波器的冲激响应,因此也把此低通滤波器称为内插滤波器。式(2.1.10)实际上就是各取样值通过低通滤波器以后的叠加,从而达到了由g(t)恢复g(t)的目的。s2.1.3 其他表述

根据式(2.1.10)内插恢复的讨论,我们可以得到取样定理的第二种表述:【定理2.1(第二种表述)】带宽限制为F的信号,可由一系列间c隔小于1/2F秒的周期样值完全确定。c

定理2.1是对确定性连续低通信号而言,对于平稳随机过程也有类似的结果。【定理2.3(随机取样)】设x(t)是低通的平稳带限随机过程,若取样间隔

则有取样展开式

在均方意义上x(t)=x′(t),即

将取样定理推广到随机信号对数据压缩具有实际意义,因为语音、图像等信号常常被看做随机过程、随机场。但严格地说,频带有限信号并不存在。因为任何实用信号只存在于有限的时间区间,因而就含有无限的频率分量。不过研究表明,如果信号响应的幅频特性对称而相频特性在截止区线性,则尽管信号频谱是逐渐截止的,仍可以完全恢复。而且所有现实信号随着频率升高其频谱幅度都会降低,大部分能量集中在低频域的某一范围,可以在取样前用一个低通滤波器(称为前置滤波器或抗混滤波器)滤除一部分高频分量而不致引入太大的误差。因此,取样定理还可以更一般地表述为:【定理2.5(更一般表述)】近似带宽限制为 F赫兹而持续时宽为cT秒的信号可用2FT个样值完全描述,称该信号具有2FT个自由度。cc

值得注意的是,定理2.5并未规定应如何取样。事实上可以任意地选取样值,只是信号的重构要复杂化。

取样定理告诉我们:

用一定速率的离散取样序列可以代替一个连续的频带有限信号而不丢失任何信息,因此传输连续信号可归结为传输有限速率的样值,这就构成了数字信息传输的基本原理,也是进行数据压缩的一个基本

①前提。

2.2 标量量化

如果取样满足奈奎斯特定理,则每秒取样数已确定。因此,数字信号的数据率或信噪比将主要取决于代表每个取样值的位数,这就是我们将要讨论的量化问题。

量化器可分为无记忆量化器和带记忆量化器两大类。所谓无记忆量化是每次只量化一个模拟取样值,又称零记忆量化或标量量化(SQ:Scalar Quantization)。本节先分析标量量化器,2.3节再介绍带记忆量化器中的矢量量化器。2.2.1 量化误差

量化过程始于取样,每一个取样值,其理论值域为(-∞,∞)。量化器要完成的功能是按一定的规则对取样值进行近似表示,使经量化器输出的幅值大小为有限个数。或者说,量化器就是用一组有限的实数集合作为输出,其中每个数代表一群最接近于它的取样值。假设该集合含有J个数,就叫J级量化。若用二进制数表示,则需用R=logJ位二进符号来代表集合中的每一个数。我们已知这样的量化2器输出的数据率为每样值Rbit。对模拟信号进行脉冲取样、量化并用二进制代码输出的过程就是脉码调制。

以有限个离散值近似表示无限多个连续值,一定会产生误差,这个误差称为量化误差,由此造成的失真称为量化失真。量化误差与噪声有着本质的区别。

① 量化误差由输入信号引起且与输入信号有关:任何一点的量化误差总可以从输入信号中推测出来,而噪声与输入信号就没有任何直接关系;

② 量化器特性实际上是高阶非线性的特例:量化误差可比拟为高阶非线性失真的产物。

尽管如此,由于量化失真看起来类似于噪声,也有很宽的频谱,所以也常常称之为量化噪声并用信噪比来度量。对于均匀量化,量化分层(分级)越多,量化误差就越小,但编码所用码字的位数R也越多。以信号功率(S)与噪声功率(N)之比(即功率信噪比,单位为分贝)表示量化噪声与量化位数的关系,近似有

式中,Ψ=v/σ为负载因子,其中v为过载点电平,σ为均方根信号电平,而Ψ选定后即为一常数,从而S/N∝6R。可见,每增加1位编码,便可得到6dB的信噪比改善,此结论对于下面讨论的线性量化或非均匀量化器都适用。

在对数据取样值进行量化时,通常可以考虑两种设计方法:

① 给定量化电平数J,希望量化失真最小;

② 给定量化噪声或失真要求,希望每个取样的平均位数最少。

这是因为这些指标再加上要求工程上实现容易(即成本要低)常常互相矛盾,不可能同时满足,只能在满足一定条件下做出最佳设计。

在无记忆量化情况下,当量化电平数J给定后,我们力求使量化噪声最小,这里假定对所有取样值都使用相同的量化特性。至于针对不同样本而采取不同量化对策的情形,则留待后续章节中讨论“二次量化”时再介绍。2.2.2 均匀量化

设x∈[a,a]为量化器输入信号幅值,p(x)为其概率密度LM函数,则有

记量化总层数为J,d(k=0,1,…,J)为判决电平,当d<x≤kkd时,量化器输出信号幅值即量化值为y,量化误差为x-y,如图k+1kk2.1所示。如果

就称之为均匀量化,或称为线性量化,这是一种最简单的量化方法。图2.1 量化的分层示意图

量化器的工作特性可分为三个区域,为简单起见以均匀量化为例进行讨论。

① 正常量化区:只要信号幅值x∈[a,a],就会得到正常的LM量化输出;

② 限幅区:当x<a,量化器只输出恒定值a+Δ/2;而当x>LLa,量化器只输出恒定值a-Δ/2。此时信号被量化器限幅(或称量MM化器过载),失真将大为增加。量化器的过载与模拟信号放大器的过载不同:一般模拟系统的过载特性是缓变的,稍有过载还不致产生很大的失真;而量化器的过载特性是突然截止的,过载部分被全部切除(即所谓“硬限幅”),其结果远比模拟系统严重。因此要求量化器对输入信号幅度有一定的富裕量;

③ 空载区:当|x-d|<Δ/2时可能有两种情况(参见图2.1)。一种k是信号均值恰好与判决电平d一致:当信号幅值稍高于d,量化器输kk出为上一量化级y;而当信号幅值稍低于d,则量化器输出为下一量kk化级y。此时输入信号变化幅度虽小,但量化器的输出却在相邻两k-1个量化级之间跳变,虚假的输出信号是峰值差为y-y=Δ的矩形波kk-1——放大了输入信号的原始变化。这种矩形波的假输出在图像中的表现类似于点状噪声,所以称为颗粒噪声。而另一种情况却是输入信号电平总是位于判决电平d之上(或之下):此时即使输入信号有接k近最小量化间隔Δ的变化,量化器也总是输出恒定值y=d+Δ/2(或kky=d-Δ/2)。k-1k

量化器的这三个区域对于声音、图像等信号的压缩编码器的设计十分重要。

量化特性确定后,如果把(d,d]区间内的信号幅值都以ykk+1k值输出,就完成了量化。

至于编码,就是根据精度要求取一定长度的码字来代表y。当kRJ=2时,实际的ADC中都采用相等的码长R=logJ并直接赋予相应的2二进制编码表示(如原码、反码、补码等)。这样,就得到了经过量化与编码的数字信号,即后续讨论所涉及和针对的“原始数据”。

本章将不再讨论具体的编码,因为那将是第4章研究的重点。2.2.3 最佳量化

由于信号的分布可能不同,且当信号幅值较小时其信噪比也较低,若事先固定量化器的判决电平d和输出电平y,则对于不同的输kk入信号,其量化误差也不同。因此,能使量化误差最小的所谓最佳量化器,应该是非均匀的。

按均方误差最小来定义最佳量化,也即使

最小。通常量化分层数J较大,p(x)在(d,d]中可视为kk+1常数,求最佳量化时的d和y可直接对式(2.2.4)求极值,即令kk

因为d=a,d=a,故式(2.2.5)只需对1≤k≤J-1求解;而p(d)0LJMk≠0,所以有

而由式(2.2.6)可得

式(2.2.7)表明:量化判决电平d应位于量化输出电平y和ykk-1k的中点(即为其算术平均值);如果视p(x)为质量线密度,则式(2.2.8)或式(2.2.6)即为大家所熟知的物理学中质量中心(重心、

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载