视频压缩与通信(第二版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-11 03:19:14

点击下载

作者:[英[LajosHanzo PeterCherriman JurgenStreit著

出版社:通信图书编辑部

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

视频压缩与通信(第二版)

视频压缩与通信(第二版)试读:

前言

至今,第三代无线多媒体服务已经发展成熟,在此背景下,本书将以专题的方式对无线视频通信的各方面内容进行介绍。有线链路上的多媒体传输技术已相当成熟,基于地面和卫星链路的数字视频广播(DVB)已经投入到商业应用中。近来,针对手持设备 DVB 服务的DVB-H标准也已经制定完成。

本书总结了过去30年来在数字视频压缩和恶劣无线信道传输领域取得的技术和研究进展,并对ITU、MPEG系列视频标准和技术进行了详细的介绍。采用复杂的近容量联合信源信道编码技术保护码流,再将码流通过近实时自适应 HSDPA 型迭代检测 Turbo 接收器和基于OFDM的机制进行传输,这就是3GPP长期演进(LTE,Long Term Evolution)计划的基本思想。

我们希望能为读者提供一系列有意义的课题、示例以及相关领域最前沿的技术,并希望没有“严重混叠的错误”。简单来讲,解决分布式或交互式视频通信问题的关键即是在视频质量、比特率、延迟以及对于信道差错而言的鲁棒性能等几个相互限制条件下的折中。本书旨在对这些折中进行分析并提出解决方案。

再次,我们希望本书客观地阐述了系统设计的折中范围,并希望读者能够从中获得有用的信息,对解决相关无线视频通信的问题有所启发和帮助。祝您的阅读轻松、愉快!Lajos Hanzo,Peter J.Cherriman,and Jürgen Streit英国南安普敦大学电子与计算机科学学院第1章引言1.1 压缩理论简介

数据压缩的最终目的是从源信号中去除冗余。因此,数据压缩可以减少重现源信号信息所需的二进制比特数。若要达到可能的最优压缩率,不仅需要深入理解信号源的二进制表现实质,而且还要知道我们人类如何理解数据所表达的信息。

我们生活在计算与通信能力快速发展的世界,由于计算机智能技术空前发展,对于计算机系统及其应用的需求也随之增加。传输或存储每个比特都需要一定的代价,因此,研究低成本、高功效的信源压缩技术就显得尤为重要。当传输可能含有大量冗余的源信号时,实现高压缩率至关重要。

在一个简单的系统中,可能用相同数量的比特位表示字符“e”和“q”。然而,统计表明,英文文本中字符“e”出现的频率比“q”更高。因此,用较少的比特数表示出现频率较高的字符,而用稍多的比特数表示出现频率低的字符,可降低对传输(或存储)信息进行编码所需的总比特数。

事实上,许多信源编码标准都是基于去除源信号中的可预测部分或者冗余部分这一思路进行制定的。应用最广泛的视频编码原理可以[2,3]追溯到20世纪40年代,称为香农—法诺编码,而著名的哈弗曼[4](Huffman)编码机制发明于1952年。随后,这些方法的性能已被提高了许多倍,并在各种领域中得到了广泛应用。毋庸置疑,今后的研究将继续试图提升这些技术的性能,并逐渐接近信息论的极限。[5-9]

数字视频压缩技术在无线通信和多媒体系统中扮演了重要的角色。在这些系统中,带宽是需要重点考虑的因素。因此,在不影响主观质量的前提下,采用视频压缩技术来降低有效表征一个图像序列所需的信息量尤为重要。现代压缩技术包含复杂的算法,为了获得全局兼容性以及交互性能,需要将这些算法进行标准化。1.2 视频格式简介

本书中的很多结果均是对各种分辨率的“Miss America”、“Football”和“Susie”视频序列进行实验得到的。实验中的“Mall”序列为高清晰度电视(HDTV,High Definition Television)。表1.1列出了各种不同格式的视频分辨率及其他参数。表1.1 图像格式、尺寸和典型应用续表

每个备选的测试序列都用于检测编解码器的特定的性能。“Miss America”为缓慢运动序列,可用于对编解码器的最大可能压缩率进行估计,而“Football”是剧烈运动高对比度视频序列,所有的序列均是采用隔行扫描设备采集到的。隔行扫描是一种图像处理中的常用技术,用于减少视频信号(如传统的模拟电视信号)所需的带宽,同时保持较高的帧刷新率,以防止画面闪烁和抖动。通过采用所需扫描频率一半(这潜在地节约了一半的视频带宽和相关的比特率)的频率扫描视频场景,使得视频序列的显示频率比输入扫描频率快一倍。如此,在偶数视频帧中,只有偶数线在显示前予以更新。相反,在奇数视频帧中,只有奇数线在显示前予以更新,这依赖于人眼和大脑从这些半扫描率的偶数和奇数视频场中重建视频场景的速率。因此,隔行扫描帧中的其他线不进行更新。

举个例子,在图1.1中隔行扫描的视频序列“Football”的第1帧,我们可以观察到在对应于奇偶视频场的每帧两个重编码时刻,有大量的运动情况发生。进一步,我们的实验中用“Susie”序列来验证提出的编解码器的颜色重建性能,而“Mall”序列则用于模拟摄像机横摇的高清视频序列。图1.2所示为用于每个QCIF视频序列的一系列帧。QCIF分辨率图像由176×144 像素组成,主要用于手持无线视频传输终端。4CIF 分辨率图像用于数字电视,比QCIF图像大16倍。在图1.1中示出了4CIF视频序列的一系列帧。最后,在图1.3中,示出了从1280×640像素的“Mall”视频序列中取出的一系列帧。然而,因为16CIF分辨率是由1408×1152像素组成的,因此,在进行编码前,在视频序列中加上了一个黑边框。图1.1 4CIF视频序列图1.2 QCIF视频序列图1.3 16CIF“Mall”视频序列(54帧)图1.3 16CIF“Mall”视频序列(54帧)(续)[10]

所有视频序列都是在YUV 颜色空间中进行处理的。在这个颜色空间中,输入图片信息包含亮度(Y)加上两路色差信号:色度uvU(Cr)和色度V(Cr)。标准RGB空间到YUV空间的转换公式如式(1.1)所示:

一种通常的做法是将两种色差信号的分辨率在每个空间方向上都进行2倍下采样。事实上,这种方法不会造成视觉可感知的误差,但可以使相关源的数据率降低50%。更确切地说,不必用相同的分辨率来存储和处理亮度数据和两种色差数据,因为这将导致颜色序列的相关比特率潜在地增加3倍。所有将要处理的颜色数据只比与之相关的u灰度级图像多出50%。这也表明,每4个亮度像素只需要1个Cr和1个vCr像素。

对比 QCIF 尺寸大的图像进行编码时,将会成倍地增加计算复杂度、比特率和所需的寄存器空间大小。这将导致一些问题,比如存储每帧彩色高清晰度电视(HDTV)图像需要6MB的存储空间。在30帧/s的帧率下,未压缩的数据速率将超过1.4Gbit/s。因此,对于实时应用来说,需要极高的带宽和相应的过高的计算复杂度。在如此的复杂性限制下,我们将审视两种固有的低复杂度技术并评估它们的性能。1.3 视频压缩标准的发展

数字视频信号可以采用数量众多的专利技术或标准算法进行压缩。一系列最重要的压缩算法已被公认的标准化组织,如国际标准化组织(ISO,International Organization for Standardization)、国际电信联盟(ITU,International Telecommunication Union)或运动图像专家组(MPEG,Motion Picture Expert Group)采纳。相比之下,由小部分兴趣组织发展并掌握的压缩算法或者专利技术则显得不是那么重要,原因就在于他们缺乏广泛的兼容性和交互性。图1.4所示为从20世纪50年代以来视频压缩标准的发展历史。

从图1.4中可以看出,视频压缩的历史开始于20世纪50年代。20世纪60年代,人们设计、构建并测试了一个模拟视频电话系统,但它需要很高的带宽,并且由于采用的是明信片大小的黑白图像,与传统的音频通信相比,这套系统并没有从本质上提升人们对远距离通信的现场感觉。20世纪70年代,人们发现实现通信一方的视觉识别在多方通信会议中具有价值,因此开始引入视频会议服务。随着图像质量的改善,用户对视频会议的兴趣不断提高。

视频编码标准化活动开始于20世纪80年代早期,由国际电报电[34]话咨询委员会(CCITT)启动,该委员会现为国际电信联盟—电信[22]标准化部(ITU-T)。这些标准化组织后来建立了国际无线电咨询[36]委员会(CCIR)和现在的ITU-R,并形成了ISO和国际电工技术委员会(IEC)。这些组织互相协作制定各种标准,其中的一些标准列于表1.2中。我们将在下文中对它们进行更深入的研究。表1.2 视频通信的发展续表图1.4 视频压缩标准的主要历史1.3.1 国际电信联盟H.120标准

采用20世纪80年代时的先进技术,泛欧洲科学技术公司(COST,Cooperation in Science and Technology)211 工程设计了一种视频编解码技术,该技术基于差分脉冲编码调制(DPCM,Differential [59,60][61]Pulse Code Modulation)并被CCITT批准为H.120标准。这种编解码的目标比特率是2Mbit/s,以兼容欧洲的脉冲编码调制(PCM,Pulse Code Modulation)比特率结构和北美的1.544Mbit/s,目的是能够方便地映射到它们各自的数字传输层的第一层。因为DPCM在逐像素的基础上操作,因此 H.120 标准有很好的空间分辨率。尽管如此,它在时间分辨率上的表现并不尽如人意。不久,人们认识到,为了提高图像质量,同时又不超过上述2Mbit/s的目标比特率,每个像素编码所用的比特数不能超过1。在这种情形下,只能是将一组像素(如一个8×8的像素块)一起编码,这样每个像素所用的比特数才能是非整数。这促使基于块的编解码技术的出现。更确切地说,在速率为2Mbit/s、帧率为30 帧/s的情况下,编码每帧图像所需的最大比特数大约是66.67kbit。对于分辨率是176×144像素的黑白图像,编码每个像素所需的最大比特数是2bit。1.3.2 JPEG

在20世纪80年代末期,共有15种不同的基于块的视频会议方案被提交到ITU-T标准化组织(以前的CCITT),其中14种是基于离散余[14]弦变换(DCT,Discrete Cosine Transform)的静态图像压缩技[15]术,另外一种是基于矢量量化(VQ,Vector Quantization)技术。从提交给评委小组的视频序列主观质量上看,两种编码技术几乎没有[23]任何差别。在1984~1988年期间ITU-T进行调研的同时,联合图像专家组(JPEG,Joint Photographic Experts Group)也一直在协调研究静态图像的压缩。他们再一次选择了DCT作为首选的压缩技术,主要是因为他们更关注于图像渐进传输技术。与VQ相比,JPEG组织的决定无疑影响ITU-T更倾向于应用DCT。当时,在全世界掀起了在芯片和数字信号处理器(DSP,Digital Signal Processors)上实现DCT的热潮。视频通信的发展概况见表1.2。1.3.3 ITU H.261标准

20世纪80年代后期,ITU-T视频会议推荐的编解码器将明确地使用运动估计帧间编码和DCT相结合的方案。该编解码器比基于DPCM的H.120标准在视频质量方面表现出了明显的进步。实际上,人们发现,在视频会议应用中,384kbit/s 时图像质量已经足够高,并且应用352×288像素的通用中间分辨率图像格式(CIF,Common Intermediate Format)或者176×144像素的1/4通用中间分辨率图像格式(QCIF,Quarter CIF)在比特率是1Mbit/s左右时能够获得较好的[29]图像质量。H.261编解码器能够采用31种不同的量化方案和各种可选的编码方式,因此,它的编码比特率跨越了很大的范围。很自然地,编码比特率依赖于运动程度和视频格式,因此不易控制。尽管如此,H.261方案被称之为一种p×64bit/s编解码器(p=1,…,30),与ITU的PCM层次所提供的比特率相适应。该标准于1989年年底获得批准。1.3.4 MPEG

20世纪90年代早期,运动图像专家组(MPEG,Motion Picture Experts Group)作为ISO(ISO/SC2)的第二下属委员会成立。MPEG开始调研面向存储的视频编码技术的概念,如媒体中的CD-ROM。其目的是研究一种能够对存储于硬盘上的高运动度视频场景(如在电影里看到的场景)实现高效压缩的视频编解码器,同时能够提供如同家庭视频系统(VHS,Video Home System)的视频质量。[30]实际上,令人想起ITU H.261 编解码器的基本MPEG-1 标准能够在1.5Mbit/s的比特率下实现这一目标。当传输分布式广播而不是交互式视频时,编码和解码的延迟不是主要的约束,因此人们能够用延迟换来高效的压缩。因此,相对于具有单帧视频延迟的H.261交互式编解码器来说,MPEG-1编解码器在它的运动补偿方案中引进了双向预测帧。

撰写本书时,对于存储在计算机上的多媒体信息来讲,MPEG解码/播放器已经变成了一种普通设备。嵌入到板卡硬件的MPEG-1解码器(例如MPEG魔卡)已经出现了一段时间,基于MPEG-1解码器的软件已经随着操作系统的发布或者个人计算机以及苹果机平台一起得到了广泛的应用。

MPEG-1最初的优化是为了以下的典型应用:使用25帧/s的非隔行视频序列欧洲格式和29.9帧/s的北美格式;使用 CIF 图像格式、1.2~1.5Mbit/s的比特率可以获得与家庭盒式磁带录像机(VCR,Video [30]Cassette Recorders)相媲美的图像质量,这还可以进一步提高到一个更高的比特率。MPEG-1编解码器的早期版本是面向隔行扫描视频编码的(如广播应用),称为MPEG-1+。1.3.5 MPEG-2标准[8,31]

新一代被称为MPEG-2的视频编码方案也逐渐被那些最初不愿意采用任何压缩视频序列的广播公司所接受。MPEG-2方案是面向比特率为4~9Mbit/s的隔行扫描、分辨率为CIF的视频编码,同时它[5]也在其他的应用范围内,如数字地面广播、数字卫星电视、数字有线电视、数字多功能光盘(DVD,Digital Versatile Disc)和很多其他的应用,产生了显著的影响。20世纪90年代末,数字广播电视开始[31]采用MPEG-2对数字视频序列进行编码。

对MPEG-2经过少量改动后形成了一个新的标准,称为MPEG-3,用于对HDTV进行编码,但因为MPEG-2本身能够完成此项任务,因此MPEG-3标准被合并到了MPEG-2中。可以预见,到 2014年,现有的NTSC 格式电视节目传输将在北美停止,取而代之的是在地面广播中使用MPEG-2压缩的HDTV信号。1.3.6 ITU H.263标准

H.263视频编解码器是由ITU-T标准化组织为低比特率的视频会议[28][55]视频序列编码而设计的。它最初是用于基于H.323的系统中,但现在它同样也被用于基于网络的视频会议中。

虽然它们的编码效率和抗误码能力在付出了更高的计算复杂度后[5]有了一定程度的改进,但H.263编解码器的编码算法与前一代的H.261编解码器非常相似。H.261与H.263编码算法之间的主要差异如下文所述。在H.263 编解码器中,采用半像素精度运动补偿,而 H.261采用整像素精度与平滑滤波器相配合,用于去除视频图像中高频空间的变化,而这些变化可有效地进行运动补偿。在H.263方法中,可以选择数据流的一些层级结构,因此编解码器可以配置到一个具有更低的数据率或者更好的抗误码能力应用中。在标准中了规定了4种可实现选项,如果编码和解码器都能支持它们,则可以潜在地提升其[5]可达到的性能。这些选项包括无约束运动矢量、基于语法的算术编码、与前向和后向帧预测一样的高级预测模式等,后两种选项与MPEG编解码器的预测和双向模式相似。1.3.7 ITU H.263+/H.263++标准[24]

H.263+方案相当于H.263标准的第二版。这个版本由ITU-T/SG16/Q15 高级视频专家组的标准发展而来,这个专家组以前一直在ITU-T/SG15下运作。这个技术工作完成于1997年并在1998年获得批准。H.263+标准综合了12种H.263编解码器中新的可选特征,这些新特征支持配置图像尺寸和时钟频率、改善压缩效率、考虑到图像质量和比特率以及可调整的复杂度等各种因素。更进一步,当使用无线通信或者基于分组的网络通信时,它可以提升可达到的抗误码能力,同时支持向后兼容 H.263 编解码器。H.263++方案是H.263 标准的第三[26]版,是由ITU-T/SG16/Q15发展而来的,它的技术方案在2000年年底完成并获得批准。1.3.8 MPEG-4标准

MPEG-4标准由一系列音频和视频编码标准组成,这些标准能够[25]覆盖非常宽的码率范围,从4800bit/s一直到大约4Mbit/s。MPEG-4标准主要应用于基于互联网的多媒体流和CD分布、与广播电视一样的会话式视频电话。

MPEG-4标准系列吸收了很多MPEG-1和MPEG-2的特点,加入了诸如由3D渲染支撑的虚拟现实建模语言(VRML,Virtual Reality Markup Language),面向对象的综合文件处理包括音频、视频以及VRML对象、数字版权管理等新的功能,并支持和其他各种应用之间的交互。

在MPEG-4中,大多数的选择特征很有可能用于开发未来具有革新性的应用。可以期待,标准的开发者们加入了“轮廓”等理念,允许将MPEG-4的各种潜质集合在一起。

如上所述,MPEG-4编解码器系列包含以下标准,它们被称为[25]“档次”(Profile)并列于下文中。

档次1:描述音频和视频的同步与混合。

档次2:视频信号的压缩算法。

档次3:音频信号的感知编码压缩算法。

档次4:描述用于测试的程序。

档次5:描述MPEG-4框架的软件仿真系统。

档次6:描述传送多媒体集成框架(DMIF,Delivery Multimedia Integration Framework)。1.3.9 H.26L/H.264标准

H.263标准最初是为可视电话设计的,随着1995年H.263标准的完稿,ITU-T视频编码专家组(VCEG,Video Coding Experts Group)开始进行下一步的工作。具体地,这种下一步的工作分为两步:一个是短期工作,主要是给H.263编解码器中加入一些额外的功能,最终得到该标准的第二个版本;另一个是长期的工作,其目标是为低比特率视频通信制定一个新的特别的标准。这个长期工作引出了一个草稿,即“H.26L”标准。与之前的ITU-T标准相比,H.26L标准可以获得更好的压缩效率。2001年,ISO MPEG意识到H.26L和联合视频工作组(JVT,Joint Video Team)的潜在共同利益已经形成。JVT工作组包含了MPEG和VCEG两个领域的专家,其主要任务是将草稿H.26L模型1发展为一个完整的国际标准。实际上,这些努力的结果是获得两种相同的标准,分别称为MPEG-4的ISO MPEG-4 Part 10和ITU-T H.264。这一新标准的官方术语是高级视频编码(AVC,Advanced Video Coding),这是因为其原来的工作编号为H.26L,ITU文件编号为[62]H.264。

与早期的MPEG-1、MPEG-2和MPEG-4标准类似,H.264标准没有明确定义一个具体的编码标准,而是定义了一个视频码流的解码语法规则和为这个码流制定的解码算法。基本的功能模块,如运动预测、运动补偿偏差残余的变换、DCT 变换系数的量化,以及熵编码均与之前的那些标准如MPEG-1、MPEG-2、MPEG-4、H.261和H.263等有所不同。H.264编解码器的优势在于对每一个起作用元素的特别处理上。有关H.264编解码器的内容,在本书12.2节中将进行更为详细的描述。

本书介绍了视频通信领域在过去半个世纪的历史中所取得的成就,关注于无线视频电话的设计方面,特别关注于如图1.5所示的相互矛盾的设计方面。图1.5 不同的视频通信系统的矛盾设计需求1.4 视频通信

在带宽受限和易受干扰的信道中进行视频通信,如分组网络和无线连接,需要同时具有较强的抗误码能力和高压缩性能。在过去,相当多的努力集中于设计和发展最为有效的视频压缩方法和标准。为了获得高压缩比,现有的大多数视频编解码器采用了帧间预测运动补偿方案来有效降低时间冗余,然后通过空间变换来降低空间冗余,最后,对结果参数进行熵编码,以进一步降低压缩后码流的数据量。采用这些方法可以获得较高的压缩率,但这些压缩后的码流对传输差错高度敏感。特别是视频传输不同于音频传输,由于采用了帧间运动补偿编码技术,连续视频帧数据之间的相关性比音频数据更强,这很不利于优质服务网络上的通信。本书提出了一种网络自适应信源编码方法用于动态管理数据包之间的相关性,力图在压缩比和抗误码能力之间获得较好的平衡。在我们提出的方法中采用了一些开放的标准,如ITU [63][27][25]H.263、H.264和ISO/IEC MEPG-4视频编解码器等。

为了解决无线视频通信系统和视频流传输中所面临的问题,近些年来,研究团体的工作主要集中在通信效率、抗误码能力、低延迟和[5,64,65]可扩展性等方面。在视频通信中,也在接收端应用了一些后处理技术,用于误码的隐藏和数据丢失后的修复。通过在H.264/MPEG-4视频编解码器上下文中应用一种自适应去除块效应滤波器,[66]可实现主观质量的改善。参考文献[67]对基于图像和视频特征的用于修复受损的视频图像领域的一系列方法进行了综述。具体地讲,参考文献[68]中采用空域插值的方法修复受损宏块。参考文献[69-72]介绍了修复由接收端只接受了部分DCT 系数而引起的质量下降的变换域方法,时域方法则是利用相邻的时间相关性在相邻的图像帧之间插[73,74][75]入丢失的信息,比如插值运动补偿和状态修复。进一步讲,常规的视频压缩标准使用了单一状态结构。例如它们有一个预测环,依靠已解码图像这一单一状态进行预测。预先解码的图像可能会导致后续子序列图像解码质量的严重下降,直到相应参考解码图像得到更[75]新。在Apostolopoulos提出的状态恢复系统中,使用把视频编码到多重独立可解码流的方法来缓解由一个错误状态或者突然遇到的误码在解码序列中传播的问题。每个可解码流拥有其自己的预测过程和状态,这样如果一个流丢失了,其他流仍然可以用于产生可用的视频序[76]列。其他方法,如时间平滑方法、参考文献[72,76]中的编码模式恢[77-80]复方法以及同运动矢量(MV,Motion Vector)恢复管理相同的移位帧差(DFD,Displaced Frame Difference)法也取得了相当可观的性能表现。这些方法也可以与分层编码相结合,如参考文献[81,82]中介绍的方法。

本书重要的贡献之一是研究了面向不同质量信道且能够保持良好视觉质量的灵活、准实时自适应方案。近年来,主要的研究兴趣也同[83,84]时集中于突发式自适应正交调幅(BbB-AQAM)收发器的研究,该收发器可以在一个准实时的基础上根据它所感知的无线信道的质量自适应地重新调整自身的配置。参考文献[85,86]中调研了具有不同鲁棒性和数据吞吐量的各种调制方案。BbB-AQAM 原理也被用于联合检测码分多址(JD-CDMA,Joint Detection Code Division Multiple [83,87][88]Access)和OFDM中。Girod与其合作者在参考文献[89,90]中为降低传输延迟和丢包率的影响而提出了一系列自适应视频传输方法。

相对于音频和文本,视频通信特别需要更高的数据传输速度。现[91-95]已提出了很多视频通信方案以提高通信的鲁棒性和效率。近来,[99,100]许多面向有损网络的视频传输方案采用了率失真(R-D,Rate [96-98]Distortion)优化技术,用以提高所能够达到的压缩效率和抗误码性能。这些优化算法的目标是在一定比特率限制的条件下,由压缩和信道传输所引起的总体视频失真达到最小。这个领域的一个具体的例[101,102]子是关于帧内/帧间模式转换方法,它根据当前的网络状态自适应选择进行帧内宏块编码传输,用以减轻误码在后续的视频帧中的扩散和放大。更具体的方法,如文献[102—104]中提出了一种帧内/帧间模式转换优化算法,这种转换取决于对量化、误码扩散和误码隐藏所引起的总体失真的估计。

在一个鲁棒的视频通信系统中,高水平的信道编码模块应当既能进行前向纠错(FEC,Forward Error Correction),也可进行自动请求重传(ARQ,Automatic Re-transmission on Request),并且ARQ引入的延迟不能影响声音和图像的同步。只要接收端可以接收到足够高[5,105,106]比例的不失真数据包,丢失或者损坏的数据包就可能在接收端被修复。里德索罗门(RS,Reed-Solomon)编码实现简单、方便,[107,108]因此特别适合于这种应用。FEC也在提供不等错误保护(UEP,Unequal Error Protection)中得到了广泛应用。在这种保护中,对误码敏感度高的比特提供更强的FEC编码保护。近来的工作探讨了在不[108-112]同的层次划分上需要加入和分发多少冗余的问题。除了FEC编[75,113,114]码,数据随机化和交织技术也得到了应用,以提供增强保护。[5,115-118]ARQ技术综合了信道反馈并且使用了误码重传技术。具体讲,ARQ系统使用数据包应答和超时技术来控制哪些数据包需要重传。与FEC方法不同,ARQ技术可以从根本上适应不同的信道状态,因此在很多应用场合,该技术显得更为有效。然而,在实时通信的背景和低延迟数据流中,ARQ 引入的延迟是主要问题。综合了传输优化的分层编码或可扩展编码,是另一种可以提供有效抗误码能力的设计方[73,109,119-121]案。在分层编码方案中,编码器将源信号分成多个具有不同意义的层或组,基本层包含可重建一个质量可接受的媒体所需的最基本的信息,而增强层包含的信息可被用来进一步增强重建质量。在高丢包率条件下,更为重要的是,收到更强保护的层仍然可以修复,而不太重要的层则可能无法修复。通常使用的分层技术可分为时域可[122][123,124][25][27]扩展、空域可扩展、质量可扩展、码流截断可扩展或者是这些扩展性能的任意组合。分层可扩展编码已经在网络视频流中[121,125-128](包括互联网和无线网)得到了广泛应用。不同的层可以在编码器内建的优先结构控制机制下进行传输,而不需要网络的支持,如上面提到的UEP方案,或者使用网络构架提供各种不同服务质量[121,125-128](QoS,Quality of Service)。为了限制丢包引起的帧间误码扩散,文献[133]提出了一种最优帧内/帧间模式可选择的可扩展编码方案。文献[134]设计了另一种自适应码率分配的可扩展编码方法。分层可扩展编码已经成为了各种视频编码标准的一部分,如[25,30,31][24]MPEG系列和H.263+编解码器系列。[135]

Dogan 等人研究了 MPEG-4 编解码器在无线网络中应用的问题,探讨了视频转码中的速率控制与抗误码通用分组无线业务(GPRS,General Packet Radio Service)型移动网络相结合,得到了具有良好前景的研究结果。

双向预测编码采用过去和未来的图像作为参考进行编码,可大幅提高压缩效率。1985年Musmann等人研究了前向和后向预测的有效[136][137][138]性。Flierl和Girod、Shanableh以及Ghanbari等人已将最近的研究成果应用到了H.264/MPEG编解码器中。为了进一步提高视频[139]编码的压缩比,Al-Mualla、Canagarajah 和 Bull提出了一种快速块匹配运动估计(BMME,Block Matching Motion Estimation)算法,被称之为单纯最小化搜索(SMS,Simplex Minimization Search)。这种方法在各种视频编码标准(如H.261、H.263、MPEG-1和MPEG-2等)中进行单一或多个参考帧的运动估计时得到了应用。[140]

在Luthra、Sullivan 和Wiegand编辑的特别专题中提出了一种为H.264标准设计的多种视频编码技术。在进行本书写作时,有大量[141]的在无线环境中提升视频传输能力的研究工作正在开展。Wenger讨论了通过 IP 网络进行 H.264 视频码流传输的问题,而 [142]Stockhammer 等则研究了H.264码流在无线网络环境中的传输问题。特别需要指出的是,H.264编解码器设计了一种视频编码层(VCL,Video Coding Layer)和网络适配层(NAL,Network Abstract Layer),这使得码流能够以网络友好的方式进行传输。在无[143]线网络领域,Arumugan 等人最近发表的论文讨论了基于802.11g WLAN和高速蓝牙的消费电子设备共存的状态。

在联合信源信道编码领域中,更进一步的研究工作是能够提供面向无线连接的端到端信源信道联合优化编码/调制方案,如Thobaben[144][145]和Kliewer以及Murad和Fuja等人开展的研究工作。1.5 本书的组织结构

本书的第I篇(包括第2~5章)主要介绍了视频压缩基础。所介绍的这些内容,如基于分形编码,基于DCT、基于VQ编解码器和四叉树编解码器等都是在固定主机上但编码码率可调情况下进行修订的。第2~5章叙述了这些视频编解码器及其相关的数字调制器(QAM,Quadrature Amplitude Modulated)。

本书的第II篇包括第6和第7章,主要集中讨论了高分辨率视频编码技术。

本书的第III篇包括第8~14章,介绍了H.261和H.263视频编解码器,这些编解码器是混合DCT编解码器系列中的重要典型代表。因此,这些章节中的相关内容可以很容易地应用于其他混合DCT编解码器中,例如MPEG系列,包含MPEG-1、MPEG-2 和MPEG-4编解码器。第8~14章也描述了这些混合DCT编解码器与HSDPA型准实时可重配置多模式QAM收发器的交互。

第11章重点介绍了MPEG-4视频编码器。这一章将帮助读者更好地理解我们后续章节的论述。第12章分为两部分:第一部分介绍了H.264视频编解码器,而第二部分则对MPEG-4和H.264视频编解码器进行了对比介绍。

视频压缩经常使用可变长度编码(VLC,Variable Length Coding)技术。由于它能够显著降低比特率,所有的标准视频编解码器都已经采用了这一技术,但是采用VLC技术得到的比特流对于传输差错非常敏感。在第13 章中,我们讨论了传输差错对MPEG-4 编解码器的影响问题,对码流中不同比特的敏感度进行了量化。

第14章介绍了一系列的系统设计研究工作,包括宽带突发(BbB,Burst-by-Burst)自适应TDMA/TDD、OFDM、与CDMA交互、分布式移动视频系统及其在高度分散传输媒体上的性能等。具体地说,提出并研究了基于H.263/H.264和MPEG-4的交互式视频电话方案,使用BbB自适应高速下行链路分组访问(HSDPA,High Speed Downlink Packet Access)型交互式检测辅助Turbo收发器。另外,还调研了一系列其他系统设计案例,如编码辅助调制JD-CDMA视频收发器。在收发器的控制下,这些系统可以根据信道质量,准实时地提升、降低信源编码的速率和视频质量。

本章也对一些基于MPEG-4压缩标准的可视电话方案进行了研究。首先,我们设计了一种迭代并行干扰消除(PIC,Parallel Interference Cancellation)辅助CDMA MPEG-4可视电话方案。基于这一结果,我们研究了一种新的Turbo检测不等错误保护(UEP,Unequal Protection Scheme)MPEG-4可视电话方案,该方案采用一些级联的卷积外部码、基于网格编码调制的内部码和时空编码方法。我们也提出了一种简单的打包方案,在这种方案中,我们将MPEG-4码流分解成具有不同比特敏感性的两个部分,并设计了一种不等保护机制。第2章分形图像编解码器2.1 分形原理

近年来,分形图像编解码器(Fractal Image Codecs)吸引了很[146][147][148]多研究者的兴趣。Barnsley、Beaumont、Jacquin以及 [149,150]Monroe等人发表的论文对该领域的发展做出了杰出贡献。分形是指具有无限的细节自相似性的几何对象,它提供了一种有效的参数[146]化图像表示方法。图2.1所示的蕨类植物图像是一个经常被文献使用的示例,它体现了分形中自相似特性的概念。图中的叶子可被看作一株小的蕨类植物,而叶子的叶子可看作一株更小的蕨类植物,依次类推。图2.1 仿射变换示例

这种自相似性可以用术语表示为帧内冗余。待编码的图像区域可表示为其他图像分割区域的收缩仿射变换(Contractive Affine Transforms),由此便可去除帧内冗余。这种二维收缩仿射变换可表示为

或者,表示为

通过以上变换原理,在二维黑白图像所表示的对象中,每个像素点(X,Y)均可表示为另外一个对象中像素点(x,y)的仿射变换。具体变换步骤是:先对坐标(x,y)进行系数为(r,s)<1的收缩以及角00度为(φ,θ)的旋转,再对原对象进行水平和垂直距离为(X,Y)的线性平移。由设定(r,s)<1 而产生的仿射变换的收缩性是很重要的,对初始几何形状大量重复地应用收缩仿射变换,便可解析出图像中任意精细的细节。图2.1中用蕨类植物说明了这种收缩仿射变换的效果。然而,从图像编码角度看,我们更希望找到一种能够通过一步变换将目标对象中的每个像素映射到另外一个对象相应的像素点,而不是逐像素采用不同的映射参数进行变换,否则变换过程的计算复杂度会很高。为了进行解码时的反变换,所有的变换参数也需要存储。关于这一点,将在本章的后面进行讨论。

对于非二值的灰度图像,为了表示亮度信息需要引入第三个维度。简单的分形编码原理要求我们首先要把原图像分割成恰好可完整覆盖整个图像的小图像块,称为范围块(RB,Range Block)。对大图像区域进行编码时这种分割尤为需要,因为对大图像块进行编码时,很难找到与之相似的图像块。图像分割得越大,就越难以找到匹配对象。然后,如图2.2所示,定义域块(DB,Domain Block)池,DB池可看作一个二维码书(Codebook)。每个由合理的DB构成的待压缩图像分割区域都将通过收缩仿射变换映射到具体的RB,变换后的DB与相应RB的匹配程度通常用均方误差(MSE,Mean Squared Error)来度量。对于每个RB,保存与之最佳匹配的DB的位置坐标,用于解码端进行图像重建。图2.2中说明了这种分形编码过程,本节后面将介绍具体技术细节。图2.2 3个RB映射到DB的示例

最佳MSE匹配的收缩仿射变换可通过迭代函数系统(IFS,[146]Iterated Function Systems)描述,具体表示为一组IFS码(r,s,00φ,θ,X,Y)。IFS码用于解码端重建原图像,具体重建技术将在IFS码概念示例之后进行介绍。表2.1列出蕨类植物图像的一组IFS码的示例。本章第2.2节将对一维分形编码进行详细讨论。表2.1 蕨类植物图像的IFS码

回到由IFS码重建图像的问题,首先需要了解随机拼贴定理[146](Random Collage Theorem)。该定理表明,从任意初始状态开始,迭代地进行IFS码所表示的收缩仿射变换就可以重建图像。如前所述,收缩性是分形编码过程中连续地减小变换对象大小的必要条件,同时也保证了算法在解码过程中能解析出越来越多的细节信息和算法的收敛性。在第 2.2 节将介绍分形图像编解码技术的算法细节,首先以一维分形编码算法作为示例,然后扩展到二维分形视频编码。2.2 一维分形编码

一维信号可以是声波信号或者逐行扫描的图像信号。为了便于复杂度优化处理,将信号波形分割成较短的一维片段,构成范围块。拼贴理论要求范围块(RB)恰好完整覆盖待压缩的信号部分。为了满足收缩性要求,需要为每个RB找到一个波形相似但长度更长一些的域块(DB)。最后,通过特定的仿射变换将每个DB映射到RB。以下列出了一组合理的收缩仿射变换集合:

① 对块的信号幅度进行缩放;

② 对信号幅度添加偏移量;

③ 对块的波形进行以x轴或y轴为对称轴的映射;

④ 180°旋转。

仿射变换集合越大,块匹配的效果就越好。但是,随着变换集合中变换数量的增多,IFS码会增多,最终导致压缩码流的比特率的增大以及算法运算复杂度的提高。[147]

图2.3所示为Beaumont方法的编码技术。在图2.3(a)中,将一幅图像行扫描的亮度信息分割成8个RB。对第一个RB进行编码时,需要在信号中找到一段相似的波形作为DB。通常DB的长度设定为RB长度的整数倍,这里设置为2倍。从图中可见,DB4波形与RB1很相似,经收缩仿射变换进行缩放和旋转后的DB4 可很好地表示RB1。图2.3(b)很好地表示了这种变换过程:先将DB4的长度缩小到与RB相同的长度,即由图2.3(b)中的(a)变换到(b);经过波形幅度缩放和垂直平移,变换到(c);最后经过旋转得到(d)。变换的结果波形能够与 RB1 进行很好的匹配。这一系列变换过程中的幅度缩放系数、平移偏移量、旋转角度等参数表示为RB1的IFS码。计算每个RB的收缩仿射变换参数值,可得到整个图像行扫描信号的IFS码。图2.3 一维分形编码

通过图2.4所示的示例,可具体说明IFS码的计算过程。图2.5具体说明了图2.4中由RB“A”经过收缩仿射变换映射到DB“a”的变换过程,表2.2中第一行参数列出了表示这一变换过程的IFS码。首先将图2.4中的DB“A”长度收缩为原来的1/2,如图2.5(a)、(b)所示;然后,将信号幅度缩放 0.5倍,如图2.5(c)所示;最后,垂直平移-0.25,如图2.5(d)所示,得到准确的RB“a”信号。图2.4中其他的RB信号(即RB“b”、“c”、“d”)经过类似的分形变换步骤可得到相应的IFS码,见表2.2。解码器需要根据每个RB的IFS码来重建RB,然而解码器显然是编码器用于产生IFS码的DB池。直观的简单逻辑告诉我们,对DB池重复地进行IFS码所表示的分形变换是重建RB的唯一方法。但是,前面提到的随机拼贴定理却告诉我们一个意外的事实:对任意初始信号模式重复地进行IFS码所表示的收缩仿射变换,结果会收敛到编码时对应的RB。图2.4 计算表2.2中IFS码的RB和DB示例

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载