多视点视频编码的关键技术(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-01 08:44:08

点击下载

作者:孟丽丽,谭艳艳,等

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

多视点视频编码的关键技术

多视点视频编码的关键技术试读:

前言

近年来,视频显示技术已经从2D视频发展到3D立体视频。多视点视频是3D 视频一种重要的表述格式。多视点视频是由同一时刻不同角度的摄像机对同一场景采集的视频序列,它能更生动、准确地呈现场景。然而,多视点视频的数据量很大,其存储和传输都非常困难,如何高效和鲁棒地压缩多视点视频数据已成为当前视频编码领域的研究热点。

本书围绕多视点视频编码,对多边信息的分布式多视点视频编码、兼容标准的高效立体视频编码和鲁棒的多描述多视点视频编码几种视频压缩技术进行了深入研究,主要创新性研究成果如下。(1)研究多边信息的分布式多视点视频编码方法。该编码方法能降低编码端的复杂度、避免摄像机之间的通信,还可以更好地利用边信息的相关性;同时,基于贝叶斯准则研究多边信息的联合条件概率密度函数,并将其应用在视频编码方法中。实验结果证明,该方法能有效提高编码效率。(2)研究兼容标准的高效立体视频编码方法。现有的绝大多数编码器都还是针对2D 视频的,无法直接处理多视点视频。因此,本书在现有视频编码标准的基础上,研究具有灵活预测模式和自适应预测结构的兼容标准的高效立体视频编码方法,该方法有效地提高了率失真性能。(3)研究鲁棒的多描述多视点视频编码方法。传统多视点视频编码码流一旦遇到网络丢包或比特传输错误,解码质量就会严重下降。具有鲁棒性的多描述多视点视频编码方法能有效地解决这个问题。首先,针对多视点帧内编码,研究基于随机偏移量化器和均一偏移量化器的多描述多视点帧内编码;然后,针对多视点帧间编码,研究基于内插补偿预处理的多描述多视点视频编码,该方法能有效地重建丢失块或有误差块的信息,从而进一步提高块的重建质量;最后,通过实验及与相关算法的比较,证明该方法的鲁棒性和有效性。

感谢北京交通大学赵耀教授、加拿大西蒙弗雷泽大学 Jie Liang教授、福建工程学院潘正祥教授及山东师范大学信息科学与工程学院对笔者研究工作的支持;同时,感谢国家自然科学基金青年项目(项目编号:61402268)和国家自然科学基金面上项目(项目编号:61572298)对本书研究工作的资助。

由于笔者学识水平所限,本书难免存在不足之处,恳请各位专家和广大读者给予批评指导。著者2018年6月目录封面扉页版权信息前言

1 绪论

1.1 研究背景与研究意义

1.2 多视点视频编码的研究现状

1.2.1 基于传统2D视频编码的多视点视频编码研究1.2.2 基于运动估计和视差估计的多视点视频编码研究1.2.3 基于合成视点预测的多视点视频编码研究1.2.4 分布式多视点视频编码研究1.2.5 基于多描述编码的多视点视频编码研究

1.3 本书内容安排与组织结构

2 多边信息的分布式多视点视频编码

2.1 引言

2.2 多边信息分布式视频编码

2.2.1 系统描述2.2.2 最优重建2.2.3 基于贝叶斯准则的联合条件概率密度函数和相关噪声模型

2.3 基于贝叶斯准则的多边信息分布式多视点视频编码

2.4 实验结果

2.4.1 不同二进制码的实验结果2.4.2 多边信息分布式视频编码的实验结果2.4.3 多边信息分布式多视点视频编码的实验结果

2.5 本章小结

3 兼容标准的高效立体视频编码

3.1 引言

3.2 基于H.264的传统立体视频编码

3.3 基于灵活预测模式兼容标准的立体视频编码

3.3.1 灵活预测模式3.3.2 基于灵活预测模式的立体视频编码系统

3.4 基于自适应预测结构兼容标准的立体视频编码

3.4.1 自适应预测结构3.4.2 基于自适应预测结构的立体视频编码系统

3.5 实验结果

3.6 本章小结

4 鲁棒的多描述多视点视频编码

4.1 引言

4.2 基于随机偏移量化器的多描述多视点帧内编码

4.2.1 MDROQ系统描述4.2.2 MDROQ期望失真的一般表达式

4.3 基于均一偏移量化器的多描述多视点帧内编码

4.3.1 低码率联合重建方法的比较4.3.2 MDUOQ系统描述

4.4 多描述多视点帧内编码的优化

4.4.1 系统框图及DCT域的维纳滤波4.4.2 期望失真的建模4.4.3 迭代优化算法4.4.4 均一偏移量化器死区间隔的优化

4.5 鲁棒的多描述立体视频编码

4.5.1 多描述立体视频编码的系统设计4.5.2 内插补偿预处理算法

4.6 理论分析

4.6.1 MDROQ与MDLTPC的理论比较4.6.2 MDROQ的1D数据理论界限和实验结果

4.7 实验结果

4.7.1 多描述多视点帧内编码的实验结果4.7.2 鲁棒的多描述立体视频编码实验结果

4.8 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

反侵权盗版声明

1 绪论1.1 研究背景与研究意义

随着实时场景采集、传输、演示的迫切需求和信号处理技术的发展,视频显示技术已经从2D(2 Dimensional)发展到3D(3 [1,2][3,4]Dimensional), 3D电影、3D电视等开始进入人们的生活。

除了3D视频处理技术的进步,3D视频的内容也越来越丰富。3D电影的数量每年都在增加,其票房在影院总票房中已占很高比例。几家著名的电影制片厂声称,未来他们只制作和发售3D电影;一些主要的投资者也已经决定升级3D电影设备。3D电影的票房和投资力度说明消费者对3D视频的接受和喜爱。然而,当前3D视频普及到日常生活中还是比较困难的。首先,当前观看3D视频需要佩戴特殊的眼镜,这是非常不方便的;其次,观看者长时间观看3D视频,其眼睛会不舒服。

3D视频通常有两种数据表示格式:一种是包含 n(n≥2)个视点的多视点视频(Multiview Video,MVV);另一种是结合深度信息的单路或多路视点视频(Multiview Video plus Depth,MVD)。本书研究的是多视点视频(不包含深度信息)。多视点视频是由同一时刻不同角度的摄像机对同一场景采集的视频序列,它能更生动准确地呈现场景[5]。图 1.1所示为多视点视频实例—Ballroom,其中X表示第 i个视点i,j在第j个时刻的视频帧,该视频序列是由图1.2所示的采集系统(平行排列的摄像机)获得的。这个采集系统是由三菱电子研究实验室搭建[6]的。目前,其他一些机构也构建了实际的多视点视频系统。例如,日本名古屋大学搭建了包含100个摄像机的采集系统,该采集系统中的摄像机有1D线形、1D弧形和2D矩阵排列三种排列方式(见图1.3);[7]斯坦福大学构建了52个摄像机矩阵系统[见图1.4(a)];微软亚洲研究院也已经发展了32个摄像机的实时多视点视频系统[见图[8][9]1.4(b)] ,其中一些技术已经应用在MPEG 3DAV中;笔者所在研究团队搭建了10个摄像机的采集和控制平台(见图1.5),摄像机的型号为Stingray F046C,分辨率为780×582像素,帧率为60fps。图1.5(a)为4个水平排列的摄像机;图1.5(b)为6个环形排列的摄像机,其中的环形升降支架,可以有效调节摄像机的位置。此外,该平台配备了高性能工作站、同步触发模块、磁盘阵列及相机控制器等,可以实现同步多视点视频采集。图1.1 多视点视频实例—Ballroom图1.1 多视点视频的实例—Ballroom(续)图1.2 平行排列的摄像机图1.3 100个摄像机的三种排列形式图1.4 摄像机的排列图1.5 笔者所在研究团队搭建的采集设备

当前,多视点视频技术有巨大的应用价值和研究价值。从应用角度来说,多视点视频有广泛的应用前景,如可以应用在3D电视[10,11][12,13][14~16]、交互式自由视点系统及虚拟现实等诸多实际应用中;从技术角度来说,多视点视频涉及视频采集、编码、传输、重建等诸多关键技术。因此,多视点视频技术在学术界和工业界受到越来越多[17]的关注。

多视点视频不仅可以给人们带来视觉感观上的巨大冲击,也可以让人们更加方便地了解和透视身边的客观世界。由于多视点视频拥有庞大的数据量,其相应的存储和传输非常困难,因此多视点视频的压缩在实际应用中非常重要。1.2 多视点视频编码的研究现状

多视点视频编码(Multiview Video Coding,MVC)通过去除同一视点内时间上的相关性和不同视点的视点间相关性,在保证重建视频质量的条件下减少传输码率,实现多视点视频的有效压缩。根据当前多视点视频编码方法,本节主要从基于传统2D视频编码的多视点视频编码研究、基于运动估计和视差估计的多视点视频编码研究、基于合成视点预测的多视点视频编码研究、分布式多视点视频编码研究及基于多描述编码的多视点视频编码研究5个方面介绍多视点视频编码的研究现状。1.2.1 基于传统2D视频编码的多视点视频编码研究

1.Simulcast多视点视频编码

压缩多视点视频最直接的方法是Simulcast法,即独立压缩每路[18]视频,如可以利用先进的视频压缩标准 H.264/AVC压缩每路视频。这种方法没有利用不同视点间的预测,从而实现了低编码复杂度和低解码延迟。

以不对称的立体视频编码为例,其中一个视点使用精细的量化[19]器,另一个视点使用粗糙的量化器,实现两个视点解码后的质量不一样,即其中一个视点视频的质量比另一个视点视频的质量要差,这种编码方式可以节省大量码率,但长时间观看这样的视频,观看者的眼睛会很疲劳。相应的,文献[20]提出周期性改变左右视点视频质量,以缓解观看者眼睛的疲劳。如何利用不对称编码满足人类视觉特性,仍然有待研究。这种方法的最大缺陷是没有利用视点间相关性,其编码效率还有待提高。

2.兼容的立体视频编码

为有效地利用当前广泛使用的单一视点视频设备,出现了立体视频的兼容形式,即将立体视频转换为包含两个视点视频的单一视频序列。在一般情况下,左右视频先被采样,然后合并成一个视频序列。

当前,存在多种采样内插的形式,如空间采样有水平采样和垂直采样两种简单模式。水平采样可以左右组合;垂直采样可以上下组合;还可以时间采样,即左右视频交叉组成一个视频。采用时间采样方法,每个视点的帧率虽然减小了,但其分辨率不变,因此,整体数据量与原来一致。

这种兼容模式在空间或时间上的采样,丢失了一些空间或时间上的信息。由于这种兼容模式可以在解码端直接利用原来的解码器,因此,可以很快地应用在市场中。1.2.2 基于运动估计和视差估计的多视点视频编码研究

为提高多视点视频编码的有效性,需要去除多视点视频时间上的[21]相关性和视点间的相关性。最早研究多视点图像编码的Lukacs提[22]出了视差补偿帧间预测的概念。此后,Dinstein等人比较了立体图像压缩中预测编码的方法和3D块变换的方法。在文献[23]中, Perkins 提出了变换域的视差补偿预测技术。在文献[24]中, Grammalidis 提出了一种多视点视频编码视差估计的方法及相应的编码方法。

多视点视频编码标准是基于运动估计和视差估计的编码算法。第一个支持 MVC的国际标准是1996年基于 H.262/MPEG-2视频编码标准的修正草案,这个标准仅支持两个视点的编码。在该设计中,左视点为基本视点,它的编码和传统单一视点的编码是兼容的;右视点为增强视点,它以左视点为参考帧实现视点间的预测。针对增强视点的编码,利用了一些 H.262/MPEG-2视频编码中的算法,但参考帧的选择不是一样的。这个参考帧可以是增强视点中的一帧,也可以是基本视点中的一帧。图1.6为基本视点和增强视点的预测形式。在这个方法中也使用了一些其他编码方法,如用来增强时域鲁棒性的帧率增强

[25~28]方法。图1.6 基本视点和增强视点的预测形式I—帧内编码帧;P—单向预测编码帧;B—双向预测编码帧;MCP—运动补偿预测;DCP—视差补偿预测

鉴于视频压缩技术的进步和先进多视点视频编码技术的需求, MPEG 在 2005 年 10 月发行了征求有效多视点视频编码技术的提案。尽管没有明确需求,所有提案应该基于先进视频压缩标准H.264/[29]MPEG-4,并且包含视间预测的一些方法。文献[30]相对基于H.264/MPEG-4的Simulcast编码,改进了视觉效果。文献[31]的提案能够提供更好的视觉质量。这些提案没有引入代码的改变,并且MVC的解码仅需要在当前 H.264/MPEG-4 的芯片上进行简单的改变。这些方法构成了JMVM 1.0。后来,利用不同参考帧和实时编码[32~34]方法减少编解码的延迟,出现了并行输入和并行输出的结构。[35]这些提案构成了JMVM 2.0。

如图 1.7所示,在多视点视频压缩标准中,通常定义一个 GOP [36,37](Group of Picture),每行是同一个视点内时间连续的视频,每列是同一时间相邻视点的视频。在图 1.7 中,X表示由第二个摄像2,3机获取的第三个时刻的视频帧。同一行中的视频之间时间相关性可以用(运动补偿预测 Motion Compensation Prediction,MCP)减少时间冗余;同一列中视频之间的视点间相关性可以用视差补偿预测[5](Disparity Compensation Prediction,DCP)减少视差冗余。多视点视频编码就是通过去除时间相关性和视点间相关性达到视频压缩的目的。图1.7 T=4和 V=4的多视点视频图像

这种基于运动估计和视差估计的多视点视频编码主要侧重高效性的研究,并且在其基础上已经有了压缩标准,JVT 给出参考软件[35,38]JMVM。图1.8为 JMVM 的分级 B 形式的预测结构。从图1.8可以看出,JMVM 利用运动估计和视差估计有效去除同一视点内时间相关性和不同视点的视点间相关性。文献[39]指出,基于运动估计和视差估计的多视点视频编码比 Simulcast 法有更高的编码效率。文献[40]用大量实验证明,当重建视频的质量相当时,基于运动估计和视差估计的多视点视频编码能减少20%的码率。图1.8 JMVM的分级 B形式的预测结构1.2.3 基于合成视点预测的多视点视频编码研究

尽管利用视点间相关性的视差估计能有效提高编码效率,但视差估计方法假设帧间运动是平移的,这并不能准确地表达不同摄像机之间的几何相关性,因此基于视差估计的方法也有缺陷。例如,在不同的视点中,一个目标有不同的深度信息,出现的视差可能比搜寻窗口大。另外,旋转和缩放也很难用平移运动来建模。一种可以代替视差估计预测的是合成视点预测(View Synthesis Prediction,VSP),即预测目标视点合成一个新的视点,这首先要利用两个不同视点之间的几何相关性,然后利用这个合成的视点作为参考帧预测需要编码的目标帧。根据视点合成的方法DIBR(Depth-Image-Based Rendering)或IBR (Image-Based Rendering),把基于VSP的多视点视频编码分成两类:第一类是基于深度信息的多视点视频编码;第二类是基于视点内插的多视点视频编码。

1.基于深度信息的多视点视频编码

基于深度信息的多视点视频编码利用相应的深度信息通过DIBR得到合成的视点,其关键问题是深度图像的压缩,即在考虑深度图像特有性质的基础上,如何压缩深度数据,才能达到较高的压缩效率。在深度图像中,目标内部像素具有同象性,目标边缘及其邻近区域具有明显的边缘特性。不同于传统的自然图像,在深度图像中高频信息尤为重要。传统的视频压缩算法是保存低频信息、模糊高频信息,显然,这类算法不适用于深度图像。另外,深度信息可以映射为从原始参考视点到虚拟视点的偏移值,深度信息的错误编码将导致合成视点中像素的错误偏移,这种错误偏移主要集中在物体的边界。因此,在压缩深度信息的过程中,保护深度边界尤为重要。

压缩深度图像一开始仍然用传统的视频编码方法,如用H.264/[41]AVC 或 JMVC 压缩深度信息。这些方法不仅要考虑深度图像编码的率失真(RD)优化,也要考虑合成视点的质量。为了提高深度图[42]像编码效率,可以先对深度图像进行采样;解码之后,再基于物体轮廓保护深度图像的边界,得到精确的边界信息;最后,应用上采样恢复原来的分辨率。文献[43]提出了另一种深度图像编码方法,通过一个简单的线性函数估计分析前景和背景,使有边界的任意块包含两部分信息,一部分是前景深度信息,另一部分是背景深度信息。

基于深度信息的多视点视频编码与基于视差估计的方法相比,尽管它能提高合成视点的质量,但它需要编码和传输深度信息,因此增加了带宽。

2.基于视点内插的多视点视频编码

除了基于深度信息的预测,视点内插也能应用在多视点视频编码中。基于视点内插的多视点视频编码需要两个相邻的视点合成一个预测目标帧的虚拟参考帧,先计算视差图,然后再由相应的左右视点内插得到中间视点的每个像素。在编码端,利用相邻视点的解码帧得到视差图,这与解码端得到的视差图是一样的,因此,不需要额外的比特传输视差图。

文献[44]提出了基于视点内插的多视点视频编码方法。在此方法中,先得到给定时间和视点位置的内插帧,再将得到的内插帧作为参考帧。另外,文献[44]还提出了利用颜色纠正的方法纠正亮度和色度,这可以补偿不同摄像机之间的差异,增强基于视点内插预测的有效性。但是,这种方法仅限于所有摄像机为水平排列的情况。

为了处理更一般排列的摄像机获得的多视点视频,文献[45]提出了基于校准的视点内插(Rectification based View Interpolation,RVI)[46,47]方法。它利用投影矫正的方法矫正两个视点。该方法涉及两个视点基础矩阵的计算和重采样,以保证两个视点是水平的,并且有匹配的核线。在文献[48]中,用一个视差估计的纠正方法得到内插视点,这个方法不需要摄像机参数,并且对摄像机配置几乎没有要求,因此适用于无序排列摄像机和摄像机参数未知的多视点视频系统。文献[49]改进了文献[45,46]的方法,提出了一种改进的 RVI 方法,并且应用在多视点视频编码中。

上面提到的基于内插的多视点视频编码方法能够处理基于左视点和右视点的视点合成。如果这些方法应用在多视点视频编码中, VSP仅能够得到已知两个视点的中间视点,不能得到已知视点的外部视点。为了解决这个问题,文献[49]提出了基于校准的视点外插(Rectification based View Extrapolation,RVE)。该方法可以基于左边的两个视点或右边的两个视点得到外部视点,VSP能够应用在所有视点的预测编码中。1.2.4 分布式多视点视频编码研究

为满足低能耗设备的需求、避免摄像机之间的通信及降低编码端的复杂度,文献[50~53]研究了分布式多视点视频编码。文献[50,51]基于 Wyner-Ziv 理论提出了一个可以在实际中应用的分布式多视点视频编码框架。文献[52]研究了分布式单一视点视频编码和分布式多视点视频编码,提出了相应的系统框架,并研究了一些关键技术,如边信息的产生、相关模型的估计和错误隐藏等。文献[53]提出了一种可以得到更好边信息的方法,从而提高整体的编码性能。这些方法均基于分布式视频编码。

分布式视频编码(Distributed Video Coding,DVC)在编码端独立编码,在解码端联合解码(见图1.9),即在解码端利用信源之间的相关性,实现具有高运算复杂性的运动估计。分布式视频编码的理论基[54][55]础有 Slepian-Wolf(SW)理论和 Wyner-Ziv(WZ)理论。SW 理论对应的是 SW 编码器,可以实现无损编码;WZ 理论对应的是 WZ编码器,是 SW编码器的扩展,用来实现有损编码。WZ编码器可看作是由 SW编码器和量化器组成的。图1.9 独立编码与联合解码

设 X和 Y是统计相关独立同分布的随机序列,利用分布式视频编码的理论:对于无损的独立编码、联合解码的分布式视频编码来说,可以采用码率R≥H(X|Y)和R≥H(Y|X)分别进行独立编码,其总XY的码率可以达到R+ R≥H(X,Y),即在分布式视频编码中,尽管对XYX和Y分别进行了独立编码,其总的码率仍然能达到联合熵H(X, Y)。这与传统的联合编码、联合解码所用的码率是相同的。然而,编码端的独立编码避免了运算复杂度较高的运动估计,降低了编码端的复杂度,因此分布式视频编码在降低编码端复杂度的情况下,仍然可以达到传统编码的编码效率。当前,出现了一些低能耗的处理设备,可以先用分布式视频编码处理信息,然后再把处理的信息传到信息中心。

低复杂度的分布式多视点视频编码,就是利用独立编码、联合解码的分布式视频编码,在不影响编码效率的情况下,降低编码端复杂度,避免编码端摄像机之间的通信,大大提高多视点视频编码的实时性和实用性。1.2.5 基于多描述编码的多视点视频编码研究

在多视点视频编码中,当编码码流遇到网络丢包或比特传输错误时,解码质量会严重下降。为提高多视点视频编码的鲁棒性,将具有鲁棒的多描述编码(Multiple Description Coding,MDC)应用在多视点视频编码中。2006年,文献[56]提出了两种基于多描述编码的立体视频编码方法,分别是基于空间采样 SS-MDC 和基于时间采样的MS-MDC。2008年,文献[57]结合深度信息将可伸缩的多描述编码应用在3D视频中。为更好地认识具有鲁棒的多描述编码,下面简单介绍一下多描述编码。

多描述编码通过产生多个相互独立但同时又具有一定相关性的码流(描述)刻画同一信号。各个描述是相互独立且同等重要的,每个描述可以独立地重建原信号,其重建质量是可以接受的,该解码称为边路解码;收到的描述越多,重建的信源质量越好,当所有描述都收到时,重建信源的质量最好,称为中心路解码。显而易见,在多描述编码中,即使丢失一些信息,收到的描述也能重建原信号。因此,多描述编码有效地解决了传输误差和重建误差引起的错误累加问题。

图1.10所示为两个描述的多描述编码的基本模型。当只收到描述1或描述2时,通过边路解码器1或边路解码器2,可以得到边路的重建图像;当两个描述都收到时,通过中心路解码器,可以得到中心路的重建图像。从图1.10可以看出,边路的重建质量比中心路的重建质量差一些,但还是可以接受的。图1.10 两个描述的多描述编码基本模型1.3 本书内容安排与组织结构

本书先介绍了多视点视频编码的研究背景、意义及其研究现状。目前,多视点视频编码的研究现状主要有以下5个方面:基于传统2D 视频编码的多视点视频编码研究、基于运动估计和视差估计的多视点视频编码研究、基于合成视点预测的多视点视频编码研究、分布式多视点视频编码研究及基于多描述编码的多视点视频编码研究。其中,1.2.4节简单介绍了分布式多视点视频编码的基本理论和基本框架,同时也介绍了多描述编码的基本框架和特点。

当前,为了有效去除时间相关性和视点间相关性,大部分多视点视频编码采用了复杂的预测模式(如JMVM利用分层B形式的预测模式),这类编码方法在编码端具有较高的运算复杂度,并且需要摄像机之间自由通信,但这是非常不实际的。为了降低编码端的复杂度、避免摄像机之间的通信及有效地利用边信息的相关性,本书基于贝叶斯准则研究了多边信息的联合条件概率密度函数,并将其应用在多边信息的分布式视频编码和多边信息的分布式多视点视频编码中,以此提高编码效率。

为了使当前广泛应用的基于视频压缩标准的单一视点视频压缩设备能方便地处理多视点视频,本书研究了兼容标准的高效立体视频编码方法。为了保障视频的实时性,使用了GOP模式;同时,为了有效地去除时间冗余和视差冗余,本书研究了基于灵活预测模式和基于自适应预测结构的兼容标准的立体视频编码方法。在自适应预测结构中,为了降低计算量,利用视频低频信息的时间相关性和视点间相关性,调整GOP内的预测模式。

传统的多视点视频编码对传输和重建误差是非常脆弱的。为了提高多视点视频编码的鲁棒性,本书进一步研究了多描述多视点视频编码,并且提出了内插补偿预处理的方法,以提高每块的重建质量。然后,针对多描述多视点帧内编码,研究了基于随机偏移量化器和均一偏移量化器的多描述多视点帧内编码。

本书的组织结构如下。

第1章,介绍了多视点视频编码的研究背景、意义及其研究现状。同时,本章还简单介绍了分布式视频编码和多描述编码的基本理论和基本框架。

第2章,为了降低编码端的复杂度、避免摄像机之间的通信及更好地利用同一视点内的边信息和视点间的边信息,研究了多边信息的分布式多视点视频编码方法。同时,研究了基于贝叶斯准则的多边信息联合条件概率密度函数,并将其应用在LDPCA解码和重建中,从而提高编码效率。

第3章,为了使立体视频编码算法能够在当前广泛应用的基于视频压缩标准的2D 视频硬件中直接使用,本书提出了兼容标准的立体视频编码方法。首先定义一个 GOP,然后根据 GOP 内各帧之间时间相关性和视点间相关性,研究了基于灵活预测模式和基于自适应预测结构的兼容标准高效立体视频编码方法。在自适应预测结构中,为了降低计算复杂度,只考虑了低频信息的时间相关性和视点间相关性。

第4章,为了提高多视点视频编码对传输误差和重建误差的鲁棒性,进一步研究了鲁棒的多描述多视点视频编码方法。首先,针对多视点帧内编码,研究基于随机偏移量化器和均一偏移量化器的多描述多视点帧内编码,得到两种方法的期望失真表达式,并对其进行优化;然后,针对多视点帧间编码,研究基于内插补偿预处理鲁棒的多描述立体视频编码。

第5章,总结本书主要工作,并对未来的工作进行展望。2 多边信息的分布式多视点视频编码

为了降低多视点视频编码器编码端的复杂度、避免摄像机之间的通信及更好地利用边信息,本章首先研究多边信息的分布式视频编码;同时,研究基于贝叶斯准则的多边信息联合条件概率密度函数,并且将其应用在单一视点视频的分布式视频编码中。其次,基于该方法,研究多边信息的分布式多视点视频编码。最后,用实验结果证明所提方法的有效性。2.1 引言

多视点视频编码就是通过去除同一视点中的时间相关性和不同视点间的视差相关性,达到视频压缩的目的。截至目前,在已经出现的各种各样的多视点视频编码技术中,相关性的利用是在编码端实现的,即在摄像机端利用时间相关性和视点间相关性。这确实提高了编码效率,但在实际应用中,仍然存在一些缺点。例如,当去除时间上和视点间的相关性时,采用运动估计和视差估计往往具有较高的计算复杂度,这对摄像机处理速度的要求是非常高的。另外,当利用视点间相关性时,不同视点的摄像机之间需要自由通信,这在实际中通常是不可能的。因此,这种多视点视频编码方法很难在实际中应用。

分布式信源编码(Distributed Source Coding,DSC)能够很好地解决这个问题,它采用独立编码、联合解码的模式,将计算复杂度高的运动估计运算转移到解码端。DSC 的编码运算复杂度低,已经应[58,59][51]用于其他编码框架,如多描述编码、多视点视频编码和交互式[60]的多视点视频系统。[61,62]

在许多实际的分布式视频编码方法(如DISCOVER系统框架)中,视频序列被分成两部分:关键帧和 WZ 帧(Wyner-Ziv 帧)。关键帧的编码和解码是通过传统的帧内视频编码、解码实现的。WZ帧在编码端也是帧内编码,利用信道码产生校验比特流作为压缩的比特流。在解码端,WZ帧通过利用校验位和边信息实现帧间解码,边信息是由解码的关键帧产生的。因此,在解码端需要 WZ 帧和边信息的统计相关模型,从而更好地利用边信息。Y=X+Z 能够用来表示 WZ 帧和边信息的模型。其中,X表示 WZ帧,Y表示边信息,Z表示相关噪声。在一般情况下,假设相关噪声具有拉普拉斯分布。因此,边信息的质量和相关噪声的估计决定了解码端的效率。文献[63]提出基于单一边信息的最优化重建方法。文献[64]从信息论的角度证明,使用多个边信息能提高 DSC 的编码效率。在典型的 DVC 框架中,利用相邻关键帧的前向运动估计和后向运动估计可以得到 WZ 帧的两个边信息。为了更好地利用多个边信息,需要得到所有边信息的联合条件概率密度函数(Probability Density Function,PDF),然而现在还没有它的近似表达式。以前也用一些方法估计这种联合条件概率密度函数。在文献[63]中,用平均两个边信息各自的条件概率密度函数作为两个边信息的联合条件概率密度函数。文献[65]提出了一种线性权重的联合条件概率密度函数,边信息的相关噪声参数决定了各自的权重。

文献[50~53]研究了分布式多视点视频编码。在分布式多视点视频编码系统中,既具有时间相关性的边信息,又具有视差相关性的边信息。为了有效利用多边信息,本章研究了多边信息的分布式多视点视频编码系统。同时,也研究了基于贝叶斯准则的多边信息联合条件概率密度函数,并将其应用在多边信息的分布式视频编码和多边信息的分布式多视点视频编码中。本章将基于贝叶斯准则的多边信息联合条件概率密度函数简称为贝叶斯联合条件概率密度函数,以便与文献[65]提出的线性权重联合条件概率密度函数进行比较。最后,实验结果表明,当边信息质量较好时,本章提出的贝叶斯联合条件概率密度函数能得到更好的实验效果,并且相关实验也证明本章所提出多边信息的分布式多视点视频编码系统的有效性。

本章余下部分组织如下:2.2节描述了本书研究的基于贝叶斯准则的多边信息分布式视频编码系统框架,并且研究了多边信息的贝叶斯联合条件概率密度函数,并且在系统中应用最优化重建方法和最新的分类相关噪声参数估计方法;2.3节给出了低复杂度、基于贝叶斯准则的多边信息分布式多视点视频编码,从而更好地利用同一视点内具有时间相关性的边信息和视点间具有视差相关性的边信息;在2.4节中,与文献[65]实验结果进行对比,证明本章研究的基于贝叶斯联合条件概率密度函数的单一视点多边信息 DVC 系统和多边信息分布式多视点视频编码的有效性;2.5节对本章的工作进行小结。2.2 多边信息分布式视频编码2.2.1 系统描述

本章提出的多边信息分布式视频编码(Multi-Hypothesis Distributed Video Coding,MHDVC)基于当前先进的DVC框架—[62]DISCOVER系统。图2.1所示为多边信息分布式视频编码的基本框架。视频序列分成关键帧和WZ帧,本章主要考虑一个WZ帧在两个关键帧之间的情况。关键帧采用H.264的帧内模式编码和解码。WZ帧在编码端独立编码,在解码端基于边信息的帮助实现联合解码,边信息是由解码的关键帧得到的。图2.1 多边信息分布式视频编码的基本框架SQ—标量量化器;SI—边信息

从图2.1可以看出,WZ帧首先通过4×4的离散余弦变换(Discrete Cosine Transform,DCT);其次,利用标量量化器量化得到量化索引,其中使用了文献[62]中的量化矩阵;再次,将量化索引的[66]比特平面传输到LDPCA编码端,用来产生校验位;最后,将校验位传输到解码端,传输的校验位数由LDPCA解码自适应决定。

在解码端,由解码的关键帧通过前向运动估计运动补偿和后向运动估计运动补偿分别得到两个边信息。图2.2所示为前向预测和后向预测多边信息的产生过程。这两个边信息通过 DCT,得到这两个边信息DCT域的联合条件概率密度函数P(x|y ,y)。P(x|y,y)r12r12将在LDPCA解码和最后的重建中用到。图2.2 前向预测和后向预测的多边信息产生过程MV—后向运动矢量;MV—前向运动矢量;SI—后向边信息;SI—前向边信息bfbf

为了使 WZ 帧和相应边信息的相关噪声模型更准确,本章利用了[67]当前最先进的分类方法。在这种分类方法中,每帧的每个DCT子带的所有系数根据两个边信息的相关性(冗余能量)分成几类,每类有各自的拉普拉斯参数。

LDPCA解码端根据接收的校验位、已经得到的高比特平面和联合条件概率密度函数,利用置信传播(BP)算法对 WZ帧进行解码。在置信传播算法中,使用可信度传播,并且每个比特可信度基于信道模型和接收的比特。这种比特可信度的定义为 LLR(Lg-Likelihood [64]Ratio):

式中,i表示第i个值,b表示要解码的比特位,m表示比特位。

图 2.3 所示为在利用一个边信息的情况下,求条件概率的示例。在 LDPCA 开始解码时,只传一小部分校验位到解码端。如果解码失败,反馈信道要求编码端传输更多检验位,直到成功解码为止。图2.3 条件概率的示例

LDPCA 解码之后,能够得到 WZ 帧的量化 DCT 系数。由于该量化系数只代表了一种量化范围,需要通过一种重建方法得到更准确的值。这种重建方法利用边信息和相应的相关噪声模型得到更好的原始系数,2.2.2节将介绍这种最优的重建方法。最后,通过 IDCT 得到重建的WZ帧。2.2.2 最优重建

1.单一边信息的最优重建

文献[68]提出了一个边信息的最优重建表达式。假设信源和相应边信息的条件概率密度函数为,并且假定原始系数的量化范围为。原始系数的最优估计能通过最小均方误差(Minimal Mean-Squared Error,MMSE)得到,其计算公式为

式中,x和y分别为信源信息和边信息。

由式(2-2)可以看出,最优重建值是 x 在[z,z]中的质点。其ii+1中,条件概率密度函数具有拉普拉斯分布,其表达式为2

式中,α与拉普拉斯分布方差σ相关,。

由文献[63]可得,式(2-2)的近似表达式。当α=0时,也就是边信息和原始信息没有关系时,。由式(2-3)可以看出,当边信息和WZ帧更相关时,α的值更大。当α→∞时,可由下面的公式近似得到

2.两个边信息的联合条件概率密度函数及其最优重建

文献[64]提出在解码端利用多个边信息时,DVC 系统具有更高的编码效率。首先,看一下当DVC系统利用两个边信息时,其最优重建方法。假设这两个边信息分别是 y和 y,并且相应的条件概率密度12函数分别是和,这两个条件概率密度函数的表达式为1

式中,α和α分别由两个边信息估计得到。12

当在解码端利用两个边信息时,也可利用联合条件概率密度函数,文献[63]提出一种简单的平均方法,其表达式为

相应的最优重建x可通过下面的公式得到

上述方法的问题是这两个边信息具有相同的权重,在实际应用中,这两个边信息的质量肯定是不一样的。因此,文献[65]提出了一种线性权重的联合条件概率密度函数

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载