新一代高效视频编码H.265/HEVC:原理、标准与实现(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-05 09:27:57

点击下载

作者:万帅

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

新一代高效视频编码H.265/HEVC:原理、标准与实现

新一代高效视频编码H.265/HEVC:原理、标准与实现试读:

前言

视觉是人类感知世界最重要的方式。中文说“眼见为实”,英文强调“Seeing is believing”,人们总是更乐于接受所能看到的信息,因此人类的科技一直不懈地致力于为人们提供更多、更好的用于“看”的信息。黑白电视的发明曾经带给人们巨大的震撼,很快,人们对于色彩的天然渴望,又促使彩色电视出现。进入数字时代之后,数字视频更是紧随着IT技术的浪潮,获得了非常迅速的发展。追求更高的清晰度,是数字视频技术领域从未停止的步伐。如今,各式各样的视频应用已经渗透到人类社会的各个领域,可以说,视频应用是现代人类社会运转的重要组成部分。

作为一种数据量非常巨大的信息载体,视频若想获得实际应用,必须采取高效的数据压缩和编码。自20世纪80年代以来,国际标准化组织一直在持续研究视频编码方法,并根据当时整体技术水平,制定相应的视频编码国际标准。每一次视频编码国际标准的颁布,都会从很大程度上促进视频技术的发展,催生更多的视频应用。相应地,视频应用的不断涌现也为视频编码提出了更高的要求,进而推动着视频编码标准向更高的压缩效率不断挺进。

近年来,智能移动终端的普及使得视频应用越来越多样化,涉及的视频内容丰富多样,立体视频应用也开始获得人们的关注。此外,高清晰度的显示设备越来越常见,人们对视频分辨率的要求也随之水涨船高。虽然网络和存储技术也在快速发展,但是视频数据量增长的速度更为惊人,大有“道高一尺魔高一丈”的态势。尽管现有的视频编码标准特别是H.264/AVC具有出色的压缩性能,但是已明显不能满足新型视频应用的需求。在这样的背景下,国际电信联盟ITU—T与国际标准化组织ISO/IEC再次通力合作,于2013年发布了新一代的高效视频编码标准(High Efficiency Video Coding,HEVC,H.265)。H.265/HEVC包含着最新的视频编码技术,与它的前代H.264/AVC相比,H.265/HEVC在同样的编码质量下能够节约50%左右的码率。除了出色的压缩性能,H.265/HEVC还包含特有的并行处理设计,其软硬件实现将具有更好的实用性。因此,H.265/HEVC将于短期内迅速取代H.264/AVC,在各类视频业务中获得广泛的应用。

由于H.265/HEVC采用了大量编码新技术,相关标准的语法语义解读比较困难。本书作者根据自己长期研究视频编码的经验,对本书的内容进行了模块化的编排。在给出H.265/HEVC整体编码框架和其中的关键技术之后,针对H.265/HEVC的各个编码模块分别进行详尽分析。为方便读者理解,每个模块都包含了相应的背景知识、语法语义、实现方式等。全书分为12章。第1章概述了视频编码国际标准和H.265/HEVC的发展历程,介绍了H.265/HEVC的特色技术。第2章讨论了数字视频格式和H.265/HEVC的编码视频格式。第3章详细解析了H.265/HEVC编码结构以及参数集,并介绍了H.265/HEVC的档次、层和级别。第4~8章为H.265/HEVC编码技术的分模块论述和语法语义解析,包括预测编码、变换编码、量化编码、环路后处理和熵编码。第9~12章针对H.265/HEVC的实现和应用,详细介绍了H.265/HEVC的网络适配层、并行处理技术、率失真优化和编码速率控制。

本书可作为电子信息类和广播电视类本科高年级学生和研究生的相关课程教材,也可供视频技术研究领域内的研究生、教师、工程师参考,并适合相关技术人员作为解读H.265/HEVC标准的参考。

本书的撰写受国家自然科学基金“基于感知失真度量的高效视频编码(HEVC)率失真优化研究”(批准号61371089)的支持。感谢贺竞博士、李维博士、张泰、张新在本书撰写过程中在资料收集和内容整理方面做出的辛勤工作。由于时间有限,书中的论述难免出现疏漏,恳请广大读者批评指正。作者联系邮箱:swan@nwpu.edu.cn。作者2014年10月10日第1章绪论

视觉是人们感知和认知外部世界的主要途径。实验心理学家赤瑞特拉通过大量实验证实人类获得信息的80%以上都来自视觉。所以中文谚语讲“眼见为实”,英文谚语也强调“Seeing is believing”,都是符合科学事实的。正因为如此,在这个信息化的时代,与视觉相关的应用往往受到用户极大地青睐。通信、娱乐、军事侦察、抗震救灾等,人们总是希望看到相应的动态影像,即视频信息。数字视频在这些应用中扮演着关键性的角色。

然而,人们在实际应用中接触到的视频,都是压缩过的视频。这是因为未经压缩的原始视频其数据量是非常惊人的,根本无法直接用于实际的传输或存储。因此,视频应用的一项关键技术就是视频编码(Video Coding),也称视频压缩,其目的是尽可能去除视频数据中的冗余成分,减少表征视频的数据量。本章首先剖析视频压缩与编码的基本概念,进而简要介绍视频编码标准的发展历程。本章最后一部分针对本书所关注的新一代高效视频编码H.265/HEVC,从整体理念出发,给出其编码的基本架构和特征。1.1 视频压缩与编码概述1.1.1 视频

最初的视频信号是模拟的,最早是基于光电管及阴极射线管的电视系统产生的。但是模拟时代早已过去,如今我们所说的视频通常是指数字视频,从本质上讲是一系列内容连续的数字图像,按时间顺序排列而成。由于人眼有视觉暂留机理,连续播放的图像会形成平滑连续的视觉效果,当播放速度足够快时,人眼不再分辨出每一幅图像,而是在脑海中形成连续的视频。因此,图像是视频信号的基本单位。为了与静止图像相区别,视频中完整图像通常被称为帧(Frame),由许多帧按照时间顺序组成的视频也被称为视频序列(Video Sequence)。

视频序列中的每一幅图像,都是由N×M个像素(Pixel)组成的,每个像素都有具体的数值。因此,视频序列可以表示为三维矩阵,其中N×M这两个维度表示每幅图像的像素值,形成视频的空间域;另一个维度代表视频的时间域,如图1.1所示。这里需要注意的是,彩色的视频需要三个这样的矩阵,分别代表三个基本的色彩分量,或亮度和色度分量。此外,每秒播放的帧数目叫作帧率(Frame Rate),单位为fps。为了使人眼能够有平滑连续的感受,视频的帧率需要达到25~30fps以上。这部分内容将会在第2章进行详细介绍。这部分内容属于视频技术的基础,请参见文献[1]。

从上文的分析可以看出,原始视频的数据量是非常巨大的。以大家常见的标清电影视频格式(720P)为例,假设3个色彩分量的每个像素均以8比特表示,帧率为30fps,这样的每一秒的视频数据量达到1280×720×3×8×30=6.64×108比特。再大的硬盘,也存不了几部电影,更无法将原始视频数据在网络上进行传输。因此,视频应用的一项关键技术就是视频编码,也称视频压缩,其目的是尽可能去除视频数据中的冗余成分,减少压缩或编码后的数据量。图1.1 视频Football1.1.2 视频压缩与编码

视频压缩是一类特殊的数据压缩方法。数据是信息的载体,对于定量的信息,设法减少表达这些信息所用的数据量称为数据压缩。数据压缩通常分为无损压缩和有损压缩两大类。其中无损压缩是指数据经过压缩后,所携带的信息并没有损失,通过重建可以完全恢复原来的数据。无损压缩适用于数据需要严格完全重建的情形,常用于对文本文件、程序文件等进行压缩(例如压缩成的.zip或.rar的文本文件,在解压重建后与原文件应是完全相同的)。在某些特殊应用场合,也可以对音频或图像进行无损压缩,例如需要完美音质的音乐制作,用于精确诊断的医学图像,来之不易的遥感图像等。然而,受信源熵的限制,无损压缩的压缩率普遍不高,通常都在5:1以下,对于图像的无损压缩来说,压缩率以3:1左右最为常见[2],[3]。对于海量的原始视频数据来说,这样的压缩率是远远不够的,因此在绝大多数情况下,视频压缩都采用有损压缩的方式。

有损压缩以引入一定失真为代价,换取更高的压缩比。能够应用有损压缩的条件是人们对于引入的失真“无法察觉”或者“可以接受”。有损压缩的典型应用对象就是用于人类认知的音频、图像和视频。这是由于对于人耳或者人眼来说,丢掉某些信息是很难察觉的。例如,图像中往往包含着许多细节,这些细节在频域里表现为大量的高频信息。而人眼对于细节或者高频信息并不敏感,在压缩时丢掉部分高频信息可能并不会被人眼察觉。以图1.2所示的图像为例,图1.2(a)经过压缩比为8:1的有损压缩获得图1.2(b),这二者在视觉上差别较小。此外,即使压缩产生的失真能够被人感知到,但是如果不会影响人们对视频内容的理解,人们也通常愿意接受质量稍差的音、视频或者图像,以获取较高的压缩比。例如,对比图1.2(d)与图1.2(a),能够明显看出字迹的模糊,但并不影响人们对于图像内容的理解;而此时,我们能够获得更大的压缩比(64:1)。在音视频和图像压缩算法中,大量利用了人类的感知特性,尽可能使压缩产生的失真发生在人不容易察觉到的地方。总的来说,有损压缩能够获得比无损压缩高出许多的压缩比,然而,世上没有免费的午餐,其代价就是必然在质量上产生损失。图1.2 图像的有损压缩(JPEG 2000)

为了获得较高的压缩率,视频通常采用有损压缩,即以损失一定质量的代价获取高压缩比。此时衡量压缩算法性能优劣与两个参数有关:码率和失真。有损压缩追求的是,在质量损失一定下获得最高的压缩比(最低的码率);或者在码率一定的条件下,视频的质量最好。对于视频来说,还应当考虑视频在时间域的质量,也就是帧率的变化。视频的时间域失真常见于网络视频传输的场景,传输中的视频数据遇到带宽变化,容易在接收端产生停顿等令人观看不适的现象。

虽然近年来信息技术发展非常迅速,有线与无线网络的带宽都在不断提高,各类存储器的容量也在不断增长,但是与此同时,人们对于视频源保真度的要求也越来越高。如今,高清视频日渐普及,存储容量与网络带宽的增长始终无法满足人们对于存储和传输高分辨率视频的要求。因此,视频压缩与编码技术的进步和革新始终没有停歇。

在中文里,“视频压缩”和“视频编码”两个词常常被认为是等同的,被广泛交替使用。无论是视频压缩还是视频编码,通常都是指采用预测、变换、量化和熵编码等方式,尽可能减少视频数据中的冗余,使用尽可能少的数据来表征视频。但是从严格意义上讲,二者存在着细微的差别。视频压缩是“目的”,视频编码则更强调“手段”和“方法”。因此在讨论视频压缩的方法时,国际上通常采用“视频编码”这一说法,相应的标准也被称为“视频编码标准”。因此按照国际惯例,本书中均使用“视频编码”的说法。1.2 视频编码标准

各式各样的视频应用从一开始就催生了多种视频编码方法。为了使编码后的码流能够在大范围内互通和规范解码,从20世纪80年代起,国际组织开始对视频编码建立国际标准。视频编码的国际标准通常代表着同时代最先进的视频编码技术。2006年,我国也形成了具有自主知识产权的视频编码标准AVS(Audio Video coding Standard)。目前国际上最新的视频编码标准就是本书所介绍的H.265/HEVC。1.2.1 什么是视频编码标准

值得注意的是,视频编码标准只是规定了编码码流的语法语义和解码器,只要求视频编码后的码流符合标准的语法结构,解码器就可以根据码流的语法语义进行正常解码。因此,符合某个视频编码标准的编码器是有很大自由度的,只要编码后的码流符合标准的规定即可。

在编码器输出的码流中,数据的基本单位是语法元素,每个语法元素由若干比特组成,它表征了某个特定的物理意义,如预测类型、量化参数等。视频编码标准的语法规定了各个语法元素的组织结构,而语义则阐述了语法元素的具体含义。编码器输出的比特码流中,每比特都隶属于某个语法元素,每个语法元素在标准中都有相应的解释。可见,视频编码标准规定了编码后码流的语法语义,也就阐明了从比特流提取语法元素并进行解释的方法,也就是视频的解码过程。

然而,在编码标准的制定过程当中,为了确定如何对语法元素进行合理的设计,首先要明确该标准所支持的编码方式,以及相应可能出现的编码方法。在标准的制定过程中,标准化组织会向业界广泛征集各类提案。这些提案当中,包含了大量编码新技术的设计,并会逐渐形成标准组织发布的参考软件(Reference Software),这些参考软件通常包含一整套标准的编解码器。由于参考软件的开发凝聚了广大科研人员的新思路,并且经过标准提案的多种性能测试,参考软件中的编码方法往往代表了当时先进的编码技术。因此,标准发布的参考软件不仅可用于标准开发过程中的测试和研究,也常常被科研人员作为研究先进视频编码的方法和平台,甚至作为商业开发的基础和参考。

目前,国际上制定视频编码标准的两大组织分别是国际电信联盟电信标准化部门(International Telecommunication Union-Telecommunication Standardization Sector,ITU-T[4])与国际标准化组织(International Organization for Standardization,ISO)/国际电工委员会(International Electrotechnical Commission,IEC)。ITU-T制定的视频编码标准通常被称为H.26X系列,包括H.261、H.263(H.263+、H.263++)等,这些标准被广泛应用于基于网络传输的视频通信,例如可视电话、会议电视等。ISO/IEC的动态图像专家组(Moving Picture Experts Group,MPEG)制定了大名鼎鼎的MPEG系列视频编码标准,主要应用于视频存储(例如VCD/DVD)、广播电视、网络流媒体等。值得一提的是,这两个组织曾经有过两次非常成功的合作。ITU-T与ISO/IEC在视频编码标准中的首次合作形成了H.262/MPEG—2标准,成为风靡一时的DVD的核心技术。2003年二者再次携手,开发了H.264/AVC视频编码标准,涵盖了包括视频广播、视频存储、交互式视频等各式各样的视频应用。新一代视频编码标准H.265/HEVC同样由ISO/IEC的MPEG和ITU-T的视频编码专家组(Video Coding Experts Group,VCEG)联合制定。1.2.2 视频编码国际标准的发展

视频编码的国际标准化过程始于20世纪80年代早期,至今已经走过了30个年头。图1.3给出了视频编码国际标准的发展历程。从这张图中我们可以看出,两大国际标准组织对于视频编码标准的制定过程,通常都是5~7年,H.265/HEVC也不例外。早期视频编码标准的制定时间有明显的交叠,但是在H.265/HEVC出现之前,H.264/AVC占据了相当长时间的主导地位。这是因为H.264/AVC诞生之后,国际标准组织围绕它进行了可伸缩视频编码(Scalable Video Coding,SVC)和多视点视频编码(Multiview Video Coding,MVC)等扩展。我国于2002年6月由原信息产业部科学技术司成立了“数字音视频编解码技术标准工作组”(简称AVS工作组),制定具有自主知识产权的第二代信源编码标准音视频编码标准AVS。2006年2月国家标准化管理委员会(英文简称SAC)颁布通知:《信息技术先进音视频编码》第2部分视频于2006年3月起实施,AVS视频部分正式成为国家标准。随着广电高清数字广播的发展,2012年3月工业和信息化部电子信息司与国家广播电影电视总局科技司联合发文共同成立“AVS技术应用联合推进工作组”,同年7月国家广电总局(英文简称SARFT)正式颁布广电行业标准《广播电视先进音视频编解码第1部分:视频》(AVS+)。目前,AVS+的下一代AVS2正在标准化进程中。

1. H.26X系列标准(1)H.261标准。

H.261标准[5]是1990年ITU-T制定的一个数字视频编码标准,其设计的目的是能够在带宽为64 kbit/s的倍数的综合业务数字网(Integrated Services Digital Network,ISDN)上传输质量可接受的视频信号,它被称为一种p×64 bit/s编解码器(p=1~30)。此时H.261主要针对的应用是基于ISDN的视频通信,如可视电话、视频会议等。图1.3 视频压缩标准的发展历程

由于世界各国采用的电视制式不同,主要有PAL(Phase Alternating Line)和NTSC(National Television System Committee)两大类,要在这些国家之间建立可视电话或视频会议业务,是不能直接使用电视信号进行传输的。因此H.261提出一种通用中间格式的视频(Common Intermediate Format,CIF)来解决上述问题。CIF格式视频的空间分辨率为352×288,帧率为30fps,可以很方便地转化为PAL和NTSC制式的电视信号。另外,H.261也可处理QCIF(Quarter CIF,分辨率为176×144)的视频,主要面对的是更低带宽下视频传输的应用。

H.261标准主要采用的编码方法包括基于运动补偿的帧间预测、离散余弦变换(Discrete Cosine Transform,DCT)、量化、zig-zag扫描和熵编码等。这些编码技术组合在一起就形成了沿用至今的混合编码(Hybrid Coding)框架,可以认为H.261标准是混合编码标准的鼻祖。(2)H.263标准。

H.263标准[6]由ITU-T制定,最初是针对低码率的视频会议应用而设计的。后期应用证明,H.263视频编码并不局限于低码率传输环境,而适用于很大的动态码率范围。H.263标准最初为H.324系统设计,进而成功应用于基于H.323的视频会议系统,以及基于H.320、RTSP(Real Time Streaming Protocol)和SIP(Session Initiation Protocol)的视频通信系统。

H.263标准仍然以混合编码框架为核心,其基本原理、原始数据和码流组织都与H.261十分相似。同时,H.263也吸收了MPEG等其他一些国际标准的技术,如半像素精度的运动估计、PB帧预测、无限制运动矢量和8×8块的帧间预测等。通过使用这些当时最为先进的编码技术,H.263的编码性能有了革命性的提高。当时,H.263标准在所有的测试码率下性能均优于H.261。在很长一段时间里,H.263标准是各大相关厂商必须支持的标准之一。

在H.263的发展中,出现了两个具有增强功能的改进版本,分别是H.263+标准[7]和H.263++标准[8]。H.263+标准也叫作H.263v2。相比H.263标准,H.263+允许更多的图像输入格式,拓宽了视频编码的范围;采用了帧内预测及去块效应滤波,提高了压缩效率;增加了时间分级、信噪比和空间分级,提高了视频信号传输的有效性,增强了视频传输的抗误码能力。

H.263++(也称H.263v3)在H.263+的基础上增加了附加选项(Annex)U(增强型参考帧选择)、V(数据分片)和W(补充信息)来提高码流的抗出错性能(Error Resilience),这些措施同时也提高了编码效率。(3)H.264标准。

H.264标准[9]是由ITU-T的VCEG和ISO/IEC的MPEG组成的联合视频组(Joint Video Team,JVT)共同开发的数字视频编码标准,也称ITU-T H.264建议和MPEG—4第10部分先进视频编码(Advanced Video Coding,AVC)标准,即H.264/AVC。

H.264/AVC标准仍然沿用了混合编码的理念,在此框架下支持了许多先进的编码技术,例如,具有方向性的帧内预测、多参考帧运动补偿、灵活分块的运动补偿、可用于预测的B帧、4×4及8×8整数DCT变换、环路去方块滤波和自适应熵编码等。H.264/AVC标准还提供了一系列增强视频编码鲁棒性的方式,例如数据分割、灵活宏块顺序等。这些编码方式均在H.264/AVC标准中的视频编码层(Video Coding Layer,VCL)进行规定。除VCL之外,H.264/AVC标准还定义了网络抽象层(Network Abstraction Layer,NAL),通过NAL单元,将H.264/AVC VCL的码流数据与下层传输协议有机“黏合”。

由于采用了先进的编码技术,H.264/AVC获得了远远超越以往标准的编码性能。在相同重建视频质量的条件下下,H.264/AVC比H.263+和MPEG—4(SP)减小了50%的码率。同时,H.264/AVC具有非常好的网络适配性和抗出错性能,因此非常适用于各类交互式网络视频应用。H.264/AVC的优秀压缩性能也保证了它在视频存储、广播和流媒体等领域的广泛应用。不过,这些优秀的性能都来自复杂的编码方法,因此H.264/AVC的复杂度也较以往编码标准高出许多。

2. MPEG系列标准(1)MPEG—1标准。

MPEG—1标准[10]是MPEG制定的第一个视频和音频有损压缩标准,也是最早推出及应用在市场上的MPEG技术,其原来的主要目标是针对数字存储媒体(如CD光盘),记录活动图像及其伴音的编码方式。MPEG—1标准后来成为了影音光碟VCD(Video CD)的核心技术,其数据压缩输出速率定位为1.5 Mbit/s,在这个码率下它的编码质量与传统录像机相当。由于编码能力的限制,MPEG—1标准对运动较大的视频信号进行编码会产生“马赛克”现象,因此较为适用于运动适中或较慢的视频内容。MPEG—1标准可以实现传统磁带式录像机的各项功能,包括存取功能、正放、快进、快退和慢放等功能,曾成功应用于卡拉OK、VCD影音光碟以及视频点播(Video on Demand,VOD)等多种音像系统。(2)MPEG—2标准。

MPEG—2标准[11]是继MPEG—1之后由MPEG推出的音视频编码标准,于1994年面世。MPEG—2的应用范围包括卫星电视、有线电视等,经过少量修改后,也成为广为人知的DVD产品的核心技术。上文曾经提到,MPEG—2视频编码标准(即MPEG—2标准第2部分)事实上是由MPEG和ITU-T联合制定的,ITU-T的H.262与MPEG—2视频编码标准是完全相同的。不过,MPEG—2是人们更为熟悉的名称。

比较特别的是,MPEG—2视频编码标准中开始引入了档次(Profile)和等级(Level),能够针对不同应用要求进行编码模式的选择。MPEG—2按编码图像的分辨率分成四个“等级”,按不同的编码复杂程度分成五个“档次”。“等级”与“档次”的若干组合构成MPEG—2视频编码标准在某种特定应用下的子集:对某一输入格式的图像,采用特定集合的压缩编码工具,产生规定速率范围内的编码码流。(3)MPEG—4标准

MPEG—4标准[12]在1998年11月被ISO/IEC正式批准,于1999年被正式命名为ISO/IEC14496国际标准。相比于MPEG—1和MPEG—2,MPEG—4涵盖的内容非常丰富,它包括多达31个部分(Parts)。MPEG—4的不同部分分别定义了系统、音视频编码、多媒体传输集成框架、知识产权管理、动画框架扩展和3D图形压缩等内容,其中第10部分就是大名鼎鼎的H.264/AVC。MPEG—4支持面向对象编码,面向的应用包括数字电视、动画、影音合成、网页浏览和交互式多媒体等。它将众多多媒体应用集成于一个完整框架内,旨在为各类多媒体通信及应用环境提供标准算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。1.3 H.265/HEVC简介1.3.1 标准化历程

近年来,随着高清、超高清视频(分辨率达4K×2K、8K×4K)应用逐步走进人们的视野,视频压缩技术受到了巨大的挑战。此外,各式各样的视频应用也随着网络和存储技术的发展不断涌现。如今,数字视频广播、移动无线视频、远程监测、医学成像和便携摄影等,都已走进人们的生活。视频应用的多样化和高清化趋势对视频压缩性能提出了更高的要求。为此,2010年4月VCEG和MPEG再次组建视频编码联合组(Joint Collaborative Team on Video Coding,JCT-VC),联手制定新一代视频编码标准——H.265/HEVC[13]。

2010年1月,JCT-VC成立,负责组织新一代视频编码标准的研发和制定,并正式开始征集提案[14]。

2010年4月在德国德累斯顿召开了JCT-VC第一次会议,确定新一代视频编码标准名称为HEVC(High Efficiency Video Coding),成立了AD HOC小组,分领域收集和审阅技术提案[15]。JCT-VC确定HEVC的核心目标是在H.264/AVC High Profile的基础上,将压缩效率提高一倍。即在保证相同视频图像质量的前提下,视频流的码率减少50%。在提高压缩效率的同时,允许编码端适当提高复杂度。

2010年6月在瑞士日内瓦召开了JCT-VC第二次会议,进一步对第一次会议中提出的编码工具进行测试与评估,并制定下次会议之前开展的测试计划[16]。

2010年10月的JCT-VC第三次会议公布了第一份HEVC工作草案说明[17],并在会后发布了正式的测试模型HM(HEVC Model)[18]。测试模型第一版本HM1.0于2011年1月14日正式发布。

在随后的第四次至第七次会议上,JCT-VC不断地对新的编码工具和算法进行研究和改进,并且发布了HEVC第二版至第五版工作草案以及测试软件HM2.0、HM3.0、HM4.0、HM5.0[19]~[22]。

2012年2月的第八次会议上,JCT-VC发布了具有里程碑意义的HEVC特别委员会草案(HEVC Specification Committee Draft)[23],标志着VCEG和MPEG两大组织在合作开发新一代高性能视频编码标准的工作中取得了里程碑式的进展。随后在会议后发布了测试模型的第六个版本HM6.0,用于后续HEVC特别草案的进一步完善。

2012年5月25日,JCT-VC宣布在10月进行HEVC可分级视频编码(也称可伸缩视频编码,SVC)的性能评估,意味着HEVC将支持SVC。6月26日,MPEG LA宣布将进行HEVC专利的联合注册。

2012年7月,以第八次工作组草案说明的HEVC国际标准草案获得通过。

2013年1月25日,ITU-T宣布HEVC初步获得批准,同一天MPEG宣布HEVC被提交至国际标准最终草案状态。

2013年4月13日H.265/HEVC被ITU-T正式接受为国际标准,并于2013年4月18日在其网站上预发布。

2013年6月7日,ITU-T网站上正式发布了了H.265/HEVC标准,该标准可以免费下载[24]。2013年11月25日,ISO/IEC正式发布了H.265/HEVC标准[25]。

标准发布之后,相关标准的进一步工作仍然在继续。JCT-VC现有的工作主要集中在就H.265/HEVC的扩展内容进行完善,如更高的比特深度、4:2:2、4:4:4色度采样视频、可伸缩HEVC编码(Scalabe HEVC,SHVC)和多视角立体编码等[26]。1.3.2 编码框架

从根本上来说,H.265/HEVC视频编码标准的编码框架并没有革命性的改变。类似于以往的国际标准,H.265/HEVC仍旧采用混合编码框架,如图1.4所示,包括变换、量化、熵编码、帧内预测、帧间预测以及环路滤波等模块[13]。但是,H.265/HEVC几乎在每个模块都引入了新的编码技术。图1.4 H.265/HEVC视频标准编码框架

1. 帧内预测

该模块主要用于去除图像的空间相关性。通过编码后的重构块信息来预测当前像素块以去除空间冗余信息,提高图像的压缩效率。与以往的标准相比,H.265/HEVC支持更多的帧内预测模式。

2. 帧间预测

该模块主要用于去除图像的时间相关性。帧间预测通过将已编码的图像作为当前帧的参考图像,来获取各个块的运动信息,从而去除时间冗余,提高压缩效率。在H.265/HEVC中,帧间预测可采用单向和双向的参考图像来进行预测,包括类似H.264/AVC中分层B帧的预测结构。

3. 变换量化

该模块通过对残差数据进行变换量化以去除频域相关性,对数据进行有损压缩。变换编码将图像从时域信号变换至频域,将能量集中至低频区域。量化模块可以减小图像编码的动态范围。变换编码和量化模块从原理上属于两个相互独立的过程,但是在H.265/HEVC中,两个过程相互结合,减少了计算复杂度。

4. 去方块滤波

在基于块的视频编码中,形成的重构图像会出现方块效应,采用去方块滤波可达到削弱甚至消除方块效应的目的,提高图像的主观质量和压缩效率。H.265/HEVC仍然是基于块的视频编码,因此延续了环内去方块滤波的思路。

5. 样点自适应补偿

样点自适应补偿(Sample Adaptive Offset,SAO)滤波处于去方块滤波之后,通过解析去方块滤波后的像素的统计特性,为像素添加相应的偏移值,可以在一定程度上削弱振铃效应,提高图像的主观质量和压缩效率。这是H.265/HEVC新增的一项编码方式。

6. 熵编码

该模块将编码控制数据、量化变换系数、帧内预测数据以及运动数据等编码为二进制流进行存储或传输。熵编码模块的输出数据即原始视频压缩后的码流。H.265/HEVC中采用先进的基于上下文的自适应二进制算术编码(CABAC)进行熵编码,引入了并行处理架构,在速度、压缩率和内存占用等方面均得到了大幅改善。1.3.3 特色编码技术

相比于以往的视频编码标准,H.265/HEVC的编码性能有了很大的提升,这源于新编码工具的使用以及自身具有特色的核心技术。H.265/HEVC中新的编码技术有很多,例如基于四叉树的灵活块分割结构[27],[28]、不同角度的帧内预测模式[29]~[32]、自适应的运动矢量预测AMVP、合并技术Merge、可变尺寸的离散余弦变换、模式依赖的离散正弦变换[33]、性能更好的CABAC[34],以及新的样点自适应补偿滤波器[35]等。

1. 编码单元

H.264/AVC标准中的核心编码单元是宏块,包含一个16×16的亮度块采样,对于一般的视频信源(如YUV 4:2:0)而言,会伴随两个8×8的色度块采样。由于高分辨率视频业务的自身特性,基于传统宏块的编码方式具有很大的局限性。因此,H.265/HEVC采用了编码树单元(Coding Tree Unit,CTU)和编码树块(Coding Tree Block,CTB)。H.265/HEVC中CTU的概念类似于传统的宏块,但它的大小是可以由编码器设定的,并且可以超越16×16。一个CTU由一个亮度CTB、两个色度CTB和一些关联的语法元素组成。

为更灵活有效地表示视频内容,H.265/HEVC为图像的划分定义了一套全新的分割模式,包括编码单元(Coding Unit,CU)、预测单元(Prediction Unit,PU)和变换单元(Transform Unit,TU)[36]。这种特性有助于编码器根据视频内容特性、视频应用和终端的特性来自适应地选择编码模式。

CTU中的四叉树确定了亮度和色度CB的大小和位置,四叉树的根节点与CTU关联。亮度CB最大可以支持到亮度CTB的大小。把CTU划分成亮度CB和色度CB的过程是一体的。一个亮度CB、两个色度CB和关联的语法元素构成一个CU。一个CTB可以只包含一个CU,也可以包含几个CU,每一个CU都有一个分区关联的PU和一个TU。

预测单元PU是帧内预测、帧间预测的基本单元,PU的划分包括4种对称结构:2N×2N,2N×N,N×2N以及N×N。另外,还有4种非对称结构:2N×nU,2N×nD,nL×2N以及nR×2N。

变换单元TU可采用4×4~32×32大小的离散余弦变换,此外还支持4×4的离散正弦变换。大尺寸离散余弦变换是H.265/HEVC视频编码标准中提升编码效率的重要技术之一,在H.264/AVC中仅采用了4×4/8×8的DCT变换,而在H.265/HEVC标准中DCT变换的最大尺寸为32×32,这种大尺寸变换单元的选择可以使编码器在处理高分辨率画面中经常出现平坦区域时能够更好地提高压缩率。

2. 改进的帧内预测技术

在H.264/AVC中,基于4×4大小的编码块采用9种预测模式,基于16×16大小的编码块采用4种预测模式。考虑高清视频纹理的多样性,只采用H.264/AVC中提供的几种帧内预测模式是远远不够的。为了更准确地反映纹理特性,降低预测误差,H.265/HEVC提出了更为精确的帧内预测技术。对于亮度信号,H.265/HEVC共提供了35种帧内预测模式,包括33种角度预测以及DC预测模式和Planar预测模式。增加的预测模式可以更好地匹配视频中复杂的纹理,得到更好的预测效果,更加有效地去除空间冗余。

3. 先进的帧间预测技术

为了提升帧间预测性能,在H.265/HEVC中引入了新的帧间预测技术,包括运动信息融合技术(Merge)、先进的运动矢量预测技术(Advanced Motion Vector Predictor,AMVP)以及基于Merge的Skip模式。Merge技术利用空域相关性和时域相关性来减少相邻块之间的运动参数冗余,具体来说,就是取其相邻PU的运动参数作为当前PU的运动参数。AMVP技术的作用与Merge技术类似,也是利用空域相关性和时域相关性来减少运动参数的冗余。AMVP技术得到的运动矢量一方面为运动估计提供搜索起点,另一方面作为预测运动矢量使用。

4. RQT技术

RQT(Residual Quad-tree Transform)技术是一种基于四叉树结构的自适应变换技术,它为最优TU模式选择提供了很高的灵活性。大块的TU模式能够将能量更好地集中,小块的TU模式能够保存更多的图像细节。根据当前CU内残差特性,自适应选择变换块大小,可以在能量集中和细节保留两者做最优的折中。与传统的固定块大小变换相比,RQT对编码效率贡献更大。

5. ACS技术

ACS(Adaptive Coefficient Scanning)包括三类:对角扫描、水平扫描和垂直扫描[37]。ACS技术是基于4×4块单元进行的,将一个TU划分为多个4×4块单元,每个4×4块单元内部以及各个4×4块单元之间都按照相同的扫描顺序进行扫描。对于帧内预测区域的4×4和8×8尺寸的TU,其根据所采用的帧内预测方向来选择扫描方法:当预测方向接近水平方向时就选用垂直扫描,当预测方向接近垂直方向时就选用水平扫描,对于其他预测方向使用对角扫描。对于帧间预测区域,无论TU尺寸多大都使用对角扫描方式。

6. SAO技术

图像经过编码后,重构图像的失真不仅存在方块效应,还存在振铃效应。H.265/HEVC引入了一种新的滤波方法:像素自适应补偿技术(SAO)。SAO位于去块效率滤波器之后,用于补偿重构像素值,达到减少振铃效应失真目的。SAO分为边缘补偿(EO)和带状补偿(BO)两种方式。

7. IBDI技术

IBDI(Internal Bit Depth Increase)技术是指在编码器的输入端将未压缩图像像素深度由P比特增加到Q比特(Q>P),在解码器的输出端又将解压缩图像像素深度从Q比特恢复到P比特。IBDI技术提高了编码器的编码精度,降低了帧内/帧间预测误差。但由于要建立参考队列,像素深度为Q比特的重构图像须占较大的内存空间。此外,在进行帧间运动估计和补偿时,需要较多的内存访问带宽,这样会给内存受限的系统带来不便。解决的办法是引入参考帧压缩算法,来减小重构图像的数据量。参考文献

[1] 谈新权,邓天平. 视频技术基础[M]. 武汉:华中科技大学出版社,2004.

[2] J. A. Saghri, A. Tescher. “Near-lossless bandwidth compression for radiometric data,” Optical Engineering, Vol.30, No.7, pp.934-939, July. 1991.

[3] J. A. Saghri, A. Tescher, J. T. Reagan. “Practical transform coding of multispectral imagery,” IEEE Signal Processing Magazine, Vol.12, No.1, pp.32-43, Jan. 1995.

[4] Codecs for videoconferencing using primary digital group transmission, ITU-T Recommendation H.120, Geneva, Mar. 1993.

[5] Video codec for audiovisual services at p×64 kbit/s, ITU-T Recommendation H.261, Geneva, 1990.

[6] Video coding for low bitrates communication, ITU-T Recommendation H.263, Version 1, Geneva, 1996.

[7] Video coding for low bitrates communication, ITU-T Recommendation H.263, Version 2(H.263+), Geneva, 1998.

[8] Draft for ‘H.263++’annexes U, V, and W to recommendation H.263, ITU-T/SG16/Q15 and ITU-T, Geneva, 2000.

[9] 毕厚杰. 新一代视频压缩编码标准—H.264/AVC. 北京:人民邮电出版社,2005.

[10] Information technology-coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s, in part 2: Video, ISO/IEC 11172-2 (MPEG—1), ISO/IEC JTC1/SC29/WG11, and ISO/IEC, Geneva, 1991.

[11] Information technology-Generic coding of moving pictures and associated audio, in part 2: Video, ISO/IEC 13818-2 (MPEG—2), ITU-T Recommendation H.262, ISO/IEC JTC1/SC29/WG11, ISO/IEC and ITU-T, Geneva, 1994.

[12] Information technology-Generic coding of audio-visual objects, in Part 2: Visual, Draft ISO/IEC 14496-2 (MPEG—4), version 1, ISO/IEC, Geneva, 1998.

[13] G. J. Sullivan, J. Ohm, W. J. Han, et al. “Overview of the high efficiency video coding (HEVC) standard,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.22, No.12, pp.1649-1668, Dec. 2012.

[14] Joint call for proposals on video compression technology, ITU-T SG16/Q6 Document VCEG-AM91 and ISO/IEC MPEG Document N11113, Jan. 2010.

[15] Test model under consideration, ITU-T/ISO/IEC JCT-VC Document JCTVC-A205, Apr. 2010.

[16] K. McCann. Tool experiment 12: Evaluation of TMuC tools, ITU-T/ISO/IEC JCT—VC Document JCTVC-B312, Jul. 2010.

[17] T. Wiegand, W.J. Han, B. Bross, et al. Working Draft 1 of High Efficiency Video Coding, ITU-T/ISO/IEC JCT-VC Document JCTVC-C402, Oct. 2010.

[18] K. McCann, B. Bross, S. Sekiguchi, et al. Encoder-side description of HEVC test model (HM), ITU-T/ISO/IEC JCT-VC Document JCTVC-C402, Oct. 2010.

[19] T. Wiegand, W. J. Han, B. Bross, et al. WD2: Working draft 2 of high-efficiency video coding, ITU-T/ISO/IEC JCT-VC Document JCTVC-D503[R], Jan. 2011.

[20] T. Wiegand, W. J. Han, B. Bross, et al. WD3: Working draft 3 of high-efficiency video coding, ITU-T/ISO/IEC JCT-VC Document JCTVC-E603[R], Mar. 2011.

[21] B. Bross, W. J. Han, J. R. Ohm, et al. WD4: Working draft 4 of high-efficiency video coding, ITU-T/ISO/IEC JCT-VC Document JCTVC-F803[R], July. 2011.

[22] B. Bross, W. J. Han, J. R. Ohm, et al. WD5: Working draft 5 of high-efficiency video coding, ITU-T/ISO/IEC JCT-VC Document JCTVC-G1103[R], Nov. 2011.

[23] B. Bross, W. J. Han, J. R. Ohm, et al. High efficiency video coding (HEVC) text specification draft 6, ITU-T/ISO/IEC JCT-VC Document JCTVC-H1003[R], Feb. 2012.

[24] High efficiency video coding, ITU-T Recommendation H.265 and ISO/IEC 23008-2 (HEVC), ITU-T and ISO/IEC JTC 1, Apr. 2013.

[25] ISO/IEC 23008-2:2013, International Organization for Standardization. 2013-11-25.

[26] https://hevc.hhi.fraunhofer.de/

[27] “Samsung’s response to the call for proposals on video compression technology,” ITU-T/ISO/IEC JCT-VC Document JCTVC-A124, 2010.

[28] W. J. Han, J. Min, K. Il-Koo, et al.,“Improved video compression efficiency through flexible unit representation and corresponding extension of coding tools,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.20, No.12, pp.1709-1720, Dec. 2010.

[29] “Description of video coding technology proposal by Tandberg, Nokia, Ericsson,” ITU-T/ISO/IEC JCT-VC Document JCTVC-A119, Apr. 2010.

[30] “Unification of the directional intra prediction methods in TMuC,” ITU-T/ISO/IEC JCT-VC Document JCTVC-B100, July. 2010.

[31] L. Jani, B. Frank, H. Woo-Jin, et al. “Intra coding of the HEVC standard,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.22, No.12, pp.1792-1801, Dec. 2012.

[32] L. Jani, U. Kemal. “Angular intra prediction in high efficiency video coding (HEVC),” the 13th International Workshop on Multimedia Signal Processing, Hangzhou, Oct. 2011.

[33] C. Yeo, Y. H. Tan, Z. Li, et al. “Mode-dependent transforms for coding directional intra prediction residuals,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.22, No.4, pp.545-554, Apr. 2012.

[34] S. Vivienne, B. Madhukar. “High Throughput CABAC Entropy Coding in HEVC,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.22, No.12, pp.1778-1791, Dec. 2012.

[35] C.-M. Fu, A. Elena, A. Alexander, et al. “Sample adaptive offset in the HEVC standard,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.22, No.12, pp.1755-1764, Dec. 2012.

[36] K. Il-Koo, M. Junghye, Lee Tammy, et al. “Block Partitioning Structure in the HEVC Standard,” IEEE Transactions on Circuits and

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载