新一代高效视频编码技术(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-20 08:51:16

点击下载

作者:卓力 张菁 李晓光 著

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

新一代高效视频编码技术

新一代高效视频编码技术试读:

前言

第1章 视频格式和质量评价

1.1 图像与视频

1.2 彩色空间

1.2.1 RGB彩色空间

1.2.2 YCbCr彩色空间

1.2.3 HSV彩色空间

1.3 抽样格式

1.4 视频格式

参考文献

第2章 视频质量评价

2.1 引言

2.2 视频失真

2.2.1 块效应

2.2.2 模糊效应

2.2.3 振铃效应

2.2.4 噪声

2.3 主观质量评价

2.3.1 测试条件

2.3.2 测试方法

2.3.3 评分类型

2.3.4 主观质量评价方法

2.4 客观质量评价

2.4.1 FR评价标准

2.4.2 NR评价方法

参考文献

第3章 视频编码技术基础

3.1 预测编码

3.2 变换编码

3.2.1 正交变换

3.2.2 K-L变换

3.2.3 离散余弦变换

3.2.4 小波变换

3.3 熵编码

3.4 矢量量化

3.5 混合编码

参考文献

第4章 人眼视觉系统特性

4.1 视觉信息处理的基本机理

4.1.1 视觉感官

4.1.2 视觉通路

4.1.3 视觉中枢

4.1.4 视觉感知

4.2 感兴趣区的人眼视觉系统特性

4.2.1 视觉感兴趣区

4.2.2 视觉掩盖效应

4.3 人眼的视觉注意特性

4.3.1 视觉注意机制

4.3.2 视觉注意模型

4.4 基于视觉注意模型的压缩域感兴趣区检测方法

4.4.1 压缩域视觉显著图提取

4.4.2 视觉注意焦点的选择与转移

4.4.3 压缩域感兴趣区域检测

4.4.4 实验结果及分析

4.5 本章小结

参考文献

第5章 码率控制

5.1 码率控制基本原理

5.2 码率控制模式

5.2.1 恒定码率模式

5.2.2 可变码率模式

5.3 码率控制理论

5.3.1 率失真函数

5.3.2 几种经典的率失真模型

5.4 视频标准中的码率控制算法

5.4.1 VM5码率控制算法

5.4.2 RM8码率控制算法

5.4.3 TMN8码率控制算法

5.4.4 TM5码率控制算法

5.4.5 H.264码率控制算法

5.5 基于H.264的帧层码率控制算法

5.5.1 H.264率失真曲线

5.5.2 H.264率失真模型

5.5.3 基于率失真模型的码率控制

5.5.4 实验结果及分析

参考文献

第6章 H.264/AVC视频编码新技术

6.1 H.264/AVC视频编码基本框架

6.2 基于行的H.264/AVC帧内预测编码

6.2.1 隐式的基于行的帧内预测

6.2.2 实验结果

6.3 H.264/AVC中可变位深的8×8整型变换和量化编码

6.3.1 H.264/AVC中的8×8整型变换

6.3.2 H.264/AVC的量化和缩放

6.4 基于无损视频信号统计特性的H.264/AVC自适应熵编码器设计

6.4.1 无损编码中残差数据的统计特性

6.4.2 改进的CAVLC方法

6.4.3 改进的CABAC方法

6.4.4 实验结果及分析

6.5 H.264视频编码的并行可扩展性

6.5.1 H.264中的并行计算

6.5.2 GOP级并行计算

6.5.3 帧级并行计算

6.5.4 片级并行计算

6.5.5 宏块级并行计算

6.5.6 空间域宏块级并行计算

6.5.7 时间域宏块级并行计算

参考文献

第7章 H.264/SVC可扩展视频编码

7.1 引言

7.2 H.264/SVC编码框架

7.2.1 时间可扩展性

7.2.2 空间可扩展性

7.2.3 SNR可扩展性

7.3 H.264 SVC编码性能评估

7.3.1 时间可扩展性

7.3.2 空间可扩展性

7.3.3 SNR可扩展性

7.3.4 其他特点

7.3.5 预处理滤波

参考文献

第8章 HEVC视频编码标准

8.1 HEVC标准的结构

8.1.1 档次、级别和层

8.1.2 视频格式

8.1.3 条带和分片

8.2 HEVC的基本编码框架

8.2.1 HEVC基本编码框架

8.2.2 HEVC的编码单元和编码结构

8.3 HEVC关键技术

8.3.1 帧内预测

8.3.2 帧间预测

8.3.3 变换、缩放和量化

8.3.4 熵编码

8.3.5 环内滤波器

8.3.6 特殊编码模式

8.4 HEVC编码器控制

8.5 HEVC的语法结构

8.5.1 并行解码语法和改进的条带结构

8.5.2 HEVC高级语法

8.6 HEVC编码工具配置

参考文献

第9章 小波视频编码新技术

9.1 引言

9.2 传统离散小波变换的缺点

9.3 双树小波变换

9.3.1 DTDWT

9.3.2 DTDWT滤波器组

9.3.3 三维DTDWT

9.4 粒子集群优化和多目标PSO

9.4.1 粒子集群优化

9.4.2 多目标PSO

9.5 基于多目标PSO的视频编码

9.5.1 编码器模块的修改

9.5.2 实验结果与分析

参考文献

第10章 基于压缩感知的视频编码技术

10.1 引言

10.2 压缩感知理论

10.2.1 稀疏性

10.2.2 不相干性

10.2.3 测量矩阵

10.2.4 CS重建

10.2.5 压缩感知特性

10.3 压缩视频感知

10.4 分布式压缩视频感知

10.5 基于字典的压缩视频感知

10.6 本章小结

参考文献

第11章 基于人眼视觉系统特性的视频编码

11.1 基于视觉敏感度的低比特图像压缩

11.1.1 人眼的视觉敏感度特征

11.1.2 基于视觉敏感度的低比特率图像压缩算法

11.2 基于视觉注意的视频编码方法

11.2.1 所提方法框图

11.2.2 目标检测算法

11.2.3 背景和目标区域的JPEG-2000编码

11.2.4 视频解码重建

11.2.5 实验结果与分析

11.3 基于人眼感兴趣区的视频编码

11.3.1 感兴趣区检测和跟踪

11.3.2 H.264/SVC标准的感兴趣区编码

11.3.3 感兴趣区编码的码率控制

11.4 本章小结

参考文献

第12章 视频编码技术的最新研究进展

12.1 基于语义的视频编码

12.1.1 语义视频编码

12.1.2 用户感知的语义视频编码

12.2 基于超分辨率复原的视频编码

12.2.1 超分辨率复原技术概述

12.2.2 基于超分辨率复原的视频编码技术

12.3 基于HEVC的立体视频编码技术

12.3.1 立体视频编码标准

12.3.2 几种立体视频编码方案

12.3.3 基于HEVC的立体视频编码方案

参考文献

名词索引

Graphics and Image图形图像新技术系列新一代高效视频编码技术High Efficiency Video Coding Techiques for Next Generation卓力 张菁 李晓光 著人民邮电出版社北京

图书在版编目(CIP)数据

新一代高效视频编码技术/卓力,张菁,李晓光著.--北京:人民邮电出版社,2013.11(图形图像新技术系列)

ISBN 978-7-115-32539-6

Ⅰ.①新… Ⅱ.①卓…②张…③李… Ⅲ.①视频编码 Ⅳ.①TN762

中国版本图书馆CIP数据核字(2013)第156914号

◆著 卓力 张菁 李晓光

责任编辑 代晓丽

责任印制 杨林杰

◆人民邮电出版社出版发行  北京市崇文区夕照寺街14号

邮编 100061  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

北京艺辉印刷有限公司印刷

◆开本:787×1092 1/16

印张:16  2013年11月第1版

字数:379千字  2013年11月北京第1次印刷定价:78.00元读者服务热线:(010)67119329 印装质量热线:(010)67129223反盗版热线:(010)67171154内容提要

本书是一本关于视频编码技术的学术专著,反映了相关技术领域最新的研究进展。

全书共分为12章,首先讨论了视频基础知识、视频质量评价、视频编码技术、人眼视觉特性、码率控制等基础知识,接下来介绍了H.264/AVC、H.264SVC和HEVC3个视频编码国际标准,最后介绍了视频编码领域出现的一些新技术,如小波视频编码、基于压缩感知的视频编码、基于人眼视觉特性的编码、基于语义的视频编码、基于超分辨率复原的视频编码以及立体视频编码等。

本书可供通信与电子系统、信号与信息处理、计算机应用等相关专业的研究人员、工程技术人员、高校教师、研究生和高年级本科生学习参考。序

近年来,经济全球化和全球信息化已成为时代的发展潮流,图像/视频是多媒体信息的主体,研究开发以图像/视频为主体的多媒体业务已成为当今信息科学与技术的一个重要研究领域。多媒体技术和互联网的高速发展促使图像/视频信息爆炸式增长,面对急速膨胀的海量数据如何有效处理,是如今人们研究以图像/视频为主体的多媒体业务首先要面对的问题。

随着多媒体处理技术的不断发展,人们对视频质量的要求越来越高,军事、航空、航天等领域对视频的分辨率和质量则有着更高的要求,视频技术正朝着超高清、立体的方向发展。现有的视频编码标准主要采用运动估计/补偿及分块变换的编码框架,随着HEVC视频编码标准的推出,这种传统编码框架的潜力已经非常有限。

人眼视觉系统是图像/视频信息传输、处理的接收者,也是各种图像/视频应用系统服务质量的最终依据。人眼视觉系统是自然界经过长期进化的产物,具有极其精巧的组成结构、高效的计算效率与自适应的学习能力。人眼视觉系统模型及其应用研究是涉及视觉生理学、心理学、脑科学与图像处理等多学科的交叉研究领域,也是推动新一代视频编码技术发展的关键。因此,利用人眼视觉特性和图像处理领域的先进技术成果,研究更高效的视频编码技术势在必行。

近年来,一些信号处理的新理论与新技术不断涌现,将这些成果应用到视频编码领域中也成为视频编码的一个重要发展趋势。如压缩感知理论、超分辨率复原、图像内容分析等技术,有助于获得良好的视觉感知质量,同时获得高效的压缩。

本书是一本关于视频编码技术的学术专著,是以卓力教授为首的研究团队对这一领域长期工作的结晶,其中既包括了视频编码技术的理论分析,又包含了基于压缩感知的视频编码、基于人眼视觉特性的编码、基于语义的视频编码、基于超分辨率复原的视频编码以及立体视频编码等最新研究进展的深入讨论,并且进一步指出了视频编码技术未来的一些发展方向。此书不少工作都是有创新思路的。我为本书的及时问世感到高兴,并愿意为此书作序。相信这本书的出版对这一领域的研究者有一定的借鉴和参考价值。2013年5月24日

前言

随着数字媒体采集、显示以及处理技术的飞速发展,超高清视频、立体视频、手机视频及网络视频等新应用和新服务不断出现,使得图像/视频数据呈爆炸式增长。以 7 680点/英寸×4 320点/英寸的超高清视频为例,以每秒60帧的帧率计算,1 s内的视频数据量即可达到 60 Gbit,海量的图像/视频数据给传输和存储提出了极高的要求,如何实现高效的压缩已经成为视频编码领域长期存在的挑战性问题,视频编码技术也因此成为多媒体应用领域的核心关键技术。

视频编码的目标是压缩,即在可允许的失真范围内用尽可能少的比特数表征信号。在过去二三十年间,视频编码技术得到了深入的研究和发展,各种先进的视频编码技术不断涌现,并被纳入各种视频编码国际标准中,各种视频编码标准不断被推出,从MPEG-1/2/4、H.261/3/4到HEVC,压缩性能迅速提升,这些标准极大地推动了视频编码技术在各个领域的应用和推广。

到目前为止,视频编码技术普遍采用的是运动估计/补偿+分块变换的混合编码框架,该框架利用运动估计/补偿技术去除时间冗余,利用分块 DCT 变换的良好去相关特性和能量集中特性,实现了高效的压缩,目前的视频编码国际标准普遍采用这种编码方案。但随着研究和应用的不断深入,分块DCT变换压缩编码的缺点逐步暴露,尤其在低比特率应用环境下,会造成严重的飞蚊噪声和块效应。这种方案本身未能考虑信息获取者的主观特性以及图像的具体结构和内容,也没有充分利用人类视觉系统的特性,因此,在低码率情况下重建视频的主观感受质量往往难以令人满意。

20世纪80年代中期,受到人眼视觉系统生理机制的启发,人们开始利用人眼的视觉特性,提高重建视频的主观感受质量,也因此出现了一些新的视频编码方法。这些方法的核心是利用人眼的视觉特性设计编码技术,在提高压缩效率的同时,提供良好的人眼视觉感知质量。对于大部分应用来说,人眼是重建图像的最终接收者,设计图像处理和编码系统时,采用与人眼的视觉特性相符合的表征方法必然是很有效的。

本书是一部关于视频编码的学术著作,旨在介绍视频编码领域在理论和技术方面的最新研究进展。全书共分为12章,可以分成3部分。第一部分包括第1~5章,主要介绍一些与视频编码有关的基础知识,包括视频格式、视频质量评价、视频编码基本技术、人眼视觉特性、码率控制等,该部分为后续内容提供了基础;第二部分包括第6~8章,分别介绍目前最先进的视频编码标准——HEVC、H.264 SVC标准以及基于H.264标准的各种先进编码技术;最后一部分包括第9~12章,重点介绍视频编码领域出现的一些新技术,如小波视频编码、基于压缩感知的视频编码、基于人眼视觉特性的编码、基于语义的视频编码、基于超分辨率复原的视频编码以及立体视频编码等,力争让读者全面了解视频编码领域近年来的研究热点和未来的发展趋势,为致力于此领域研究的同行们提供一点借鉴和参考。

本书是北京市信号与信息处理研究室集体创作的结晶。在本书编写过程中,有多位老师和学生直接参与了撰写工作。李晓光副教授负责第2、7、10章和6.5、12.2节的初稿,张菁副教授负责第4、11章和12.1节的初稿,其余章节由卓力教授负责,卓力教授还负责全书的总体设计和统稿工作。感谢赵霙頔、沈浩杰、李依睿、成博、刁蒙蒙、张沛、朱晓瑞等硕士研究生在稿件的准备、录入、校对中付出的辛勤劳动,曹琦、杨明宣、闫旭洲、孙宇思、曹嫣等同学也为本书的完成做了很多有益的工作,在此一并感谢。

在编写过程中,我们也同时参考和引用了国内外同行们的专著、论文和其他研究成果,已经尽可能在参考文献中一一列出,对此深表谢意。

感谢我的爱人对我工作的大力支持,你的包容、谅解和爱是我工作的动力,谢谢你这么多年为家庭的默默付出,让我能有更多的时间和精力投入繁重的工作中。

限于作者的学识水平,书中难免会出现一些错误和不足。对于书中的任何错误和不足提出的意见和建议,我们一定诚恳接受,并表示由衷的感谢。卓力2013-5-20于知新园第1章 视频格式和质量评价

本章介绍全书使用的一些基本概念、术语,并讨论彩色空间、抽样模式、视频格式与图像的质量评估等内容。1.1 图像与视频

视觉是人类获取信息最为重要的途径,外部世界丰富多彩的信息大部分是通过视觉感知的。据统计,人类通过视觉获取的信息占全部获取信息的70%。随着计算机、数字通信、多媒体和网络技术的发展,图像与视频作为信息最重要的载体之一,已经深入人们的日常工作与生活。

一幅图像(Image),可以是自然景物中物体的光强(如用一般照相机照的照片),也可以是身体器官吸收特征的量化特性(如 X 光照片),或者是空中目标物的雷达波反射截面(雷达图像),或者是[1,2]一个区域的温度场(红外图像),或者是重力场(地球物理图像)。

一般来说,一幅图像可以用一个二维函数来表示。也可以把一幅单色的数字图像(Digital Image)当作一个矩阵,矩阵的行和列标志图像的一个点,相应的矩阵元素值表示该点的灰度值。这样一个数字阵列的元素称为图像元素或像素(Pixel)。像素是图像的最小解析单元,该单元既可显示在屏幕上,也可以存储在计算机的内存中。

对于彩色图像,每个像素由3个基色分量——红(R)、绿(G)和蓝(B)表示。为了实现高效编码,彩色像素也可以表示为亮度(Y)和色度(U和V)分量。因此,一幅数字彩色图像可以看做对应于3个分量的3个矩阵。对每个矩阵可以采用类似于单色图像的编码方式编码,只是当图像以亮度和色度分量表示时,对U和V分量的处理不同于Y分量的处理,以达到高压缩比。计算机内的图像则是由像素构成的位图(Bitmap)。

与图像相比,图形(Graphic)指的是由人或计算机绘制的图形。可以把图形看做表示信息的对象组合,这些对象可以用数学方法描述,也可以通过计算机命令描述。比如,通过指定圆心位置及半径可得到一个圆等。

视频(Video)是由图像的时间序列构成的。人们又常将数字视频(Digital Video)称为视频图像、图像序列、视频序列或运动图像等。数字视频中每一幅这样的图像被称为一帧(Frame)。对于视频显示来说,帧率就是时间序列的播放速率,通常帧率为每秒25~30帧。

一个典型的“真实世界”或“自然”视频场景是由许多物体组成的,每个物体都有它们自己特有的形状、深度、纹理和亮度。一个自然视频场景的颜色和亮度随着场景的平滑度改变而变化。

一个自然视频场景在空间和时间上是连续的。以数字的形式表示一个视频场景时,需要对这个真实场景在空间上(一般是视频图像平面上的矩形栅格处)和时间上(在时间上按照固定的间隔抽样得到一[1,2]系列静止帧或帧的某个部分)进行抽样,如图1-1所示。图1-1 一个视频序列的空间和时间抽样

一个视频信号可能被抽样为一系列完整帧(逐行抽样)或隔行场(隔行抽样)。在一个隔行视频序列中,一个场由一个完整视频帧的奇数或偶数行组成,并且一个隔行扫描的视频序列(如图1-2所示)包括一系列场,每个场表示一个完整视频帧中的一半信息。这种抽样方法的优点是:对于同一个连续序列,如果采用相同的数据速率,则每秒能发送的场数量是帧数量的两倍,并且能产生更加平滑的运动。例如,一个PAL视频序列每秒有50场,播放时,与每秒25帧的视频序列相比,看起来运动更加平滑。图1-2 隔行扫描的视频序列1.2 彩色空间

单色图像仅需要一个数字就可以表示每个空间抽样点的亮度,彩色图像则要求每个像素至少用3个数字才能准确地表示颜色。这种用来表示亮度和颜色的方法称作彩色空间。常用的彩色空间有RGB、YUV、YIQ、YCbCr以及HSV等。

下面详细介绍RGB、YCbCr和HSV 3个常用的彩色空间。1.2.1 RGB彩色空间

RGB(Red,Green,Blue)颜色空间是目前最常用的颜色空间,显示器系统(如计算机、电视机等)都是采用 RGB 颜色空间进行图像显示。这些显示器系统利用 3 个电子枪分别发射R分量、G分量、B分量的电子束,根据每个分量的强度激发屏幕上的3种颜色的荧光粉,从而发出不同颜色、不同亮度的像素,进而组成了一幅图像。

RGB颜色空间利用了物理学中的三原色叠加,从而组成产生各种不同颜色的原理。通过3个数字表示彩色图像的一个抽样点,按一定比例混合红色、绿色和蓝色就能够得到任何一种颜色,因此RGB彩色空间很适合显示彩色图像。采集一幅RGB图像包括滤出场景的红色、绿色和蓝色分量,并采用独立的传感器矩阵抽样每个分量。

图1-3所示的是RGB彩色空间。图1-3 RGB彩色空间示意1.2.2 YCbCr彩色空间

人眼视觉系统(Human Visual System,HVS)对颜色的敏感程度低于对亮度的敏感程度。在RGB彩色空间中,3种颜色具有相同的重要性,并且经常以相同的分辨率进行存储。但是通过分离亮度和色度信息,并且用较高的分辨率表示亮度信息,能够更有效地表示彩色图像。

YCbCr和YUV是两种常用的可以有效表示彩色图像的方法。Y是亮度分量,能够通过一个R、G和B的加权平均公式计算得到:Y=kR+kG+kB         (1-1)rgb

其中,k、k、k是加权因子,且k+k+k=1。rgbrgb

颜色信息可以用色度(彩色差分)=分量表示,这里每个色度分量是R、G或B与亮度Y的差:

一幅彩色图像可以用Y和Cb、Cr、Cg表示,但是这种表示方法并不具有很大的价值,因为需要用4个分量代替RGB 3个分量。但由于Cb+Cr+Cg是一个常数,1个分量能够从另外 2 个分量中计算出来,因此只需要存储或传输 3 个色度分量中的 2 个。在YCbCr彩色空间中,一般只传输亮度分量(Y)以及Cb、Cr两个色度分量。

YCbCr空间还具有一个RGB空间没有的优点,那就是Cr和Cb分量可以采用比Y更低的分辨率来表示,因为人眼视觉系统对颜色的敏感程度低于对亮度的敏感程度。这样,在不对视觉质量产生明显影响的情况下,可以减少表示色度分量的数据量。对于非专业的观察者,RGB 图像与 YCbCr 图像之间没有明显差别。采用比亮度分量低的分辨率表示色度分量是一个简单但并不是十分有效的图像表示方法。

下面给出被广泛使用的RGB和YCbCr、RGB和YUV以及YUV和YCbCr之间的转换关系式,具体变换关系如下。

YCbCr到RGB的变换关系为:

RGB到YUV的变换关系为:

YCbCr到YUV的变换关系为:1.2.3 HSV彩色空间

HSV(Hue,Saturation,Value)表示色相、饱和度和亮度。该颜色空间可以用一个圆锥来表示,如图1-4所示。图1-4 HSV颜色空间示意图

其中,H表示颜色的相位角,取值范围是[0,360]。S表示颜色的饱和度,是一个比例值,表示所选颜色的纯度和该颜色最大纯度之间的比率,范围是0~1。S取值越大,表示色彩越纯;取值越小,表示色彩越灰。V表示色彩的明亮程度,范围是 0~1。V=0表示圆锥的底部定点,即黑色;V=1表示圆锥的顶面。当V=1并且S=0时表示纯白色。

下面给出RGB和HSV之间相互转换的公式。(1)RGB到HSV的转换

设(r,g,b)分别表示一个颜色的红、绿和蓝3个分量,假设它们的值是0~1之间的实数。设max等于r、g和b中的最大者,min等于这些值中的最小者,则有:(2)HSV到RGB的转换p=v×(1−s)           (1-11)q=v×(1−f×s)          (1-12)t=v×(1−(1−f)×s)          (1-13)

对于每个颜色向量(r,g,b),存在以下关系式:1.3 抽样格式

在一个YUV图像中,每个像素点有3个8 bit的值,分别对应Y、U、[3]V 3个分量,如图1-5(a)所示。人眼对亮度信息Y更敏感,因此对色度分量U、V可以采用下抽样,但是仍然能保持很好的可视图像质量。下抽样可以减少传输带宽,可以用X:X:X格式表示,其中第一数字表示色度抽样的数目,用作参考,往往设定为“4”,第二和第三个数字表示色度抽样的数目,与Y的数目有关。例如,4:1:1表示每4个Y抽样点有一个U和V抽样点。

一个重要的问题是进行下抽样的时候丢弃哪些抽样点。图 1-5(a)所示的是 4:4:4抽样格式,在YUV图像中,每个像素点有3个8 bit的值。图1-5(b)~图1-5(e)所示的分别是4:2:2、4:1:1、4:1:1和4:2:0色度抽样方法。图1-5(b)中,每4个Y抽样点对应2个U、2个V抽样点;图1-5(c)中,每4个Y抽样点对应1个U、1个V抽样点,在这种情况下,分别在水平、垂直方向进行因子2的色度分量下抽样。图1-5(d)中,每4个Y抽样点对应1个U、1个V抽样点,在这种情况下,色度分量在水平方向进行因子4的下抽样,在垂直方向不进行下抽样;图1-5(e)中,与4:1:1抽样格式类似,每4个Y抽样点对应1个U、1个V抽样点,但是亮度分量的抽样点位置与4:1:1的不同。

根据应用的不同,人们可以采取不同的色度下抽样方法。一种方法是色度分量在水平和垂直方向分别进行因子2的下抽样;另一种方法是在水平方向进行因子4的下抽样,但在垂直方向不进行下抽样。具体采用哪种下抽样方法要根据具体的应用来确定。4:2:0和4:1:1具有相同的色度分量抽样点数目,但亮度分量的抽样点位置不同,如图1-5(c)、图1-5(d)和图1-5(e)所示。图1-5 几种不同的抽样格式(×表示亮度Y抽样点,○表示色度U、V抽样点)1.4 视频格式

实际上,在图像与视频信号压缩和传输前一般要将其先转换为一种中间格式。对于表1-1视频帧所示的格式,通用中间格式[3](Common Intermediate Format,CIF)是最基本的一种。图1-6给出了在不同的分辨率下(从4CIF到SQCIF)对一个视频帧抽样得到的亮度分量,帧分辨率的选择取决于应用、存储或传输的能力。例如,4CIF适合标准清晰度电视和DVD视频;CIF和QCIF适合视频会议;QCIF或SQCIF适合移动多媒体应用。表 1-1 列出了在每种格式下表示一个非压缩的帧需要的比特数(假定采用4:2:0抽样,每个亮度和色度抽样点有8 bit)。表1-1 视频帧格式图1-6 在不同分辨率下抽样后得到的视频帧

ITU-R推荐的BT.601-5是一种关于电视机生产的数字转换视频信号的格式,并得到了广泛的应用。视频信号的亮度分量和色度分量分别以13.5MHz和6.75MHz进行抽样,产生4:2:2的Y:Cb:Cr的信号。已抽样的数字信号的参数取决于视频帧率(NTSC信号是30Hz,PAL/SECAM信号是25 Hz),见表1-2。NTSC的30 Hz帧率通过较低的空间分辨率进行补偿,这样总的比特率是相同的(216 Mbit/s)。

每个抽样点的取值范围是0~255,其中亮度信号的取值范围限制在16(黑)~235(白)。表1-2 ITU-R BT.601-5参数参考文献

[1] 沈兰荪,卓力.小波编码与网络视频传输[M].北京:科学出版社,2005.

[2] 沈兰荪,卓力.视频编码与低速率传输[M].北京:电子工业出版社,2001.

[3] RICHARDSON I E G .H.264 and MPEG-4 Video Compression[M].Chichester:WILEY,2003.第2章 视频质量评价2.1 引言

视频质量评价是视频处理领域的基础技术之一。一个视频系统往往包含了多个环节,如采集、传输、处理、显示和存储等,每个环节包含着不同的处理过程,都有可能造成视频的降质,导致各种失真。如在广播应用中,对视频质量影响较大的阶段通常是视频采集和发布阶段,其中对信号的编码处理将导致视频的降质,这时需要一个统一、合理的视频质量评价标准对失真进行度量,从而评估各种技术性能的优劣。视频质量评价的客观性在于对任意系统的评估是一致的,通过定量的测量,可以消除现有许多定性测试方法的不精确性,以确保评估的公正性和通用性。[1]

视频质量的含义包括两个方面:一是逼真度,二是可懂度。所谓逼真度是描述被评价视频对于原始图像的偏离程度;而可懂度则表示视频能向人或计算机提供信息的能力。多少年来,人们总是希望能够找出逼真度和可懂度的定量测量方法,作为评价和设计视频系统的重要依据。视频质量评价虽取得了一些进展,但是目前仍没有很好地解决。视频质量评价仍然是图像/视频处理领域待研究的几个基础技术之一。[1,2]

目前的视频质量评价标准可以分为两类:主观质量评价和客观质量评价。主观质量评价是一种最简单的方法,具体做法就是选择一批不同性别、年龄和状态的观察者,对同一个视频内容按视觉效果的好坏进行打分,并对其进行加权平均,作为最后的评价结果。这种[3,4]主观评价需要遵循ITU-R建议BT-500中所描述的主观评价协议,根据实际情况进行相应调整,以确保评价结果不会太偏离标准。通常对视频质量的评价可分为很好、较好、一般、较差、极差5个等级。尽管采用主观的方法度量视频的质量能够更准确,也更能真实地反映评价结果,但该方法操作复杂,会耗费大量的时间和财力。另外,由于会受到研究地点及其光线情况和观察者状态等外界因素的影响,主观测试不一定非常有效,且不能应用于实时传输的场合。

为此,人们提出了客观质量评价标准。传统的客观评价方法是用恢复图像偏离原始图像的误差来衡量图像恢复的质量,最具代表性的方法有均方误差(Mean Square Error,MSE)和峰值信噪比(Peak Signal Noise Ratio,PSNR)。MSE和PSNR的定义看起来直观、严格,但所得到的结果常与人们的主观视觉效果不一致。这是因为其从总体上反映原始图像和恢复图像的差别,并不能反映一幅图像中少数像点有较大灰度差别和较多像点有较小灰度差别等各种情况。显然,客观[1]质量评价对图像中所有像点同样对待,不能反映人眼的视觉特性。

人眼是图像/视频服务的最终用户,因此,视频质量客观评价结果应与人眼的主观评价结果相一致。为此,很多学者提出了基于人眼视觉特性的客观质量评价标准,如JND(Just Noticeable Difference)、[2]VDP(Visual Differences Predictor)等。这些标准充分利用人眼的视觉特性,如视觉锐度、对比敏感度、多通道结构和掩盖特性等,以解决客观评价结果与主观视觉效应的偏差问题,从而使客观评价与人眼主观感觉相一致。

视频质量评价随着视频处理技术的进步而不断发展。目前,视频质量评价这一概念已经不仅局限于视频的感知质量,还被赋予新的内涵。比如,近期学者们提出了体验质量(Quality of Experience,QoE)这一术语,即用户不只是视频的观看者,而且是视频内容及其预期效[2]果的真实体验者。2.2 视频失真

视频编码过程往往会或多或少地引入各种图像的降质,称为人工[2,5,6]效应(Artifact),最终影响观察者的视频感知效果。人工效应是导致图像失真的最重要因素,为了评估这一现象,研究人员开展了大量的研究工作,广泛分析了块效应、模糊效应、振铃效应、渗色效应和运动补偿不匹配等各种失真,并提出了一系列有参考或无参考的度量方法,用于测试视频质量,评定失真的等级。

接下来对各种人工效应进行简要介绍。人工效应在模拟系统和数字系统中都会出现,但本书主要关注数字系统中产生的人工效应,尤其是在视频编码过程中由于压缩而引发的人工效应。[2,5]

人工效应产生的原因可以归为如下3点:

由模拟格式和数字格式之间的关系及相互转换引起,如噪声和模糊效应;

由编码和压缩引起,如块效应、模糊效应和振铃效应;

由传输信道误差引起,如数据分组的丢失导致的误码块。2.2.1 块效应[6]

块效应指在重建视频序列中出现的块状失真,这是由对每个分块进行单独处理(如量化)造成的,这种效应在采用分块变换的各类现有视频压缩标准中尤为明显。一幅失真明显的图像中会呈现出非常清晰可见、与图像边框平行的水平和垂直边缘。如图 2-1所示的Nasa序列及其分块图示例中,这种块效应清晰可见。

在基于 DCT的编码中,如 MPEG-2或 H.263或类似的编码标准,在高压缩比时,在宏块的边界将会出现相近的像素值,由此产生方块效应。对于一个给定的量化级,块失真通常在图像的平滑区更为明显。一些先进的视频编码标准,如H.264则采用去块效应滤波器降低块效应。图2-1 块效应示例2.2.2 模糊效应

模糊效应定义为由于粗糙量化抑制了高频成分,而造成能量和空间细节的丢失,导致边缘锐度的减小。降低编码比特率也会引起模糊效应。由于这种效应主要出现在高频区域,因此在纹理复杂的视频序列中尤为明显。

如图2-2所示的Nasa测试序列示例体现了由比特率降低而导致的模糊效应,从左到右分别是原始图像和比特率越来越低的模糊失真图像。图2-2 比特率降低所引起的图像模糊度变化2.2.3 振铃效应

由于 DCT 高频系数出现得不规则,对这些高频系数进行量化后,在重建宏块中会出现振铃效应,这种效应与吉布斯现象有关。在高对比度边缘附近具有平滑纹理的区域内,这种效应尤为明显。如图2-3所示的示例中,可以清楚地观察到这种效应,在物体的边缘处可以看到轮廓的叠影。图2-3 振铃效应示例2.2.4 噪声

噪声是可影响图像感知质量的一种不可控或不可预测的信号。图像/视频压缩会产生多种类型的噪声,最常见的两种噪声是飞蚊噪声和量化噪声,具体介绍如下。

飞蚊噪声:是一种时域上的短暂人工效应。当亮度/色度出现波动时,常见于高对比度边缘附近的平坦纹理区域或运动目标周围,这是由对一系列连续帧中某一场景的相同区域部分的编码差异所引起的。

量化噪声:是一种由于对DCT或Hadamard等变换系数进行严重量化所引起的噪声。

其他人工效应还包括图像纹理丰富区域出现的闪变噪声、场景内容在空间或时间上超出奈奎斯特抽样率而导致的混叠失真等。因为篇幅原因,在此不再赘述。2.3 主观质量评价

在视频处理技术中,用户的主观评价十分重要。因此,必须在用户评价的帮助下对视频编解码器进行评价,这样才能确定用户对重建视频质量的接受程度。在这一节,将重点讨论视频主观质量评价标准[4,7,8]。

主观质量评价需要一批观察者观看待评价的视频内容,但如果观察的时间太长,观察者会感到疲倦劳累,这样得到的评价结果就会和预期的有所差别。但目前主观质量评价还是很常用的一种质量评价方法,接下来将对此进行详细介绍。2.3.1 测试条件

在进行主观质量评价之前,必须考虑到完成一个主观质量测试所必需的条件,这些条件具有可重复性,或可与类似的研究工作进行比[2]较。这些条件具体包括以下5种。(1)观察条件

在实验室环境下的观察条件和家庭环境下的有很大不同。为得到有意义的评价结果,需要确保最好的观察状态。观察者到屏幕的距离取决于屏幕的尺寸大小,这一点对于获得理想结果十分重要。

屏幕必须有统一的对比度和亮度,并且观察的角度不能超过30°。(2)房间条件

房间中必须有光照,座椅要舒适,并且屏幕上不能有反射。因为观察者将在这里花费很长一段时间观察视频内容,这些因素不能干扰观察者的评分。(3)观察者

研究所需的参与者最少为 15 人,推荐找到尽可能多的观察者参加测试。观察者最好是非专业的、眼睛未接受过训练的。专业的观察者会有意寻找损伤处,因此他们的评价不一定公正。观察者的年龄和性别必须多样化且具有代表性,观察者必须提前经过训练,明白此次测试的目的。(4)材料与测试序列

需要选择足够多的测试材料,包括常规电视频道播出的各种内容(如体育、电影、新闻、纪录片等),测试材料的空间(细节与高频信息的多少)和时间(内容快慢)细节也各不相同。

由于人类的记忆和感知需要一段时间,因此每个序列必须持续10~20 s的时间,以确保测试者观察的正确性。序列的持续时间不要太短,否则观察者没有时间注意到图像的细节;也不要太长,否则观察者会感到疲倦。

许多组织开展的测试工作使用静止的图像和视频序列,这类材料更适用于主观质量评价。(5)评价结果的表示

评价结果的表示必须进行详细设计。给出的评价结果必须包括:测试设置和材料细节、资源和显示的类型、参与测试的观察者的数量、参考系统及其具体变化、分数等。

Logistic曲线拟合和对数轴可将结果表示为直线,是一种常用的测试结果表示形式。2.3.2 测试方法[2,3]

本节将介绍一些主观质量评价中最重要的测试方法。(1)单刺激或双刺激法

在双刺激法中,观察者将看到成对的视频序列,即参考序列和失真序列;而在单刺激法中,观察者只能看到失真序列。

刺激数量决定了观察者能否将失真序列与参考序列做对比。与没有原始参考信号的单刺激法相比,双刺激法中观察者更容易发现失真序列中存在的人工效应和视觉损伤。

在实际情况下,用户并没有可用于比较的参照物,因此单刺激法更符合实际情况,但双刺激法可以更有效地避免因场景效应带来的误差。主观评分结果如果受到测试序列失真严重程度和出现次序的影响,则称产生场景效应。

在双刺激法中,依据研究中所使用的屏幕数量,有两种不同的成对序列展示方式。若有两个屏幕,则每对序列可以同时显示,这样就允许观察者在发现质量变化的同时做出比较。(2)重复或非重复法

影响主观评价结果的最主要问题就是观察者的疲惫感。在有限的一段时间里,观察者的评分才是有效的。长时间的测试会导致高度疲劳,进而使结果出现偏差,评价结果变得不真实。因此,每段测试时间必须减至0.5 h以下,并且延长休息时间。

根据研究的精确程度,可以一次或多次重复展示每对序列。如果序列中参数的测量范围很宽,测试时间就有可能减少,每对序列只需要展示一次,也就是不重复。这样做的目的是节约时间,避免观察者产生疲劳感。(3)绝对法或比较法

根据研究的目的,可以定义期望获得的结果。单刺激法可获得绝对结果,而比较法与双刺激法的关系更密切,但在有参考的情况下也可以获得绝对测试结果。

绝对法采用无明确限定的质量或损伤评价,而比较法采用“比较评价法”,以确定每对序列中成员之间的关系。(4)连续或离散(不连续)评价法

可采用不同的方式将视频合并成一个连续的测试组合,测试组合是包含相同或不同种类内容的一个节目或一系列序列。这些节目可能包含一个或多个评价阶段的质量系数(如比特率),每个节目应持续至少5 min。

观察者必须快速确认观察到的损伤并给出回应。虽然如此,如果只考虑整个节目部分的平均质量,不同的时间延迟会对评价结果产生一定的影响。一些研究工作正试图评估不同观察者的反应时间对最终质量级别的影响,如图2-4所示。图2-4 反应时间对质量评价结果的影响示意图2.3.3 评分类型

根据研究人员想获得的结果,可以有多种不同的评分方法。下面[2]给出最具代表性的4种评分方法。(1)质量评分法

许多方法都采用质量评分(Quality Scale,QS)法评估一段视频序列的绝对视觉感知质量。质量评分等级通常见表2-1。表2-1 QS质量评分等级(2)损伤评分法

与QS不同,损伤评分(Impairment Scale,IS)法是为推断出失真或其他损伤对人类感知的影响程度。具体的评分等级见表2-2。表2-2 IS评分等级(3)比较评分法

比较评分(Comparison Scale,CS)法不适用于单刺激法,其目的是在一对序列做出相对评判,从而评估图像的损伤或降质程度。该评价法划分了7个等级,见表2-3。表2-3 CS评分等级(4)数值评分法

数值评分(Numerical Scale,NS)法用数值表征观察者的意见,具体的评分数值取决于划分的等级数。数值方式中最常用的评分法是平均评分(Mean Opinion Score,MOS)法,标准化的是1~5共5个等级,也有1~10共10个等级和1~8共8个等级的划分方式。还有一些方法,比如“比较评价法”,划分了7个等级,其中包括表示感觉不到差异的0级。

通常情况下,0级很少使用,因为没有什么意义。2.3.4 主观质量评价方法

通常组合不同的设置可获得不同的主观质量评价方法。下面列举出一些最具代表性的方法,当然,除了列举的这些,还有一些其他的[2,3]组合方式。(1)双刺激损伤评分(the Double-Stimulus Impairment Scale,DSIS)法

该方法被欧洲广播联盟(the European Broadcasting Union,EBU)用于测试系统的顽健性。参考序列和测试序列均只出现一次。观察者通过对比每对序列,对每个测试序列的损伤程度进行评分,如图2-5所示。图2-5 DSIS系统示意(2)双刺激连续质量评价(the Double-Stimulus Continuous Quality-Scale,DSCQS)法

DSCQS 法的主要目的是评价测试视频与参考视频之间的相对质量。观察者会看到随机出现的序列对(参考序列和受损序列),序列会出现两次。该方法被认为是一种十分精确的测试方法,在很大程度上降低了场景效应的影响。在序列出现两次后,观察者要对序列对中每个序列的质量进行评价。该方法也用于评价立体视频的编码质量。

像 DSCQS 这样的双刺激法,只能为一个给定的视频序列提供唯一的质量评分,而一个普通视频序列可能会长达 10 s,因此,在用此方法评估实时视频质量监督系统的性能时,就会出现适用性的问题,如图2-6所示。图2-6 DSCQS系统示意(3)单刺激(Single-Stimulus,SS)法

SS法的目的是在没有参考的情况下对视频质量进行量化。

这种类型的方法中,绝对分类定级(Absolute Category Rating,ACR)采用了单刺激法。在此方法下,观察者只能看到测试视频,而不能看到参考视频。然后观察者将使用从“非常差”到“非常好”共5个等级的评分体系为测试视频的整体质量进行打分。ACR不用提供参考视频,所以它的效率相对DSIS或DSCQS而言更高,而后者需要2~4倍的测试时间,如图2-7所示。图2-7 SS系统示意(4)刺激比较(Stimulus-Comparison,SC)法或配对比较(Pair-Comparison,PC)法

在SC或PC法中,将同一场景不同状态(评估质量参数)的测试片段以所有可能的组合方式进行配对,然后让观察者从每一对中选出自认为更好的一个,这样可以使观察者对测试片段具有更好的质量鉴别力。这种方法使用了比较评分法,如图2-8所示。图2-8 SC系统示意(5)单刺激连续质量评价(Single Stimulus Continuous Quality Evaluation,SSCQE)法

在 SSCQE 法中,观察者不再观看独立的短序列对,而是在没有参考的情况下,观看一段经过测试系统处理的持续时间为20~30 min的节目。基于DSCQS法,观察者使用滑块连续地为瞬间感知的视频质量打分,从“非常差”到“非常好”。

此类研究的目的不仅是评价图片的基本质量,更是评价信息传输的保真度,如图2-9所示。图2-9 SSCQE系统示意(6)同时双刺激连续评价(Simultaneous Double Stimulus for Continuous Evaluation,SDSCE)法

SDSCE法需要在观察者面前并排放置两个屏幕,左边的屏幕展示参考序列,右边的屏幕展示受损序列。

此方法的目的主要是衡量两个视频序列之间的保真度,也可用于比较不同的抗误码技术。每对视频出现一到两次,缩短了每个测试阶段的持续时间,使得观察者可以对更多的质量参数做出评价,如图2-10所示。图2-10 SDSCE系统示意2.4 客观质量评价

本节将介绍几种最常用的客观质量评价标准。根据是否需要参考图像或特征,客观质量评价标准大致可分为3类:全参考(Full-Reference,FR)、部分参考(Reduced-Reference,RR)和无参考[9](No-Reference,NR)。这3类评价标准的定义如下。[10](1)全参考(FR)标准

适用于存在原始图像并能将其与降质图像做比较,从而得知质量下降程度的情况,如图2-11所示。[11](2)部分参考(RR)标准

适用于无法获取原始图像,但是能够得到原始图像的一些属性和特征的情况,这些特征和属性对质量评价结果有帮助。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载