深度增强的3D视频处理技术(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-20 00:43:19

点击下载

作者:安平 沈礼权 马然 王永芳

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

深度增强的3D视频处理技术

深度增强的3D视频处理技术试读:

前言

3D视频能给观看者带来立体感和临场感,是新一代视频技术的发展方向。自21世纪初开始形成3D视频技术研究热潮以来,3D视频技术的发展非常迅猛。欧盟、美国、日本、韩国等的科研机构在 3D 技术理论研究上取得了众多突破性成果,我国也同步取得了许多令世界瞩目的成果,这些成就推动了3D技术的发展。“阿凡达”立体电影掀起了3D应用的高潮,之后国际上开播了60多家3D电视频道,我国也开播了联合3D电视频道,南非世界杯实现了首次3D直播,伦敦奥运会也实现了首次 3D 转播,这些带动了相关产业的快速发展,在影视、动漫、科博展示等文化产业以及军事、航空航天、医疗等专业领域的应用前景十分广阔。应用的发展又对理论研究不断提出新的要求。当前无论是在技术、产品,还是市场应用,基于深度的自由视点视频技术都成为3D视频技术新的热点方向。

本书是在国家自然科学基金重点项目“自由视点多视视频以及 3D 立体显示基础理论与关键技术(60832003)”以及多项国家自然科学基金项目“面向绘制质量的深度提取及其编码方法研究(61172096)”、“新一代3D视频编码的理论和应用研究(61422111)”、“高清 3D 裸眼视频内容生成与编码(U1301257)”、“基于超高分辨率视频的 HEVC 低复杂度模型和方法研究(61171084)”、“多视点视频加深度的容错编码与差错隐藏技术(61301112)”、“面向高清/超高清的感知3D视频稀疏编码理论与技术研究(61301113)”的资助下,在所累积研究成果的基础上完成的,并参考和融入了国内外现有的基本理论和研究成果。

三维技术的类型很多,常随应用目标的不同而异,本书受篇幅所限,不可能包罗万象。结合作者团队近年来在 3D 视频处理方面的部分研究成果,本书主要集中在以自由视点视频系统各组成部分的基本理论、结构和典型的实现方法,着重讨论基于深度增强格式的3D视频技术。全书分为6章,其中第1章主要叙述了3D视频系统的组成和不同类型系统的特点,回顾了3D技术的历史和发展趋势,总结了主要的关键技术;第2章介绍3D彩色视频数据采集和深度获取的基本理论和方法,分析了系统结构的优选和关系模型以及多摄像机图像校正方法,着重阐述基于Kinect的深度获取和几种基于立体匹配的深度估计方法;第3章介绍视频编码压缩的基本原理和主要方法,分析了基于H.264/AVC的多视点视频编码架构和3D-HEVC的技术特点,讨论了深度图编码的基本特性和典型方法;第4章介绍差错隐藏技术的原理和典型算法,讨论了多视点视频和+深度视频的差错隐藏方法及技术特点,重点阐述了多视点加深度视频的差错隐藏算法;第5章介绍虚拟视点合成的概念、发展概况、技术特点和实现流程,讨论了通过深度图预处理来提高绘制质量的方法和通过后处理空洞填充来提高虚拟视点绘制的方法;第 6章简要综述了立体视频质量主观评价和客观评价的研究概况,介绍和讨论了 4 种全参考立体视频评价方法和一种基于深度合成的无参考立体视频评价。

本书由安平教授拟定全书的大纲并执笔编写第1章、第2章和第5章,对全书进行统稿和定稿;由沈礼权副研究员执笔编写第3章;由马然副教授执笔编写第4章;由王永芳副教授和张艳博士执笔编写第6章。本书内容采用了作者所指导的研究生刘苏醒、张倩、张秋闻、张艳、左一帆、鞠芹、张洋、刘利亮、王奎、梁亮、刘德阳等学位论文的部分内容。特别感谢笔者的老师张兆杨教授对全书进行的修改和润色。此外,本书在编著过程中得到了国家自然科学基金和上海市科学技术委员会的大力支持,在此表示衷心的感谢。

尽管 3D 视频技术目前已有了较多的应用,但从总体上而言还是有待逐步提高、完善的新技术。本书作者水平有限,难免存在不妥之处,谨请读者指正。作者2014年11月于上海大学

第1章 导论

三维(Three Dimensional,3D)视频能够给人们提供立体的和浸沉的视觉感受,是下一代视频技术发展的方向。21 世纪以来,随着显示技术的进步,3D 视频技术得到了迅猛的发展。立体显示技术经历了由戴眼镜的助视立体显示、单人观看的裸眼立体显示、单人观看的裸眼跟踪立体显示,到裸眼多人观看的自动立体显示等一系列技术革新。3D视频系统研究也由早期的双目立体视频系统过渡到多视点视频系统,再到目前以多视加深度的自由视点视频系统为主的研究。其间国内外涌现了一些标志性的应用事件,2009年年底立体电影《阿凡达》的上映带来了2010年的3D元年,随后2010年南非世界杯实现了首次体育赛事的3D直播,2010年上海世博会展示了裸眼、助视以及立体三维等多种形式的3D技术,2012年伦敦奥运会也实现了首次3D转播。随着世界众多3D电视频道的陆续开播,2012年元旦我国开播了第一个3D电视联合试验频道。作为共性视频技术,3D视频技术将与超高清视频技术共生发展,其应用前景十分广泛。

本书结合作者近年来在 3D 视频处理方面的研究成果,在介绍 3D 视频技术系统组成和基本原理的基础上,着重分析基于纹理加深度数据表示的自由视点视频技术。

1.1 立体视觉

视觉是人类认识自然、了解客观世界的最重要的手段。当双眼同时注视某一物体时,双眼视线交叉于注视点,从注视点反射回到视网膜上的光点是对应的,这两点将信号转入大脑视中枢合成一个物体完整的像,人不但看清了这一点,而且这一点与周围对象间的距离、深度、凹凸等都能辨别出来,这样的成像就是基于立体视觉原理所构成的立体像。形成立体视觉的因素主要有两类:一类是生理因素,另一类是心理因素。由生理因素引起的立体视觉称为双眼立体视觉,主要有双目视差、调节、辐辏、运动视差、单眼遮挡等线索;由心理因素引起的立体视觉称为单眼立体视觉,主要有线性透视、朦胧透视、遮[1]挡、阴影、颜色、纹理梯度等因素。

上述立体视觉线索中,最重要的两种是运动视差(Motion [2]Parallax)和双目立体视差(Binocular Parallax)。运动视差指的是头部在运动时所看到同一物体在大脑中的不同映像,而双目视差指的是两眼在看到同一物体时在大脑中产生的不同映像。

所谓的“视差产生立体”的原理,是指相距约65mm的人的双眼从不同的角度观看世界,使得左眼看到的与右眼所看到的同一场景之间有些细微的差别,大脑可以根据这两个细微的差别来得到物体在场景中的定位和精确的三维物体,这就使人们产生具有深度的立体感。立体成像就是对每个场景至少产生两幅有差异的图像,可以认为一幅是代表左眼所看到的,另一幅则是代表右眼看到的,这两幅图像则称为立体图,合成原理如图1-1所示。图1-1 立体视觉原理

模拟人眼产生立体视觉的过程,可用两个间距为双目距离的平行摄像机拍摄同一场景,使每个摄像机从对应人眼位置的视点捕获景物,如果显示系统可以确保每只眼睛只看到对应的视图,就可使人眼产生3D深度感,这样的系统称为3D立体视频系统,若由多个摄像机或摄像机阵列构成时称为多视点 3D 视频获取系统。如果在摄像和显示之间加入便于传输的处理、编码和解码等环节,就构成如图1-2所示的3D立体视频系统。图1-2 3D视频系统的组成

1.2 3D视频系统

从采集到显示,3D 立体视频系统的处理链由 3D 内容获取、处理、3D 视频编码、传输、解码/绘制、立体显示等组成,如图1-2所示。其中,摄像子系统摄取 3D 场景;编码子系统将获取的视频信号去除冗余信息后编码成便于传输的视频流,经网络传输后送入解码/合成器,按照显示端的要求重建视频信号后,分别送至不同类型的显示器进行立体显示。1.2.1 不同类型的3D视频

图1-2中包含了6种不同类型的立体视频,下面分别简述其表示方式。(1)双目立体视频

采用模拟左、右眼的两路二维(Two Dimensional,2D)视频,其3D场景的获取是由两个光轴中心相距65mm的相互平行的相同摄像机组成。(2)2D至3D的转换

将没有记录下完整场景信息的二维视频转换为恢复其深度信息的三维视频。(3)单视点视频+深度

视频数据由单个摄像机获得的一路彩色纹理视频及其相关的深度图组成,不仅可在接收端生成立体视频对,还可在小范围内生成多个虚拟视点,从而满足一定的交互性。同时,该表示方法有利于高效压缩编码。但由于仅传输单路视点的信息,无法解决遮挡问题,虚拟视点的质量随着与传输的单路视点距离的增加而急剧降低。(4)分层深度视频(Layered Depth Video,LDV)

该方法使用单视点视频及其深度和被遮挡区域视频及其深度4个分量来表示3D视频,弥补了单视点视频+深度在遮挡问题上的缺陷,它比方式(3)能获得更好的显示质量。(5)多视点视频(Multi-view Video,MVV)

通常采用3个以上N个相同型号的摄像机阵列从不同角度对3D场景进行拍摄。MVV包含了丰富的3D场景信息,但若要支持用户观看任意视点的需求,采集时需要使用密集型摄像机阵列。这就使得多视点视频数据量急剧增加,严重制约其广泛应用。(6)多视点视频+深度(Multi-view Video plus Depth,MVD)

为了支持交互性,同时使用较少量的数据表示3D场景,MVD表示方法应运而生。与 MVV 相比,深度信息的引入使得 MVD 可使用较稀疏的摄像机阵列拍摄 3D 场景。这种表示方式由于减少了采集端的数据量,从而减轻了数据传输的压力,并且可以在解码端利用深度信息绘制生成更多的视点图像,在新视点生成方面具有更好的灵活性。这种视频表示方式有良好的应用前景。1.2.2 立体图像显示方式

立体显示主要分为眼镜式和裸眼式,裸眼立体显示技术主要包括光屏障式、柱状透镜式、指向光源、多层显示(MLD)等。

1.眼镜式立体显示

立体眼镜分为偏振式、快门式和分色式。偏振式是左、右眼分别使用极化方向相互垂直的偏振镜片,其中一只眼用垂直偏振,另一只眼用水平偏振,显示器投射相应的偏振光,从而使双眼分别看到左视和右视,由大脑融合为立体图像。此种方式的缺点是,当人的头部倾斜时,偏振镜片难以滤掉与之正交的偏振光,使一个视的图像漏到另一个视中,使人产生不舒适感。快门式佩戴的是液晶制成的快门眼镜,加上一定电压时改变液晶分子的排列而控制开关状态,使得一个镜片阻挡光线时另一镜片可通过,从而使双眼分别看到左、右视。其缺点是若显示器刷新频率不够高,会产生闪烁感。分色式则是左、右眼戴的镜片分别是红光或蓝光滤色片,使得戴红光滤色片的眼镜只能看到红色图像,戴蓝色滤色片的眼镜只能看到蓝色图像,由此来使双眼仅分别看到左视和右视。其缺点是彩色信息损失大,色调单一。

2.裸眼立体显示

不戴立体眼镜由人眼直接观看的裸眼立体显示方式常用的有狭缝[3][4]光栅式和柱透镜光栅式。前者的原理是利用视差挡板分光,在液晶显示器的液晶层之前或之后安装视差栅栏,将其分为挡光和透光两部分,使得显示屏上各像素交替左、右眼对应的图像,令一幅经过匹配处理的视差图像分别投射到左、右眼,产生立体视觉。狭缝光栅式的优点是工艺结构较简单,但由于被遮挡了约50%的光,因此显示屏的亮度也损失了一半。

柱透镜光栅式是在显示器内部安装一排垂直排列的柱面透镜,利用每个柱透镜对入射光的折射作用,把两幅不同的视差图像分别透射到对应于双眼的视域,使左图像聚焦于观看者左眼,右图像聚焦于观看者右眼,从而产生立体视觉。柱透镜光栅式的优点是大幅减少了光的损失,使显示屏的亮度几乎是视差栅栏式的一倍。但工艺要求高,每个透镜的截面达到微米级,较适合用于大屏幕显示。[5]

指向光源3D技术搭配两组LED,让3D内容以排序方式进入观看者的左、右眼互换影像产生视差,从而使人眼感受到 3D 效果。它[6]比狭缝光栅式、柱状透镜式等裸眼3D技术更具优势。MLD技术通过一定间隔重叠的两块液晶面板,以实现呈现3D影像的效果,它对用户观看角度限制较少。指向光源与MLD显示技术尚在开发中,还没有成熟的产品。

1.3 3D视频系统的发展概况及关键技术

1.3.1 3D视频技术的应用概况和发展趋势

3D技术的出现可追溯到15世纪初~19世纪初,那时绘画中出现的透视画法,可以表示立体感效应,绘画实践表明只有给两只眼睛分别提供相对独立的图像,在恢复了双眼视差的情况下,才可能获得真实的立体视觉。早期出现的双目立体视觉技术采用的是通过有色眼镜和立体镜观察立体图像的方法。3D视频技术发展的第一次高潮出现在1838~1891年。1838年英国科学家查尔斯惠斯通发明了“反光式立体镜”,用来观看3D立体画;随后英国科学家大卫布鲁斯特发明了第一台可用于摄影领域的透镜式立体镜。19世纪末,电影采用两部摄影机模拟人类双眼进行拍摄,然后将制好的影片用放映机通过偏光滤光镜投射到电影荧幕上,观众通过配戴偏振光眼镜观察运动的立体图像,这种立体电影技术一直沿用至今。这个期间出现了3D视频技术的第一次高潮。3D技术的第二次高潮出现在19世纪末~20世纪50年代,这个时期出现了3D电影。20世纪50年代迎来了3D技术的黄金发展时期,出现了大量的135立体照相机,美国出现了不少3D电影作品,同时人们开始研制立体电视技术,发展了互补色立体分像电视技术。

20世纪50年代至今被认为是3D技术的第三次高潮期,20世纪70年代末,光开关眼镜研制成功,出现了时分式立体电视技术,21世纪初则出现实时立体显示系统。2000年以后,新型立体摄像机和立体显示装置发展迅速。新型立体摄像机具有双镜头,综合计算机、测控和图像处理技术,拍摄过程符合人的视觉机理。立体显示技术主要集中于基于液晶平板显示器的裸眼立体显示技术方向,国内外多家公司先后出品了摆脱眼镜束缚的裸眼立体显示器(又名自由立体显示器),实现了美妙的自由立体图像显示功能。立体显示技术的成就带动了 3D 视频技术的迅猛发展,2009年年末立体电影《阿凡达》的问世和2009年美国CES展上各大品牌3D电视样机的集体亮相,标志着第三次3D视频技术发展高峰的到来。[7]

自20世纪90年代起,欧洲开展了3D电视(3DTV)的研究,代表性的研究计划包括 DISTIMA、MIRAGE、PANORAMA、ATTEST、Mobile-3DTV 等。随后出现的著名研究系统有:德国HHI研究所的基于深度图绘制技术的3D电视系统、美国三菱电子研究实验室的多视点视频系统、日本名古屋大学的基于光线空间的自由视点视频系统、韩国光州科技学院的深度图分层表示的 3D 视频系统等。国内各大高校及研究机构也同步地在3D采集与重构、3D视频编码、深度处理以及立体显示等3D视频系统理论与方法上取得了很多成果。

目前,双目立体视频系统在技术上已较成熟,一般采用助视(例如戴眼镜)立体显示方式,在影视、艺术、展览展示、航空航天、监控等文化和国防等行业得到了应用。例如,很多电视机厂商将3D功能作为配置之一,使戴立体眼镜式家用电视进入家庭,其编码传输制式与现有二维电视兼容。

由多视视频技术支持的不戴立体眼镜的自动立体显示器目前主要在一些专用领域得到应用,例如用于展览展示、广告、医疗教学等,其进入家庭的应用在技术上主要有两方面的限制:一是其 3D 内容获取由多摄像机完成,多个摄像机同步一致地变焦、调焦、变光圈等,在技术上难以自动控制;二是多视视频巨大的数据量,尽管目前已实现了较大的压缩率,但离广播电视的实际应用要求仍有很大距离。采用深度增强的 3D 视频格式虽能因减少采集端的摄像机数而减少数据量,但数据量仍然很大,多视视频加深度数据的编码压缩以及深度信息获取的质量等尚需技术上的进一步突破。

总之,当前 3D 视频技术的工作重心已由第一阶段的多视点视频技术转移到第二阶段的自由视点视频技术。无论是在技术、产品,还是市场应用方面,自由视点视频都是 3D 视频技术未来的发展方向。深度信息的获取与处理是自由视点视频系统的关键技术,基于深度的3D场景重建和3D内容生成在3DTV、虚拟显示、沉浸视频会议、影视娱乐等领域有着广泛的应用。1.3.2 3D视频系统的关键技术

由图1-2可知,从数据采集与处理及系统性能角度,可将3D视频系统的关键技术归纳如下。

1.3D视频数据获取

3D视频数据获取主要包括3D彩色纹理视频的采集和深度视频数据的获取,一般通过多摄像机采集获得彩色纹理视频数据,通过深度传感器或者立体匹配的方式获得深度视频数据。目前,双目立体摄像技术日趋成熟,已有商用的立体摄像一体机,而今后的研究重点是多视摄像系统和深度传感器系统。在多视采集中,为保持N个视的一致性,需对N个摄像机进行参数标定和系统校正。当前的方法是基于固定焦距、光圈和固定位置的,但在实际拍摄时由于需要变动光圈、焦距和位置,此时要使N个摄像机同步一致,在技术上较难实现。

深度信息获取方法主要有两种:一种是直接通过深度传感器获取的主动式深度获取方法;另一种是从立体图像对中通过立体匹配的被动式获取方法。深度传感器方法在平坦区域精度高,边缘区域效果不理想,且易受噪声和不反射空洞干扰,此外其获得的深度图分辨率低,给实际应用带来了困难;立体匹配方法在纹理丰富的区域有较高精度,而在颜色单一平坦区域效果很差,并且匹配精度和速度一直是困扰实际应用的问题。

2.3D视频编码压缩与传输

3D 视频数据除了包括时域冗余度、空间冗余度外,还包括视点间冗余以及3D视觉冗余。国际标准组织ISO/IEC的MPEG以及其与ITU-T的VCEG组建的JVT 小组制定了多视点视频编码(Multi-view [8]Video Coding,MVC)的国际标准,称为H.264/MVC,相应的测试平台为校验模型JMVC。我国音/视频标准组织也开展了制定立体视频[9]编码的AVS标准的工作。JMVC的计算复杂度是H.264/AVC的数十倍。为提高超高清电视视频的编码效率,国际标准组织在H.264/AVC基础上开展了高性能视频编码(High Efficiency Video Coding,[10]HEVC)标准的研究,在HEVC基础上,3D视频编码新标准3D-HEVC正在研究制定中,但是其复杂度远高于H.264/MVC。从以上的分析可知,面向应用,需要研究低复杂度的3D视频编码算法。此外,现有 3D 视频编码方法的预测结构设计目标主要是消除空间冗余度、时域冗余度和视点间冗余度,很少或没有考虑 3D 视觉冗余,这是在今后的研究中需要重点突破的。

视频传输是3D视频技术链中的重要部分。在视频传输过程中,网络的异构、信道带宽的波动、传输环境的不可靠以及接收机能力等都可能造成信道错误,而致使视频流分组丢失,导致解码视频质量严重下降。对于 3D 视频压缩流,信道错误扩散呈现出新的特点,不仅在同一视点的相邻帧,而且在同一时刻的相邻视点中扩散,从而对解码视频质量造成更严重的影响。因此,为了 3D 视频数据的有效传输,需要研究基于相应3D视频编码框架的解码端差错隐藏技术。

3.多视点图像合成绘制

虚拟视点绘制技术能够实现自由视点视频的交互性,在解码端,以实摄像机获取的视图的解码图像作为参考生成更多的虚拟视图,以满足观看者任意选择视点,这就是中间(虚拟)视合成绘制。基于深度图像的绘制(Depth Image Based Rendering,DIBR)是适用于自由视点视频的虚拟视合成技术,现有的方法在快速和准确之间相互制约,如何提高绘制质量和绘制速度是需要进一步研究的问题,这其中涉及要准确、快速地提取深度信息、联合考虑3D视频编码和绘制等问题。

4.立体显示质量及用户舒适度评价

经3D视频处理链处理得到的3D视频数据最终将显示在各类立体显示器上,以使观看者获取立体浸沉感。健康的立体视觉效果使人身心愉悦,而不当的 3D内容产生方式和显示方式也会使人感到难受,如两眼聚合焦点调节不一致是引起柱透镜裸眼立体显示器观看时视觉[11]不适的主要原因。因此,需要对 3D 视频内容和3D显示进行质量评价。立体质量评价的模型可以反过来用于3D视频系统,对视频编码、重建、误码掩盖和视频后处理等算法进行优化处理。立体质量评价方法分主观评价和客观评价,主观评价需要特殊的环境和设备,操作复杂、费时;客观评价虽然使用方便,但现有的方法与主观评价结果的吻合度还有待提高,不能很好地反映人眼的视觉特性,尚需深入研究。

此外,现有 3D 视频技术链上各个步骤的失真测度主要依据传统的平均绝对差(MAD)、均方差(MSE)、峰值信噪比(PSNR)来度量,没有反映人眼对于3D图像失真的主观感知。此外,人眼观看立体显示时的视觉舒适性不仅与3D显示器的几何参数有关,还与3D内容的视差、运动有关。目前对于3D系统终端用户的体验质量(Quality of Experience,QoE)评测及3D 视觉舒适度评价的研究才刚开始,需要系统、深入地研究。

结合作者团队近年来在3D视频处理方面的部分研究成果,本书对3D视频系统的关键技术进行基础理论和典型算法的介绍,并展开讨论,其中重点分析和讨论深度增强格式的3D视频技术。

1.4 本书的结构

本书分为6章,结构安排如下。

第1章扼要介绍立体视觉、3D视频的概念和系统组成、立体图像显示方式、3D视频数据的表示及其对应的3D视频系统归类,此外,简要回顾了3D视频技术发展的3个高潮及未来的发展趋势,最后对3D视频处理链中的关键技术作了概括和说明。

第2章介绍3D视频数据采集。首先介绍3D彩色视频数据采集的基本理论,分析系统结构的优选和关系模型,介绍摄像机成像模型参数,并给出了基于已标定和未标定的多摄像机图像校正方法。该章后半部分以作者近年研究成果为基础,着重阐述和分析深度信息获取的理论和方法,主要包括以Kinect深度获取为例的主动式深度传感器方法和几种基于立体匹配的深度估计方法。

第3章讨论3D视频加深度编码技术。首先介绍视频编码压缩的概念、基本原理、主要方法及一系列国际标准的形成过程和发展现状,然后着重介绍当前主流的3D视频压缩标准,即基于H.264/AVC的多视点视频编码架构和3D-HEVC的技术特点,最后详细分析了深度图编码的基本特性,并介绍作者团队提出的深度编码方法和基于深度表示的3D视频编码方法。

第4章讨论3D视频解码端差错隐藏技术。从信道错误会严重影响解码视频流质量的概念入手,介绍了差错隐藏技术的原理和典型算法,随后详细分析了多视点视频和视频加深度视频的差错隐藏方法和技术特点,在此基础上重点阐述了多视点加深度视频MVD的差错隐藏算法,并介绍了MVD隐藏算法在ATM平台上的实现。

第5章讨论基于深度表示的3D系统的虚拟视点绘制技术。首先介绍虚拟视点合成的概念、发展概况及技术特点,然后给出基于深度图的虚拟视点绘制的一般过程和方法。最后,以作者团队研究成果为基础,讨论了通过深度图预处理提高绘制质量的方法和通过后处理空洞填充来提高虚拟视点绘制的方法。

第6章首先对立体视频质量主观评价和客观评价的研究概况进行简要综述,然后介绍和讨论作者团队提出的4种全参考立体视频评价方法,分别是基于视差、基于视觉关注度、基于双目立体视频最小可辩失真模型的立体质量评价方法、基于边缘差异的虚拟视图质量评价,最后介绍一种基于深度合成的无参考立体视频评价方法。

参考文献

[1] 高新波,路文. 视觉信息质量评价方法[M]. 西安:西安电子科技大学出版社,2010.

[2] 林甡. 多视点自由立体图像合成算法[D]. 天津大学,2007.

[3] TAO Y,WANG Q,GU J,et al. Autostereoscopic three-dimensional projector based on two parallax barriers [J]. Optics Letters,2009,34(20): 3220-3222.

[4] MORISHAMA H,NOSE H,TANIGUCHI N,et al. An eyeglass-free rear-cross-lenticular 3D display [J]. SID Symp. Dig. Tech.,1998,29: 923-926.

[5] CHIEN K W,SHIEH H P D. Time-multiplexed three-dimensional displays based on directional backlights with fast-switching liquid-crystal displays [J]. Applied Optics,2006,45: 3106-3110.

[6] DUENSER A,BILLINGHURST M,MANCERO G. Evaluating visual search performance with a multi layer display [A]. The 20th Australasian Computer-Human Interaction Conference [C]. 2008.

[7] GRAU O,BOREL T,KAUFF P,et al. 3D-TV R&D activities in Europe[J]. IEEE Trans on Broadcasting,2011,57(2): 408-420.

[8] ISO/IEC JTC1/SC29/WG11,ITU-T SG16 Q.6. Requirements on Multi-View Video Coding V. 7[S]. 2006.

[9] 数字音/视频编解码技术标准工作组[EB/OL]. http://www.avs.org.cn/.

[10] SULLIVAN G J,OHM J,HAN W,et al. Overview of the high efficiency video coding(HEVC)standard[J]. IEEE Transactions on Circuit System for Video Technology,2012,22(12):1649-1668.

[11] YANOA S,EMOTOA M,MITSUHASHI T. Two factors in visual fatigue caused by stereoscopic HDTV images [J]. Displays,2004,25: 141-150.

第2章 3D视频数据的采集与深度获取

基于深度的立体视频系统采用“纹理+深度”方案,能够更加有效地表述3D场景,既可以降低采集端的摄像机数量,又能在显示端根据需要绘制出一定范围内的任意视点,因此,在存储以及场景重建灵活性方面比仅有多个视点的多视点视频更有优势,成为非常有前途的多视点/自由视点视频系统解决方案。对于“纹理+深度”自由视点视频系统来说,源端的数据获取包括多视点彩色纹理视频数据的采集和深度图像获取两方面。

本章首先分析3D视频数据采集的基本理论、系统结构优选和关系模型,然后介绍几种多视点图像校正方法,最后着重讨论了深度信息的获取理论和方法。

2.1 3D视频数据获取概述

客观世界在空间上是三维的,根据人的视觉系统特性可知,深度是最有效的第三维信息。3D视频具有提供观察3D场景深度感觉的功能,这种功能又称为立体感。人类感知自然深度是由于左、右眼观看真实世界有轻微的差异,每只眼睛从稍有不同的视角看到略有不同的图像,大脑将这两者的信息融合,从而获得3D立体感觉。将这一生理过程经仿生技术实现时,可用两个其间距为双目距离的平行摄像机拍摄同一场景,使每个摄像机从对应人眼位置的视点捕获景物,如果显示系统可以确保每只眼睛只看到对应的视,就可使人眼产生 3D 深度感。这样的系统称为3D立体视频系统。

如图2-1所示的3D立体视频系统处理链,其中,3D内容获取处在技术链的最前端,包括 3D 彩色纹理视频及其相关的深度信息获取,这是本章主要讨论的内容。图2-1 3D立体视频系统

为了有效地进行 3D 视频数据的编码传输,在实际应用中,视数被限制为 2个或3个,因此在显示端就需要合成更多的视。这引出一个问题:需要多少相机才能无误差地合成任意位置视点,以及这些相机的摆放密度需要多少,我们将在2.2节讨论这个问题。在多摄像机采集过程中,各摄像机的摆放位置难以做到非常精确,为了消除摄像机几何位置的误差,对采集得到的多视点图像必须进行校正,这部分内容在 2.3 小节介绍。另一个问题是:如果只利用颜色信息,由 2 个或 3个相机视获得质量好的视合成是不可能的,对于高质量的视合成还需要提供附加的场景几何信息,如每个像素的深度数据。因此,深度信息的获取对于深度增强的3D视频系统十分重要,2.4小节将分析深度获取方法。

2.2 3D视频数据的采集

本节介绍对彩色视频的采集方法,包括双目摄像机采集和多摄像机采集。2.2.1 双目立体视频采集

1.平行摄像机系统

图2-2为双目平行立体摄像系统的几何模型。其中,X坐标表示水平方向,Z坐标表示摄像机与物体P(x,y,z)的距离(图中未画出垂直于纸面的Y 坐标);C、C分别是左、右摄像机的光学中心,其lr间的连线(与X轴重合)称为基线B;两条粗线 L、L表示左、右成像lr平面,O和 O是左、右成像平面的中心,P和P是物体P点在左、右lrlr平面的成像点u和u相对于平面中心的位移,其中P为正值,P为负lrlr值;f为摄像机的焦距;在图2-2中P点在X坐标上为负值,在Z坐标上为正值。

图2-2中的三角形ΔCOu和ΔCCP以及ΔCOu和ΔCCP是相似三llllrrrr角形,于是可得图2-2 双目平行立体摄像系统几何模型

由式(2-1)和式(2-2)可得

定义P点在左、右平面的成像点离各自平面中心的位移之差为视差d,对于平行摄像机,即是水平视差。则有

由式(2-4)可知,视差d与深度Z(摄像机光学中心到物体的距离)成反比。

图2-2 中,P、C和C这3 点构成的平面称外极平面(Epipolar lrPlane),L、L称外极线,这种系统的特点是:由C和C的连线所构lrlr成的基线B与外极线L、L两两相互平行。lr

由平行摄像机系统获取的立体图像对有以下约束。(1)外极线约束

图2-2中左图像上的点u在右图像上的对应点(匹配点)必然位l于外极线L上,故由左图像上的寻找右图像中的匹配点无需二维搜r索,而只需在外极线上做一维搜索,此种受外极线约束的特性使左、右匹配点之间仅有水平视差。(2)相似性

左、右图像对中的对应点(例如图2-2中的u和u)被认为有类似lr的亮度大小。(3)唯一性

由于物体上的一个点仅投射到每个成像面上的一个点上,左图像上的一个点在右图像中的对应点唯有一个。(4)连续性

除物体的边界和遮挡区域以外,在假设物体的表面是平滑的条件下,图像的视差是连续变化的。(5)有序性约束

两幅图像所对应的一条线,其上面的对应像素点的排列顺序相同(除遮挡区外)。

在平行摄像机系统中进行视差估计时,就沿用上述特性。

在视差估计中应遵循外极线约束、唯一性约束、连续性以及有序[1]性约束等。

2.会聚摄像机系统

除平行摄像机系统外,有时也采用会聚或弧形一维分布的摄像机系统。这种系统在采集场景时,对靠近摄像机的物体所获取的视频常比平行摄像机系统获得的深度感知更强,因此在一些3D影视制作中得到了应用,图2-3所示为其几何模型。由于两台摄像机之间有会聚角,其获取的左、右两个图像必会倾斜,因此,外极线L、L和基线lrB均不平行,这使得寻找左、右图像的对应点需二维搜索,左、右匹配点之间除了水平视差尚有垂直视差,后者对应于人的视网膜上下方向的视差。图2-3 双目会聚立体摄像系统几何模型

双目会聚立体摄像系统虽可强化深度感,但它所获取的立体对被直接投影到屏幕上观看时会有深度失真,例如梯形失真。当摄取一个具有相等间隔线的矩形点阵时,左摄像机显现的两条相邻线之间的垂直距离看起来比右边的大(右摄像机所生成的图像则相反),且又增加了视差估计和预测的复杂性,就影响了其应用的广泛性。2.2.2 多视视频采集

多视视频是由3个以上摄像机同时采集同一场景获得的,多视视频系统具有观看的立体视角宽,便于得到随人眼视向改变在屏上即时地观看到所变化的立体场景等功能。目前的多视点采集系统,其类型按照摄像机摆放位置的不同大致可以分为线型(平行式)、弧型(会聚式)、发散式、棋盘格式等,还有特殊的,例如全向视频采集系统。图2-4(a)和图2-4(b)分别给出会聚式和平行式多视摄像机系统的示意图。例如图2-4(a)中,N个摄像机位置有N个真实的视,而在这些视之间可内插出所需质量的虚拟的视,从而可观看的立体图像视角范围可扩展至整个虚线所示的120°扇形区域。图2-4 多视摄像系统示意图

多视点采集问题可以理解为一个空间信号的采样与重构问题,若仅从图像采集的角度考虑,多视点采集就是记录场景中不同视点的图像信息。但若把三维场景中的光线理解为一个广义上的集合,那么多视点采集就等同于对此集合进行数据采样。同理,对采集到的图像信息进行绘制重构及新视点合成,就等同于对采样后的集合进行数据重构。

无论多视点系统采用哪种采集方式,最终都会得到三维场景各个视点的图像信息,甚至场景的深度信息。根据这些采集到的场景信息,利用相应的算法就可以在显示端对三维场景进行重建或新视点合成。然而,多视系统需要多少个摄像机为宜,这里需要解决如下问题。

①需要采集多少个视点的图像才能完整地重构三维场景?

②视点数与立体显示分辨率以及立体角之间的关系是怎样的?

以下两小节将深入讨论这两个问题。2.2.3 多视采集系统摄像机数量的优选

1.采集系统模型

在建立模型时,采集系统中的摄像机均可以简化为理想的针孔模型。如图2-5所示,所有摄像机均可看成位于同一个平面上,但它们的光轴汇聚于点C,中间一台正对点C的摄像机称为中心摄像机。因此,存在一个垂直于各个摄像机的光轴线和包含点C,且平行于中心摄像机的像平面。将该平面称为零视差平面,即场景中位于该平面的物体在摄像机中成的像其视差均为零,如图2-5 中的水平虚线所示。设场景中物体位于深度Z处,摄像机会聚弧形的半径为L。图2-5 会聚型多摄像机系统模型

2.采集系统的参数

可包括场景参数和采集系统参数。(1)场景参数

①场景中物体表面的纹理分辨率。

图2-5中Z表示场景中物体表面上一点到采集摄像机的距离。设fii为一频率数值,该数值是场景中物体空间表面纹理在深度方向的投影数值。一般来说,物体表面的纹理特性并非均匀分布,因此可定义场景中所有物体纹理的最高空间频率为。基于上述定义,采集系统中每个摄像机采集到的物体表面纹理频率为fcycle/irad。这里只定义场景中物体表面纹理最高空间频率的原因在于:采集系统中摄像机的物理特性导致摄像机只能捕获某一特定频率下的空间图像信息,因为实际系统中摄像机的像素间距及焦距都是受到工艺水平等因素的影响,并非是理想的摄像机。

②场景中物体表面的反射特性。

一般而言,理想的Lambertian表面纹理能够保证从不同的角度观看物体表面的纹理色彩没有变化,并对入射光能够进行完全反射。在进行采集系统建模时,为了简化,这里暂时不考虑光照条件的变化对场景物体表面纹理造成的影响。

③场景的深度范围。

为方便分析,把所有位于被采集场景中物体的深度范围定义为Z~Z,如图2-5所示。minmax(2)采集系统参数

①采集摄像机和虚拟摄像机的分辨率。

这里的虚拟摄像机是指需要绘制的新视点所对应的非真实摄像机。由于前面已定义场景中物体表面纹理的最高空间分辨率为,此上限频率也约束了采集摄像机和虚拟摄像机的分辨率。为了简化起见,假定采集摄像机分辨率等于虚拟摄像机的分辨率,用f表示。如果f

②采集摄像机的位置排列方式。

图2-5 所示的会聚型采集系统模型中摄像机位于一个半径为L的圆弧上,摄像机间为等间距排列,其间隔为Δx,每台摄像机的焦距均为F。

3.奈奎斯特采样得到的最少摄像机数

如图2-5所示,从点C看零视差平面上的空间频率可以表示为

由于多视点的采集可以等同于采用离散的摄像机从零视差平面对场景中物体的光线强度进行采集,因此,利用经典的采样理论分析,得出该场景的奈奎斯特采样频率为

上式中代表了采样的角度间隔。为了防止过大的重建误差,必须满足下面两个条件,即

考虑式(2-5)和式(2-9),f应该在cam中取合适的数值,即

因此,根据上述式(2-5)~式(2-11)可以获得基于奈奎斯特的采样频率f和最大的采样间隔Δx,即nyqmax

其中,

由于图2-5 中采集系统所覆盖的视角(Field of View,FOV)为ω,因此,我们能够根据上述得到的最大的摄像机间距Δx来计算所需max最少的摄像机数目,即

根据上述分析,得到的最小的摄像机数目不但与场景参数和采集的摄像机参数相关,而且与场景中物体的表面纹理特性及其分辨率有关,因此,需要对多视点数据场景的光谱特性进行分析。

4.多视点数据光谱分析得到的摄像机数

如果用表面全光函数表示多视采集系统得到多视点数据,通过对场景中光线的光谱特性进行分析和实验验证,可得出以下结果:在对真实的光线进行采样时,可近似认为场景是由多个固定深度层次的深度层组成,从而根据光谱特性的分布可以导出最大采样间隔Δt(详见文献[2])为max

于是可推得通过光线采样所需的采样图样图像数目为

5.经实验验证对摄像机数的优选(1)满足N或N所需的摄像机数nyqreq

将图2-5、前面所述符号和相应取值在表2-1中列出。其中,摄像机分辨率f能满足场景表面纹理分辨率f,故取值相同。camscene表2-1 场景及采集摄像机的参数

由式(2-12)可知,满足奈奎斯特采样频率时摄像机间的最大间隔Δx为max

由式(2-14)可得

于是,由式(2-15)可得

可见,若满足奈奎斯特采样频率时,采集系统所需的摄像机数应至少为 424台。由式(2-16),根据光谱特性分布得到的采样间隔为

代入式(2-17)得

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载