在线视频技术精要(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-12 04:33:44

点击下载

作者:晓成

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

在线视频技术精要

在线视频技术精要试读:

前言

大约在1995年,个人电脑还是较少数人的稀罕玩物,笔者有幸获得一台奔腾电脑,吸引同学少年的,除了游戏,还有可以用电脑来看VCD影碟。当时电脑的计算力尚不足以应付解码任务,需要加装所谓的“解霸卡”才能流畅播放影碟。而在一众碟片中,个人最爱的是施瓦辛格所演的电影《终结者2》,每每遇到朋友小聚,或略有闲暇,总要找出来播放,我们沉浸在电影构造的世界中许久。数年后,碟片损坏,让人颇为不舍。

二十余年过去了,在线视频行业的发展日臻成熟,在网上看电影、电视早已成为人们日常的娱乐选择,不但各种大片、综艺、体育、动漫应有尽有,而且对于偏爱的旧日经典,无论是《终结者》《真实的谎言》这样的电影,还是周星驰的喜剧、成龙的武打,抑或《西游记》《红楼梦》《射雕英雄传》等剧集,都能很容易地找到。回顾往昔,很令人感叹技术进步对生活的馈赠。在这许多年当中,笔者投身软件与互联网行业,机缘巧合下,工作过的多家公司均在视频领域占一席之位,与不同公司的朋友也多有交流,建立友谊,长年的思、见、行,逐渐积累了个人对在线视频相关技术的一些理解和观点,以是不揣浅陋,编汇于此,大约也可算作对自身知识体系的一种总结和梳理。譬如软件开发最终发布,即使最初版本不能尽如人意,反复迭代提升之下,或者得有提高,两相比照,笔者将这本书也看作“初版本发布”,希望以此为基准,未来再有进益。

这本书从在线视频行业着眼,以列举音视频技术为主,辅以数据、推荐、广告、人工智能等多方面相关技术的概述,目标读者既可以是新进入行业、急需获取行业知识的朋友,他们希望快速了解各项技术的基础概念和不同技术之间如何相互影响,发挥作用;还可以是已在行业内耕耘多年、掌握了某一领域知识、意图对行业全貌有所了解的工程师,他们希望构建完整的图景;也可以是已经带队攻坚、掌控公司或部门研发方向的负责人,希望他们提出意见,相互学习。技术之道浩如烟海,笔者逞强着墨,难免错讹,唯有预先祈请读者原谅,若肯与笔者联系,费心指正,则当感激不尽。

本书从构思、落笔到完本共计12个月,后又经数次修订,其间艰难困苦不足为外人道。千言万语唯有化为感谢,感谢越姐帮助联系出版并作序推荐,感谢俞彬和任芮池两位老师的编辑和推广,感谢德良对音视频章节的审阅和意见,感谢在Hulu公司结识并给予启发的小伙伴们,感谢家人的支持和理解。2019.3第1章 在线视频行业

什么是在线视频行业?视频技术的历史是什么样子?什么是文件格式和编码格式?何为标准组织?本章试图以列举或纵览的方式,给出个人视角中以上问题的答案,以此作为开篇。1.1 概述

什么是在线视频?概而言之,就是通过互联网,让使用者可以有选择地观看视频内容的服务。

通常服务提供商会依据自身商业模式的不同,提供不同种类的服务,例如点播或者直播。顾名思义,点播就是根据用户请求播放视频内容,用户知道自己想看什么并选择观看;直播则是节目制作方以实时的方式播出,用户有收看权而难有选择权。

在美国,点播领域的重要公司包括YouTube、Netflix、Hulu、Amazon Prime、HBO等;直播领域则涵盖Sling TV、DirecTV Now、Hulu、YouTube在内的大小公司。

在中国,是否拥有对应业务的牌照决定了服务提供商是否能在特定载体和设备上提供服务,较重要的证照包含互联网视听许可证、IPTV牌照、互联网电视牌照等。故而包括爱奇艺、腾讯视频、优酷土豆、小米、暴风、迅雷、乐视、Bilibili、文广、华数、百视通等在内的大量在线视频公司以其战略取向不同、拥有的牌照或牌照合作方不同,在不同领域提供不同形态的视频服务。

根据收入模式的不同,在线视频还可以分为倚仗收费服务的Netflix模式、兼顾收费服务和贴片广告的Hulu模式、专注广告而对用户免费的YouTube模式(YouTube虽然也提供收费视频或频道服务但用户寥寥)等。

对于纯粹的收费会员模式而言,用户注册后每月付给视频网站一定的费用(如Netflix是每月9.99美元、13.99美元和17.99美元),从而自由播放网站任何内容,不需要再观看广告。对于广告与收费兼备的模式,用户在按月缴纳会费后,仍会在观看视频时看到视频开头、中间、结尾插入的视频或交互式广告,这为视频网站带来另一部分收入,但通常为了竞争需要,同等质量服务所需缴纳的会费较无广告收费模式低。针对免费模式,用户不需付费,即可选择网站任意内容观看,但通常需要忍受较长的广告时间。

若根据视频内容划分,则在服务提供商中,既有以用户上传内容为主的YouTube,又有以授权电影电视内容以及自制剧为主的Netflix、Hulu、爱奇艺,以及由于历史原因二者兼备的优酷等公司。YouTube或早期优酷类型网站的成功,仰仗于收集海量用户上传他们制作的视频,而Netflix、Hulu、爱奇艺等公司所依赖的,则是获取数量众多、质量出色的电影电视节目的授权,以及自己投资拍摄的独家内容。此外,还有另外一些公司自身并不提供内容,但通过和其他公司的合作,将多家提供商的内容聚合到一起,供用户搜索和播放,以此按照类似渠道商的方式分成。

在线视频已经极大地影响了用户消费视频内容的方式,很多用户一提到Netflix就想起《纸牌屋》,提到爱奇艺或优酷就想到综艺《中国有嘻哈》或自制网剧《白夜追凶》等,提到腾讯视频就想到NBA,上Hulu看棒球系列赛或世界杯。根据2018年的统计数据,中国网络视频用户的数量已经从2008年的2亿左右提升到现在的6亿左右,这种改变在可预见的未来还将持续下去。

为什么在线视频能够这样迅猛地改变我们的生活呢?

首先,显然是得益于互联网的普及与用户习惯的建立。在美国家庭中,宽带网络的普及非常早,在2005年就已达到6000万人,近年普及率更是达到87%以上。同期,中国互联网用户也从2005年的1.1亿增长至2017年的7.5亿,超过全国总人口的一半。而互联网用户中,使用视频服务的用户比例也在逐年增加,中国的数据是从2008年的68%提升至2017年的77%。互联网浪潮带来的各种便利,在线视频服务均能比较好地享受到,例如联网服务随时随地可以获取,多数内容不论从手机、机顶盒或网页都可以很好地访问,并且不像录像带、VCD、DVD或蓝光等过往的技术那样需要实物载体,服务按照流媒体的方式提供,成本很低。

进一步来说,相比传统的广播电视或碟片租赁,在线视频服务可以灵活地变更服务形式,比如提供不同清晰度的视频、给予不同组合的用户套餐、替换视频内部的广告等;可以让每个用户在不同位置、不同设备上获得无缝衔接的体验;甚至可以根据每个用户的需求、行为习惯提供不同的服务、推荐不同的视频、投放不同的广告。所以,和以往所有人只能选择很少的内容、选择有限的观看方式相比较,在线视频服务的送达率和满意度都有巨大的改善。

此外,在线视频服务借助开发和运营效率的优势,可以根据数据信息的反馈,定制或选购更受用户喜爱的内容,可以更好地构建和使用内容的组合,也可以根据数据的指导,进行细致优化的各环节服务,提升用户观看体验,还可以与其他服务(如社交)、硬件容易地交换数据和结合,形成生态体系,保证用户的黏性。没有形成在线看视频的习惯的人,会尝试接受在线视频;已经形成习惯的人,很少会退到以往的使用习惯上去。所以,在线视频服务的市场如滚雪球一般越滚越大,在不到一代人的时间里,世界就已完全不同。

一份视频在其生命周期内,会历经采集、编码、编辑、存储、转码、传输、播放等不同过程,也是在线视频需要提供的基本能力。在整个过程中,在线视频服务提供商需要获取视频内容,或提供用户自主上传内容的平台,或主动从媒体集团、内容发行商、电影电视工作室乃至自制剧部门等处导入内容,建立内部统一的存储和转码能力,并通过内容分发网络,传送到用户使用的不同浏览器、移动设备或机顶盒设备上播放。

一份视频在其生命周期内,如何引起用户的注意,如何从网站的视频库中发现,如何在播放流程中嵌入合适的、不引起用户过分反感的广告,如何人性化、贴心地提供特殊的功能等,可以算作进阶的问题,在线视频服务需要持续引入和使用较新的技术或渠道解决问题,帮助视频服务提升效率,构建竞争优势。

在以上过程中,较大型的公司可能在所有重要环节都自主开发符合自身需求的软件,包括工具、服务、移动端APP与网站等,也有一些公司会在其中特定环节使用专业技术提供商所开发的工具、服务或SDK。故而在线视频伴生或衍生的产品与服务可以扩展到编码器、服务器厂商、后期制作工作室、在线广告供应商、CDN公司、云计算提供商等多个领域,其中也有各个层面的开源或商用技术。

从Nginx到Wowza Media Server,从Hadoop到AWS,从Freewheel到Nielsen,从数据交换到BI分析,无数的公司、开源社区、高校和标准组织,共同构成了在线视频庞大技术体系的方方面面。本书将力图涉及上述的主要技术领域,给出个人视野中所见的主要知识、各个技术领域之间的联系、一些可行的方案以及关于技术演进的看法。

行业中有另外一些商业形态,例如Spotify、网易云音乐、虾米等类型的在线音乐服务提供商,Snapshot、快手、抖音等类型的短视频服务提供商,虎牙、斗鱼等类型的直播服务提供商,阿里云、Brightcove、七牛等视频云类型的服务提供商等,因为商业模式、服务内容上有相似之处,其技术栈许多环节颇有相似之处,本书应该也可提供一定的参考。1.2 视频技术:历史

写下本节标题时,颇觉得有些过于宏大,因为视频行业开辟有年,方向众多,源流错综复杂,明星公司各逞一时之豪,关键技术几经换代,时而席卷包举,时而割据偏安,短短数十年,有如朝代兴衰,远非在此短短数页所能尽述。然而目力所及,总觉得有不可磨灭之处,不应完全遮蔽于时间长廊之中,下面或按公司,或按产品,列出个人对当前行业格局仍影响深远的一些内容进行介绍,星星点点,挂一漏万,只期望构建出一幅相对立体的画面,可以起到温故而知新的作用。1.2.1 技术与产品驱动

在行业生态、产品形态尚未完善的时候,技术是世界变化的主要驱动者,下面谈到的几家公司,都以其技术和相应的产品闻名。(1)Microsoft

今天的人们虽然仍将微软公司视作行业巨头,但环视四周,Google、Apple、Facebook、Amazon等公司也绝不逊色,甚至还有超出。可若回溯至20世纪90年代的某些时段,微软几乎可以算作唯一的霸主,甚至是整个软件行业的代名词。

从编程语言到操作系统,从公共服务到消费硬件,当时微软公司的野心是将触手涉及软件领域的方方面面。他们意识到多媒体娱乐在人们生活中的地位,从很早就开始全面支持以音视频为核心的多媒体技术。自支持DirectX编程接口的Windows 95开始,微软的思想和产品在视频行业占据了重要的版图。

微软在1996年3月发布了开发者中非常著名的DirectShow(见图1-1),可以看作世界上第一个被广泛应用的音视频框架,它被置入DirectX 5中,并在之后成为Windows 98的标准组成部分,直至现在,仍有大量的多媒体应用程序基于DirectShow编写。在Windows Vista之后的版本,微软另行提供了一套较新的多媒体框架Media Foundation,也赢得了许多用户。从Windows Vista到Windows 8.1,微软还在操作系统内嵌了专为大屏设计的Media Center功能(见图1-2),为用户提供了解决方案。图1-1 DirectShow的软件封面图1-2 Media Center的界面

在近年微软大力发展的云服务Azure中,有非常全面的视频服务解决方案,适合没有太多技术研发能力的在线视频服务提供商集成使用。由于公司过大,并非所有产品或项目都能取得成功,例如其MP3播放器Zune较之苹果的iPod,Sliverlight技术较之Adobe公司的Flash,市场地位都较为边缘化,甚至已经完全消失。

除了以上内容,微软还是DRM方案PlayReady的提供商,提供颇有市场声誉的内容保护方案。(2)Apple

乔布斯在离开苹果的那些年里,曾经用卖出苹果股份得到的钱收购卢卡斯的电脑动画部,成立了皮克斯(Pixar)动画工作室。在多年艰苦积累后,随着多部动画长片(如Toy Story)的成功,皮克斯动画工作室终以高价被迪士尼收购,这或许能够部分体现他对影音行业发展的向往和远见。

当20世纪90年代后期,乔布斯重新执掌苹果,首先稳定了军心,通过具有透明外壳的iMac扭转了财务报表的亏损,随后带来真正的革命,于2001年发布了划时代的产品iPod。配合2003年上线的iTunes音乐商店(见图1-3),iPod在短短数年之内就重塑了整个音乐产业的业态,最终控制了MP3播放器90%以上的市场,并于后续开启了由iPhone引领的智能手机时代。图1-3 iPod和iTunes

实际上,苹果公司在图像和影音处理上的口碑由来已久,即使在“Wintel”联盟风光的时候,也有固定的支持者为了多媒体功能而选择苹果的麦金托什系列电脑。公司早在1991年底就发布了著名的QuickTime第一个版本,支持许多沿用至今的功能,包括专有编码器、多轨道(Track)、可开放扩充的文件格式等,其文件格式后被接受成为MPEG4标准的一部分,即现今最为流行的视频文件格式MP4。

在2007年,苹果发布了移动时代最重要的产品之一——iPhone,让手机成为用户拍照、摄像和音视频观看的一大中心。随着iPhone 3.0在2009年发布,苹果开始推广HLS流媒体协议,利用M3U8格式作为索引、将整个流分成一系列很小的文件供客户端选择下载。凭借协议内容的简单有效、对CDN的友好,以及苹果用户的疯长,HLS协议很快在同时代的流媒体协议中独占鳌头,并直接影响了后来DASH联盟及协议的产生,开启了新的时代。

由于苹果在消费领域举足轻重的地位,在2017年的WWDC开发者大会上,公司宣称将全面支持HEVC和其衍生的图片格式HEIF,很可能将影响未来几年编码和图片格式的格局。除此之外,苹果还是视频流媒体服务潜在的重量级玩家。(3)RealNetworks

1995年,微软高管Rob Glaser离开公司,创办了Real公司,后改名RealNetworks。它开发了骨灰级网虫耳熟能详的一系列音视频工具(见图1-4),主要包括能播放多种格式文件的播放器RealPlayer、流媒体服务器Real Media Server(其商业版是Helix Server)、编码工具Real Producer(商业版为Helix Producer)等。图1-4 Real公司的音视频产品:Realplayer、Helix

与之配套,早期最流行的流媒体控制协议RTSP也是由RealNetworks和哥伦比亚大学合作开发的,公司还借鉴正在标准化过程中的先进编码技术,开发了专有的视频和音频编码格式(RV、RA)与文件容器(RM、RMVB),较当时流行的其他格式有巨大优势。

因为Real的编码技术能有效节约带宽和存储空间,又特别针对网络条件波动的情况进行了许多优化处理,不论在线观看还是下载播放的情况都能给予用户很好的体验,在世纪之交刚刚起步的互联网环境中如鱼得水,赢取了大量用户。

这一弄潮于时代浪尖的公司,巅峰时市值曾达到接近微软市值的一半,掀起了流媒体音乐和视频的风暴。但时势易变,自微软在操作系统中捆绑嵌入Windows Media Player后,需要付费的Real Player等产品的市场占有率就节节败退。虽然Real试图转型为服务类公司,也做了诸多尝试,例如建立起Rhapsody这样的互联网音乐品牌、发起对微软的诉讼(在多年旷日持久的交锋后获胜并获得了可观赔款)、售卖公司在多媒体领域的几百项核心专利和编码器团队换取再投资资金,即使到近年,公司也还有类似Helix Broadcaster这样令人眼前一亮的产品出现,但因整体战略、商业模式和市场策略上表现不佳,都未能挽救颓势。(4)Adobe

Photoshop曾经是PC时代最为著名的明星软件产品之一,被视为Adobe公司的代表作品,但让它成为消费市场明星的还是其Flash技术。Flash原是Macromedia公司设计的一种二维动画软件,后于2005年公司被Adobe收购,改称Adobe Flash。初始的Flash技术主要用于互联网网页的矢量动画,并使用向量运算的方式产生较小的、采用自己特殊格式SWF的文件,后支持FLV和F4V格式的视频,并设计了广泛使用的流媒体协议RTMP。

为支持整个多媒体生态,Adobe还另有流媒体服务器Adobe Media Server以及编码工具Adobe Flash Encoder,在业界颇有一定的影响力。对标苹果大获成功的HLS协议,Adobe公司还推出了基于HTTP的流媒体协议HDS,即HTTP Dynamic Streaming。在专业图像、视频和音频领域,Adobe也颇有建树,例如提供包含多种音视频工具的Adobe Creative Suite软件集、专业音频编辑和混合软件Adobe Audition、非线性编辑软件Adobe Premiere等。1.2.2 服务构建生活

互联网服务以其便捷的用户体验,独特的商业模式逐渐成为人们生活的重要组成部分,完善的网络环境和用户规模不仅惠及面向消费者的在线视频服务,还让云服务逐渐代替传统的授权软件,涌现出大量不一样的技术服务提供商,以下列出最为著名和有代表性的一些服务提供商。(1)YouTube

在2005年,Chad Hurley、陈士骏和Jawed Karim等几个PayPal早期工程师一起建立了YouTube,允许使用者上传、观看、分享和评论。到2006年11月,Google以16.5亿美元收购了YouTube并持续投入,直至其成长为世界上最大的在线视频网站(见图1-5)。截至2017年,YouTube的每月登录用户数达到15亿之多。图1-5 2005年的YouTube网站

YouTube的商业模式,是鼓励人们上传他们的视频,展示给其他人,藉由各式各样上传者制作的视频内容,包括剪辑、短片、预告、音乐电视、业余拍摄的视频、宣传片等,吸引用户观看,其广告产生的收入将与制作者分成。在绝大多数情况下,包括没有Google账号的所有用户都可以直接观看网站上的视频并不需付费,如果内容不够吸引人,制作者就无法获得足够的收入,以此激励制作者提供更好的视频内容。

由于Google带来的极客风格,也因为YouTube本身巨大的用户量,YouTube在多项视频技术上都走在业界前列,YouTube较早地使用了VP9等独立开发的编码技术,节省了巨大的带宽和加载时间,也较早地拓展全球化业务,提供数十种语言的版本供不同国家的用户使用。在2015年,YouTube全面切换到HTML5播放,取代已经落后的Flash技术,同年,YouTube也开始支持360度影片的上传和观看。此外,在视频网站中,YouTube也在精准全面的内容推荐、广告投放和售卖以及编码和流媒体优化等方面有着极高的口碑。(2)Netflix

在建立在线视频付费收看的盈利模式的服务提供商中,Netflix是当之无愧的先驱。公司早年的商业模式是提供在线DVD租赁,创始人Reed Hastings声称,他的动机源自某一次租的录像带过期被罚了40美元,就此他开始思考如何为用户提供更人性化的电影租赁服务。

Netflix首先推出的就是在线光碟租赁生意(见图1-6),相比之前称霸线下租赁的霸主Blockbuster,Netflix的轻资产、网上运营、邮寄到户让它可以用每次租赁0.5美元对5美元的价格大胜对手,随后,Netflix在1999年推出了无到期日、无逾期费、无邮费的会员制。图1-6 2002年的Netflix网站

2007年,Netflix终于推出了在线点播服务,相对租赁业务,在价格、随时随地服务获取、个性化设置等方面大幅提升用户体验,2010年Netflix开始打入国际市场,2011年展开自制影视作品(如《纸牌屋》)的制作,2017年4月,Netflix还宣布与爱奇艺合作,将一些影视作品授权在中国播放,当前他们拥有的美国及海外付费会员用户合计已达到1亿。

公司早期使用微软的编码等技术,在之后的年份里,逐渐建立起卓有声名的工程师团队,改善其与众不同的技术栈,例如H.264、Dolby Digital、VP9、OGG、HLS和DASH等。在编码方面,近年Netflix已经走在业界前列,一方面很早就建立了精细化的编码优化体系;另一方面,Netflix将机器学习、深度学习和主观评测结合,建立起远超侪辈的编码效能。Netflix较早地使用云计算技术,将大部分服务放在AWS上,从2012年到2015年,公司还逐步建设起自己的CDN能力,服务国际用户,并给予外界许多启发。

从其他方面看,自2000年开始,Netflix就已经推出了个性化的电影推荐系统,用户可以为电影打分,网站根据用户的观看和评论历史,以及有类似兴趣的用户观看记录,向用户推荐内容。由Netflix发起的“百万美元推荐竞赛”,既帮助工程团队广取众长,也极为吸引眼球,让内容推荐成为行业内的“显学”。(3)Hulu

2007年,NBC和新闻集团一同出资,组建了Hulu公司,为用户提供在线观看电影及电视剧服务,当前的主要股东包括迪士尼、NBC、21世纪福克斯和时代华纳。前期的Hulu与Netflix不一样,向用户提供免费的视频观看服务,但同时需要观看较长的贴片广告,后期则改变为类似会员制收费模式,与Netflix不同之处是,用户可以选择较便宜又没有额外观看限制的套餐,代价是仍需观看一定时长的广告(见图1-7)。图1-7 机顶盒上的Hulu

2013年,公司的主要股东曾想出售公司,但经过深入评估后发现在线视频的发展是业9界趋势,不应错失,所以反而大额出资,重塑公司的技术、服务和品牌。历经几年的二次发展,现在Hulu在美国已有数千万按月付费用户,此外,通过Yahoo等第三方渠道,每月也有数千万的观看量。Hulu还曾在日本投资,对当地用户提供在线视频服务,但运营不算成功,现已基本中止。当前Hulu于2017年最新发布的直播服务,将与有线电视台签约获取的上千个电视台以在线视频的方式,推送到千家万户,极受用户欢迎,有望成为公司的另一大倚靠。

公司很早就在北京设立研发中心,从清华、北大等顶尖高校招揽毕业生,为国内业界培养了许多高质量人才。Hulu是DASH协议的大力推动者和身体力行的使用者,在编码、流媒体、数据中心、大数据、推荐以及广告等方面都走在业界前列。(4)Amazon

Prime Video是亚马逊旗下的在线视频服务,Prime服务可谓大名鼎鼎,用户只要加入会员,就可享受在线购物2日内免费送达,此外还提供许多绑定的服务,包括免费电子书等,Prime Music和Prime Video也赫然在列。借助亚马逊的强势地位,Prime Video在用户数上不逊Hulu,设备支持方面甚至颇有优势。配合公司的全球战略,Prime Video的国家覆盖范围甚至还要大过Netflix。但是,由于缺乏独立运营,Prime Video的内容和服务吸引力上和以媒体集团关系著称的Hulu相比尚有欠缺,也无法在自制剧上和天价投入的Netflix相比。公司虽然于此特别注重,但是暂时还不能与其他家抗衡。

亚马逊的AWS是世界最大,可能也是最佳的云服务提供者,其中就包括云上的视频编转码、数据存储、分发服务、CDN等,Prime Video近水楼台,也享有相应的技术优势。作为巨头公司,亚马逊还拥有Fire TV和Alexa音箱等与视频服务具有协同效应的产品,它还在2015年收购了视频公司Elemental,Elemental在业界以其基于GPU的高速、高质量编码技术知名,这也增强了其视频服务的整体实力。(5)Sling TV

这是一项兴起不久的直播服务,由美国卫星广播巨头Dish Network推出,自2012年开始提供50个以上频道的直播节目,开始是通过Roku机顶盒提供服务,后来扩展到包括Fire TV、Android TV、Apple TV、XBox One、LG smart TV等在内的多种设备。公司的套餐设置(如“蓝色”或“橙色”等)颇为知名,到2017年中为止,共拥有200万付费用户。与此类似,DirecTV Now(属于AT&T)和PS Vue(来自Sony)也向用户提供多个频道打包的观看服务,以上公司大多还提供云录像(DVR)功能。(6)Brightcove

Brightcove(见图1-8)是知名的老牌视频云服务提供商,2004年,Jeremy Allaire创办了公司并担任首席执行官,他也曾是Macromedia公司Flash平台的开发主导者。Brightcove的视频云可以被理解为SaaS类型的服务,支持用户上传视频、在线编转码、内容管理、DRM保护、定制播放器、跨平台传输、视频分销和广告等。Brightcove对规模不大的中小公司提供有吸引力的,有足够内容保护机制的方案,也帮助较大的公司建立市场,交易视频内容。图1-8 Brightcove的Logo(7)Bitmovin

Bitmovin(见图1-9)是成立不久的视频服务新秀,与Brightcove提供相似的视频云服务,包括视频上传、转码、定制播放器、广告插入、数据分析等,因为没有技术负累,它专注于较新的技术栈(如动态码率技术、分段转码技术等),短短数年间已经建立起了较好的口碑。图1-9 Bitmovin的Logo(8)Conviva

Conviva是致力于在线视频优化和分析的公司代表之一,总部在硅谷,它通过接入在线视频公司的数据,帮助进行流媒体服务的分析,给出体验报告,并给予及时的预测和报警服务。即使较大规模的视频公司,也时常使用他们的服务,以替代自主构建数据存储和分析的设施。1.2.3 中国引领创新

以往,互联网的技术和模式,大都发源于美国市场,随后才能在中国的市场上见到模仿者,近年来却产生了一种新的趋势,即中国市场的领先公司开始依据市场特点和自身能力,首创出大量前所未见的应用方法、商业模式和技术方案,引领创新潮流,故而,中国的视频服务尤有值得记叙的一笔。(1)优酷、土豆

作为YouTube在中国的模仿者,优酷于2006底年上线,到2007年,其日视频播放量就11达到1亿,初始致力于成为短视频分享平台,后转型为授权影视作品的点播服务,并涉足电影电视制作领域。土豆网与优酷类似,也在2005年成立,在很长一段时间内,优酷和土豆是中国数一数二的视频网站,二者分别于纽交所和纳斯达克上市,并于2012年3月通过100%换股方式合并,成为优酷土豆集团公司,后续公司延续双品牌运营,于2015年10月被阿里巴巴宣布收购,现已成为阿里文化娱乐集团的一部分(见图1-10)。

优酷在技术上早期依赖Flash文件格式和相应流媒体协议,较晚才转向HTML5,由于国内网络基础设施的限制和昂贵的费用,优酷很早就开始自行建立CDN,又有提供视频平台服务、直播、游戏等业务,对各项现代技术都有涉猎。在阿里巴巴接手后,许多平台直接采用阿里的成熟技术,架构体系发生了很大改变。图1-10 优酷网站的视频上传页面(2)搜狐视频

搜狐于2004年成立了搜狐宽频,即搜狐视频的前身,此后在多年的发展中,搜狐曾多次站在时代前沿,在2008年搜狐成为北京奥运会互联网内容服务赞助商,2009年搜狐独家首播大量正版影视剧,2013年搜狐成为美剧资源最多的视频网站,2014年56网并入搜狐视频。由于搜狐本身在近年的互联网竞争中处于弱势,与新浪视频类似,当前的搜狐视频已经无法在行业内引领潮流,但仍试图从VR技术等方面突围。

技术上,搜狐视频令人印象深刻的是其传统与P2P方式结合的点播与直播实现。由于国内基础设施和带宽价格的问题,在很长时间内,P2P都被视作一剂良方,多家在线视频公司均借此成名,如被苏宁控股的聚力视频,被爱奇艺收购的PPS,被百视通收购的风行网,以及暴风影音、迅雷等。(3)乐视

今日的乐视深陷资金链风波,然而过去的年份中,公司也曾在视频领域有所成就。2004年,乐视成立,初期颇为挣扎,后在其他人没有意识到版权重要性的时候低价获取了大量优质IP,通过分销积累到第一桶金,到2010年以后,互联网影视渐成风尚,乐视也因此脱胎换骨,最高时曾十分接近在线视频服务的第一梯队。乐视在CDN建设、编解码技术等领域都有过独到之处,乐视电视提供较现代的界面设计和用户体验,也可供后来者借鉴。(4)爱奇艺

2010年,百度经过认真考量,上线了视频服务奇艺,后更名为爱奇艺,从最开始,爱奇艺就全面跟随Netflix和Hulu模式,致力于正版影视领域,力求覆盖全面,塑造和竞争对手相比较高的品牌形象。2013年,百度收购了PPS视频业务,并将其与爱奇艺整合,一举超过多家竞争对手,在随后几年中成为中国主流的在线视频网站,在综艺、电影、动画、自制剧等方面尤有优势。

技术上,爱奇艺在2013年、2014年后上线了多项亮点技术。例如“绿镜”功能根据大数据帮用户精简视频观看片段,基于Docker的分布式转码服务,视频广告投放平台、个性化首页等,近年在将视频、数据与人工智能算法的连接上,爱奇艺也有出色表现,并于2018年在纳斯达克成功上市(见图1-11)。图1-11 爱奇艺在纳斯达克上市(5)腾讯视频

腾讯视频在几大视频巨头中入局较晚,2011年才上线运营独立域名,与爱奇艺类似,它也定位在正版点播及电视直播上,其特色内容包括2013年上线的中国最大的英剧频道、2015年获取的NBA付费直播频道等。在技术布局上,腾讯视频不若爱奇艺全面开花,但胜在扎实推进,在存储、分发、编码、多终端支持、搜索、CDN、错误处理等方面均有可靠积累。近年来,腾讯建立了音视频实验室,与微信、QQ等部门的音视频技术团队相互砥砺,在服务质量上口碑颇佳。(6)暴风影音

最早这是一款由暴风科技设计的播放器,原本以单一软件覆盖多种解码方式为卖点,逐渐发展成依托P2P技术提供视频聚合服务的公司,近年来,暴风公司将布局重点转向VR,发布了暴风魔镜等产品。暴风曾在2007年收购了早年由精英程序员梁肇新开发的知名播放器豪杰超级解霸,在播放上有“左眼”等亮点技术。(7)Bilibili

与其他在线视频的巨头不同,Bilibili初始模仿日本流行的视频网站NICONICO,以极具特色的弹幕技术为吸引,构建了以二次元文化为核心、版权动漫和二次创作内容分享模式并重、社区氛围的在线视频观看网站,收入模式上很大程度依赖于游戏联运。Bilibili的弹幕技术和运营融合较好,亦在基于HTML5的播放体验上表现良好。(8)金山云

自张宏江博士从微软工程院离开来到金山,金山在云服务尤其是视频云上投入了大量的资源,其中在视频领域的H.265编码器可谓一大亮点。金山云的编码团队采用从最小工具集开始重新编写、结对编程、极限编程等方法达到令人惊讶的编码性能,2016年其编码器KSC265在视频编码器大赛上获得软件编码器第一名。1.2.4 形形色色的玩家

或许不如上述公司广为人知,但行业中活跃着的玩家形态多种多样,各不相同,有的公司以软件知名,也有公司以硬件设备著称,切入点既可以是复用器、编码器,也包含客户端设备,但凡有一技之长,又能把握市场脉搏,都能够在市场中发挥影响,博取利润。(1)DivX

DivX既是公司名称又是产品名称,软件产品包括播放器、网页播放器、转码器和编解码包,其编码器最广为人知的版本DivX3.x实际是微软的MPEG-4v3编码器的Hack版本,其次是DivX4。2007年,DivX收购了专业的编码技术提供商MainConcept。

DivX在欧洲有最多的用户,在美国得到了许多好莱坞电影公司的认可,亚洲也曾有很多地区流行过相应的格式。与RealNetworks相似,纯粹的软件提供商今天已不是行业的中心,仍然让人铭记的是其在世纪初对产业发展的推动作用。(2)Harmonic

哈雷公司是广播电视行业的巨头,关注的市场包括地面广播、有线接入、卫星直播、电信运营商、OTT内容分发和内容编制等,其在编转码、播出、存储、采集、分发、云视频等技术上均有深厚积累,尤其在硬件编码器上一向具备顶尖的实力(当然也有不菲的价格),包括Harmonic、Harvision、Harris、RGB、Teradek、BoxCast在内各厂商的硬件编码器常常被用于满足有线电视服务商和在线视频服务商的后台需求。(3)Roku

Roku是一系列以播放音视频多媒体内容为主的机顶盒产品(见图1-12),通过有线或WI-FI连接互联网,Roku机顶盒从不同内容提供商(如Netflix、Hulu、HBO、DirecTV Now、Sling TV等)那里获取内容并提供给用户。机顶盒采用定制的操作系统Roku OS,以其低廉的价格和出色的内容整合能力,在2017年的统计中,占据美国37%以上家庭的客厅。图1-12 Roku机顶盒

与之对应,中国的互联网机顶盒因有牌照限制,是和IPTV隔离的不同市场,只有CNTV(中国网络电视台)、上海文广、华数、南方传媒、湖南广播电视台、CRI(中国国际广播电台)、中央人民广播电台七家实体具备提供服务的资格,其他服务提供商必须与牌照方进行合作才能合法运营。当前多方混战之下,小米盒子、天猫魔盒等各擅胜场,创维、海信、爱奇艺、华为、海美迪等也不甘落后,较之美国市场更为混乱。(4)Wowza

公司自2005年建立,在那个Adobe的Flash流行、RTMP协议广泛应用的年代,Wowza较早地打破Adobe Media Server的垄断,提供了基于RTMP的流媒体服务器,随后快速扩展到支持各种编码格式和流媒体协议,提供DRM支持,编码支持以及云服务。由于低价扩张、在线认证的商业模式和快速添加的功能集,Wowza很快对流媒体服务器的前霸主Helix Server和Adobe Media Server形成威胁并快速超越。

Wowza近年来较为知名的举措是开发了硬件编码器ClearCaster(见图1-13)用于Facebook上直播的支持。图1-13 Wowza的ClearCaster(5)Beamr

这是一家业内人士才会关注的技术公司,成立于2009年,总部在以色列。他们专注于编码技术的优化,从H.264时代到现今的H.265,在符合标准并保证主观观看质量的前提下,将视频压缩得更多。由于视频编码技术的门槛,较小的在线视频公司常常使用它的服务以优化存储空间和带宽的使用。1.3 常见文件与编码格式

音视频内容在多数时候都是以文件形式存储,互联网用户泰半都有下载视频或音频文件播放的经历,此外手机、数码相机、摄像头等数字设备也大量地生成各种各样的音视频文件。在市场上由于技术的发展和不同公司的竞争,产生出许多流行的文件格式,较著名的有WAV、MP3、RM、MPG、WMV、WMA、AVI、MOV、MP4、3GP、FLV、MKV、AC3、AMR、OGG、AAC、APE等。习惯上,因为视频相较音频占据主要地位,既包含视频内容也包含音频内容的文件被称作视频文件,而音频文件常常指仅有音频内容的文件。

音视频编码技术是视频行业存在的前提,视频信号数字化后占用大量的存储空间和数据带宽,高清视频的码率往往可以达到约200Mbit/s,以此推算120分钟的电影将占到180GB以上,无论从存储还是传输角度,都是一个难以接受的数字,而通常可以下载的高清电影视频,也不过是2~8GB大小,这其中依靠的就是音视频编码技术了。

所谓编码技术,实质是一种针对特定音视频格式内容压缩成另一种视频格式的方式。随着技术的发展,市场上常见的视频压缩技术有RV、VC-1、MPEG2、H.263、H.264、H.265、VP8、VP9等,音频压缩技术包含MP3、RA、AMR、AAC、Vorbis、AC3、APE等,而上述的文件格式,则定义了作为一个容器如何将视频和音频编码完成的内容封装在内的方法。

举例而言,一个MP4文件内,可能包含通过H.264技术编码的视频内容以及通过AAC技术编码的音频内容,而MP4文件如何规范视频、音频及其他信息在这单一文件内的存储方式,则被称作打包技术或封装技术。不同编码技术的出发点大体一致,都是为了让音视频内容的质量可以损失更小,压缩率更高,不同的文件封装技术则略有不同,有些是为了支持特定的编码技术,有些则希望通过支持多种不同的编码技术,成为较为通用的容器。下文将分门别类地介绍一些常见、典型的文件和编码格式。1.3.1 上古时代(1)WAV

很多人应该会对Windows3.X或Windows 95/98中的系统声音印象深刻,彼时如果查看系统目录,可以找到对应的声音文件都是WAV[1]格式。WAV是微软开发的一种声音文件格式,它实际是采用RIFF文件规范存储的,WAV是文件的扩展名,内中音频的格式通常是PCM,也可以存储一些压缩过的数据。常见的WAV文件和CD格式一[2][3]样,具有44.1K的采样率,16位采样位数,并支持单声道或立体[4]声,即WAV文件的大小可以通过采样率×采样位数×声道×时间计算得出(需除以8,因为1字节=8Bit)。(2)MP3

以WAV为代表的音频文件因为未经压缩,所以较少用来存储较长的声音内容,在20世纪末,大量音频文件使用MP3格式进行存储,下载和交换,提供较好的音质和压缩比率,甚至催生了以此为名的硬件设备,虽然市场上早有压缩率更好的格式诞生,但MP3格式一直流行到现在。MP3的准确名称应为MPEG-1或MPEG-2Audio Layer 3,它的发明和标准化是由德国的研究组织Fraunhofer-Gesellschaft完成的,而它的普及,则对整个世界的音乐生态影响深远。

MP3实质是对PCM数据中涉及的人类听觉不重要的部分进行舍弃,从而压缩得到较小的文件,它提供多种不同的bitrate(每秒所需数据)的选择,常见速率有128kbit/s、192kbit/s、320kbit/s等。(3)RM、RMVB、RV、RA

RM即RealMedia,是RealNetworks公司创建的专用多媒体容器格式,文件扩展名多用“.rm”,通常用于RealVideo和RealAudio的结合,一般是CBR(固定码率)编码,RMVB则是RM的换代格式,支持可变码率。RM格式的主要特征在于不需要下载完整文件即可播出,并可以根据不同的网络传输速率制定不同的压缩比率,可见它一开始就定位在流媒体应用方面。

每个RM文件内部,是由一系列的Chunk组成,每一个Chunk的格式如下。

注:③FOURCC是一个4个字节32位的标识符,通常用来标示视频数据流的格式,播放软件可以通过查询FOURCC代码并寻找对于解码器来播放特定视频流,取值通常由各个格式标准自行定义,如DIV3、DIVX等。

RM文件支持的Chunk类型包括.RMF(文件头)、PROP(文件属性)、MDPR(流属性)、CONT(内容描述)、DATA和INDX(文件索引),更多文件格式信息可见参考文章。

RV是RealNetworks独有的视频编码格式,由于采用了诸多领先的技术,在低码率情况下有非常出色的压缩比,相对应的,RA格式是公司专有的音频编码格式。普通RM文件中使用RV8.0版本,而RMVB文件中则通常是RV9.0或10.0版本,实际RM与RMVB格式可以支持另外一些编码器版本,但并不常见。(4)MPG

MPG文件后缀名可以是“.mpg”或“.mpeg”,内含两种文件格式,即PS(Program Stream,节目流)和TS(Transport Stream,传输流),分别用于不同的场合,根据格式不同,后缀名也可能是“m2p”“.ps”或“.ts”。

PS格式来自于标准MPEG-1Part1(ISO/IEC 11172-1)和MPEG-2Part1(ISO/IEC 13818-1/ITU-T H.222.0),PS格式由一个或多个PES组成(Packetized Elementary Streams,封装的基本流),其中每个流具有一个时间基准,用来在磁盘上进行存储。该格式里面还可以包含多种格式。

TS格式则更适合网络传播,同样来自ISO/IEC 13818-1标准。在逻辑上,一个TS文件(或传输流)包含一组SubStream(即PES),可以是视频、音频、MJPEG或JPEG2000的图片、字幕或EPG(见图[5]1-14)。每个流都被分解组装到188字节大小的包中,由于每个包都较小,可以容易部分地传输,各个流之间可以交错排布。图1-14 EPG信息展示

每个TS包都包含有一个4字节大小的包头,其中包含同步字节和PID(Packet Identifier,包标识)等信息,每个PID值都描述了TS中的一个流,例如,当PID为0×0时,表示当前流为PAT,描述了整个TS包含的信息。而PAT流中另行描述了PMT流的PID,据此可以找到其他各个音视频流的信息。PAT和PMT可以被统称作PSI(即Program Specific Information,节目专用信息,实际这个概念下还包含CAT和NIT两种流),也是解析TS文件的关键。更详细的信息可参考标准文档或维基百科。(5)WMV、WMA、ASF、MMS、AVI

WMV是一系列由微软开发的视频编码格式和文件格式,其中WMV version 9因为被许多地方选用而以VC-1编码格式之名为人熟知,微软为此专门开发了一种名为ASF的文件格式来存储,但后缀名既可能为“.asf”,也可能为“.wmv”。与之相伴,名为WMA的音频编码格式,能够以较MP3少1/3~1/2的码率存储相似音质的音频,通常后缀名为“.wma”。微软在同时代还曾开发过名为MMS的流媒体协议,基于UDP或TCP进行传输,后升级为MS-WMSP协议(又称WMT,即Windows Media HTTP Streaming Protocol),可以使用HTTP传输。

AVI全称Audio Video Interleaved,是微软在很早便推出的多媒体文件格式,但因其良好的适应性,仍然被广泛使用。AVI可以支持非常广泛的音视频编码格式,包括较新的H.264、HE-AAC等。AVI由RIFF格式衍生,它的文件结构分为头部、主题和索引三部分,描述信息通常放在INFO chunk里,视频和音频数据在主体中依照时间信息交互存放,从存在尾部的索引可以任意跳到视频流的中段。因为索引的尾部设计,AVI不太适用于流媒体传输的场景,更详细的文件格式描述可以参考MSDN。1.3.2 “现代”格式(1)MOV、MP4、3GP

MOV文件是苹果公司对多媒体行业的一大贡献,它又被称作QuickTime File Format,可以包含一个或多个Track,每个Track存储:视频、音频或字幕中的一种类型的数据,每个Track又由一个层次分明的Object结构组成(每个Object又叫Atom)。一个Atom可以包含其他Atom,也可以包含多媒体数据,但不能兼得。

MP4文件几乎完全基于QuickTime文件格式,它由标准ISO/IEC 14496-12规定,并且添加了extension,形成MPEG-4Part14(见图1-15)。MP4文件还常有另外一些文件名后缀,如“.mpa”,“.m4v”等。详细的文件格式定义可参见标准文档。图1-15 MP4文件格式关系(图片来自Wikipedia)

MP4文件用于下载播放时,moov对象应写在mdat对象前面,以便在访问数据前收到所有的metadata信息。用于流媒体播放时,则文件内应有特殊的Track(Hint Track),每条Hint Track将与一条多媒体Track连接,用于描述流式传输所需的信息。

3GP常被称作3GPP文件,是由3GPP组织定义的文件格式,设计目的是用于3G移动网络中,其定义和MP4非常像,也是基于MPEG-4Part12发展出来的。另外又有3G2或称作3GPP2的文件格式,其和3GP文件的区别是,一个用于GSM网络,另一个用于CDMA网络。

一个典型QTFF文件的Atom层次示例如图1-16所示。(2)FLV、F4V

这是一种随着Flash发展而发布的,适用于流媒体传输的视频格式,内部初始基于Sorenson公司的编码算法,也支持H.263及VP6等格式。由于YouTube、Hulu、优酷、土豆等网站早期均大量使用Flash技术,FLV文件也变得非常流行。与之配合,FLV文件的传输多使用RTMP协议,Adobe还提供免费的Flash Media Encoder(Flash媒体编码器)帮助生成FLV格式的文件。

在Flash Player 9的Update3中,Adobe推出了F4V格式,主要为支持H.264和AAC编码,文件格式完全基于ISO Base Media File Format(即ISO/IEC 14496-12)的标准,与MP4、3GP文件格式等高度相似。详细的FLV/F4V文件格式可见Adobe网站的Spec说明。(3)MKV

随着互联网视频的流行,一种兼容多种媒体类型的容器格式(文件格式)流行开来,这就是Matroska,MKV即是Matroska系列中的一种格式,其后缀名多为“.mkv”,另有适用于单一音频的“.mka”文件和独立的字幕文件“.mks”。

从概念上讲,MKV容器和MP4、AVI、ASF等处于同一层次,吸引开发者和用户注意之处是其免费和开源,它的最大特点就是支持多

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载