2024年3月29日发(作者:)

什么是SVC?SVC和视频通信

可以说,可伸缩视频编码技术(SVC)在视频会议行业和视频通信中有着重要的影

响。在2008年,当Vidyo首次推出SVC时,很少人意识到它背后所蕴含的变革

力量。大多数人都认为它仅仅只是一个更好的编解码器,甚至还有可能存在一些

有待完善的错误。

与任何新技术一样,刚开始时,我们都很难完全理解SVC的工作原理,相关系统

及功能的实现机制,甚至是它对整个行业的影响。本文旨在提供一些有关SVC

的事实和使用感受,介绍如何基于SVC实现各种功能,同时分析一下目前可伸缩

视频编码在视频通信领域的定位以及未来的前景所在。什么是SVC?

首先,什么是SVC?

它是H.264/MPEG-4Part10高级视频编码标准的扩展,通常称为AVC。AVC

是由国际电信联盟(ITU)的视频编码专家组(VCEG)和国际标准化组织(ISO)的运

动图像专家组(MPEG)共同开发的,合称联合视频组(JVT)。因此,AVC有两个正

式名称:国际电信联盟(ITU)命名的H.264和国际标准化组织(ISO)命名的MPEG-4

Part10。通常,通信领域的人倾向于将AVC称为H.264,而广播影音娱乐领域

的人则倾向于将其称为AVC或MPEG-4。毫无疑问AVC一直是非常成功,它几乎

适用于所有现代数字视频应用标准:从视频会议和YouTube,到蓝光DVD和iTunes

商店。

SVC是AVC标准的附录G。有人却用AVC这个词来表示H.264标准和附录G,这

令人费解。在本文中,我们使用AVC来描述H.264的不可伸缩部分,而用SVC

来描述可伸缩部分,当不加区分时则使用H.264进行描述。

当Vidyo公司加入JVT时(2005年夏季),它是唯一对可伸缩视频编码感兴趣的

视频会议公司。事实上,SVC的成果要得益于当时对广播和移动应用感兴趣的公

司以及学者不留余力的推动。Vidyo公司的工程师们非常积极地参与到联合组的

开发中,提供了约18项技术贡献,创建并提供测试视频材料,构建了大部分合

适的比特流,以及共同编辑了一致性规范,这些都确保了我们的设计符合视频会

议行业的需求。

H.264规范提供了一种方法,允许根据特定的应用领域搭配不同的使用规范,事

实上,绝大多数视频编码标准都会有基本的使用规范,并且提供可修改的方法,

我们称之为配置文件。配置文件可以说是标准规范所提供的编码工具的子集,主

要适用于特定的应用领域。例如,增加端到端延迟的功能对于广播视频而言是可

接受的,但对于视频会议而言则是不可接受的,因此在面向视频会议的配置文件

中则不包括这个功能。H.264的可伸缩特性体现在其配置文件的参数设置中:

ScalableBaseline、ScalableHigh、ScalableConstrainedBaseline、Scalable

ConstrainedHigh和ScalableHighIntra。尽管,在高清分辨率运行的软件配

置文件中一般包含ScalableHigh参数,但是针对视频会议(移动设备)应用的配

置文件,一般只包含ScalableBaseline和ScalableConstrainedBaseline

这两个参数。

与配置文件相关的是一个名为层级的概念。层级定义了特定配置文件中各种操作

参数的限制。例如,它定义了特定解码器所能够处理的最大图片的大小。配置文

件和级别是一个相当古老的概念:您的普通旧式DVD播放器中,播放MPEG-2格

式的视频的主要配置文件是在主级解码器上。您的蓝光播放器所包含的H.264

AVC的高配置解码器则是在4.1级。

AVC和SVC有什么区别?

SVC和AVC的根本区别在于,前者将视频信号编码为一组图层。各层互相依赖,

形成一个层次结构。特定层及其所依赖的层提供了以特定的保真度解码视频信号

时所必需的信息。这里的保真度涉及一个或多个空间分辨率,时间分辨率或信噪

比(SNR)1。不依赖于任何其他层的最底层被称为基本层,并提供最低质量等级的

图像。每个附加层可以通过三个维度(空间,时间或SNR)中任何一个维度提高信

号质量。

图1表示以不可缩放的方式进行视频编码。这就是大多数(如果不是全部的

话)AVC兼容视频编码器的工作原理。图中每个正方形表示一张图片,而底部的

数字表示时间实例。第一张图片为“I”帧,可独立编码,无需参考其他任何图

片(“I”取自单词“intra”的首字母)。其他所有的图片为“P”帧,需要参考

前面的帧画面进行预测然后编码。箭头表示预测的源图片以及目标图片。通过观

察可知,只需一层,则可形成一个无止境的图片链。

图1:非缩放性视频编码

1SNR(信噪比)是压缩视频信号相对于其未压缩版本的失真度量。在信噪比的可

伸缩性中,增强层所提供的额外信息既不改变空间分辨率,也不改变时间分辨率。

它减少了压缩视频的信号失真,同时增加了信噪比。

图2表示在时间维度上的可伸缩性视频编码。观察预测箭头的组织方式,在这个

例子中,定义了三个不同的层(L0到L2)。图中的图片是垂直偏移的,以便在视

觉上分离三层。每一层都需要依赖较低层才能被解码,但不需要任何较高层。这

允许从顶层开始移除图片,而不影响剩余图片的可解码性。例如,我们假设图例

中显示的图层以30fps的帧速率显示。如果我们移除所有L2层的图片,剩下层