2024年4月30日发(作者:)

NVIDIA Tesla P100 GPU 助

力AVS2 4K 超高清视频编码

案例简介

本案例中,北京大学数字视频编解码国家工程实验室利用

NVIDIA GPU助力AVS2 4K超高清视频编码,利用Tesla P100 GPU

的计算极大地加速了帧内角度预测和帧间运动估计,空域频域

变换及系数量化,对AVS2 4K超高清视频编码实时处理起着至

关重要的作用。

本案例主要应用到拥有NVIDIA Tesla P100 GPU 的超级计算

机。

Case Introduction

In this case, National Engineering Laboratory for Video

Technology, Peking University applies the NVIDIA GPU to

accelerate the coding of AVS2 4K UHD video. The Tesla P100

dramatically accelerate the speed of intro prediction, inter motion

estimation, DCT transformation and quantization of coefficient.

And it plays the key point in the real time coding of 4K UHD video.

The major product utilized in the case is supercomputer with 4

NVIDIA Tesla P100 GPU.

现状

数字视频编解码技术国家工程实验室,在教育部领导下,依托

北京大学建设,通过组织领导视频编解码国家标准制定,积极

参与相关国际标准制定,建立完善的视频编码与系统技术标准

体系;针对标准需要的关键技术,开展视频编码的核心算法研

究,成为本领域核心专利的重要产出中心;推进视频编解码专

利池的建立,吸收、集成本领域国内、国际先进专利技术,实

现标准制定和专利许可的联合创新和良性互动;建立数字视频

研究开发的开放平台,支持国内企业和科研机构开展研究开发

工作,配合标准的出台与实施,研制编解码核心软件、芯片IP

核和原型产品,引导和推动国内产业界的规模化投入;搭建试

验、测试、验证和示范平台,成为视频行业的实验开发和测试

验证公共支撑服务中心和专业人才的培育中心。

数字视频编解码国家工程实验室主要面向图像视频处理与编

码,人工智能与媒体计算,计算机视觉等相关领域,发展新的

视频编码标准,针对数字视频编码与系统技术,建立研究开发

和试验平台,开展视频编码算法、编解码系统、新媒体应用。

针对重点行业应用和产业发展需要,建立高性能编码器与核心

产品开发平台、数字视频处理与测试评估平台、重大应用示范

与系统集成平台、多媒体通信技术试验验证平台等支撑平台,

并以支撑平台为基础加强与支持单位以及优势单位和地区开展

合作研究,通过AVS工作组的集成创新机制建立完善的、自主

知识产权的信源编码技术标准体系,实现技术辐射,为我国数

字电视、多媒体通信、消费电子、宽带网络等产业发展提供基

础支撑。

未来,本实验室还将基于NVIDIA Tesla GPU提供的卓越计算性

能,将其应用于内容分发网络(Content Delivery Network)中

视频编码与转码加速,全面提升网络中视频内容的编码效率和

速度。

挑战

随着数字通信技术的发展和互联网技术在全国的普及,数字视

频在信息时代得到了广泛应用,如数字电视、视频监控和数字

视频点播等。视频具有直观、确切、高效等特点,然而未经压

缩的原始视频数据量巨大,极大限制了数字视频技术的实际应

用。为了节约视频信息存储空间和传输带宽,视频压缩技术成

为工业界和学术界研究的热点。考虑到视频编码标准在多媒体

领域的核心基础地位,我国也积极制定拥有自主知识产权的视

频编码标准-AVS,2014年12月,面向高清/超高清视频应用的

新一代AVS2编码标准正式定稿,AVS2编码效率比上一代标准

AVS+ 和H.264/AVC提升了一倍,综合编码性能超越了由国际标

准化组织ISO/IEC MPEG和ITU-T VCEG联合制定HEVC/H.265,

成为目前国际上最先进的视频压缩标准。

相比上一代标准,AVS2引入了很多新的编码工具,大幅提升编

码性能的同时,编码复杂度比上一代标准也进一步增加,AVS2

编码加速技术需求迫切。编码的速度也同样制约着广播电视,

网络直播,视频通话等及时应用,因此在保证视频编码质量的

同时,进一步提升编码速度成为制约实际应用的关键所在。在

视频编码中,运动估计,变换,量化等耗时的编码技术,有很

大的可并行性,因此利用GPU硬件平台的多核资源来加速视频

编码关键技术成为可能。

编码算法各模块时间占比

方案

视频编码过程中,帧内预测编码、帧间运动估计和运动补偿、

离散余弦变换是计算最密集的部分。传统基于CPU的实现是

以块为单位,对于帧内预测部分,分别串行计算每个像素点的

预测值,而对于帧间运动估计部分,则是串行搜索每个可能的

位置,并行效率低。离散余弦变化作为矩阵运算同样非常耗

时。我们利用NVIDIA的TESLA P100 GPU加速了这些部分,并

实现了多GPU并行计算。

帧内预测编码,对于一种角度模式,根据周边已知像素点,计

算得到当前像素点的预测值,并与原始像素相减得到残差,之

后进行离散余弦变化和系数量化,最后进行熵编码输出码流。

帧间运动估计,采用三层搜索模型,逐步从粗粒度的降采样搜

索,到原始分辨率的精细搜索,再到分像素更为精细的运动搜

索,估计得到当前块的运动矢量。

基于NVIDIA Pascal架构的P100 GPU为视频编码提供了强大且

稳定的计算能力,同时,NVLink技术为多GPU提供了高速互

连,为多GPU并行计算提供了强有力的支持。基于TESLA P100

GPU的4K超高清视频编码密集计算模块加速,相比于基于CPU

的计算有平均大于100倍的提升,这给实时超高清视频编码带

了可能。

在未来的工作中,对于实验中发现的,或是理论计算过程中发

现,只需要增加更多的GPU或者采用计算能力更强的V100

GPU,同时,将编码中其他部分同样采用GPU加速,便可以达

到4K超高清视频的实时编码。

影响

对基于AVS2标准的4K超高清视频编码算法的加速,受益于

P100 GPU的计算能力,采用GPU并行计算,对运算最密集的

帧内预测编码、帧间运动估计和补偿、离散余弦变换进行了加

速,为实时超高清视频编码带来了更大的可能,对于推动基于

拥有自主知识产权的AVS2超高清电视、网络直播和视频通话

的发展有重大的意义。