2024年3月9日发(作者:)
第一方面:
MPEG-4的独特之处在于支持基于内容的编解码,为此引入了视听对象AVO(Audio
/VIDEO Object)的概念。AVO可以是一幅图像中一个小提琴或琴声等,每个AVO可独
立编码,但相互之间又存在着时空结构关系,因此编码时,必须传送编码对象的组成结构
信息体“场景描述”,以表示场景中各AVO之间的时空结构关系。解码时根据此“场景描
述”对图像和声音的有关内容进行编辑和操作。视听对象还可以是一个矩形帧,从而使
MPEG-4兼容原来的MPEG标准。视听对象中的视频对象VO通常由3类信息来描述,即
运动、形状和纹理信息。
1 编码原理
MPEG-4编码器主要由形状编码、纹理编码和运动编码三部分组成。帧格式分为
I-VoP,P-VOP和B-VOP。这里只讨论I-VOP和P-VOP。I-VOP采用纹理编码来消除一
帧图像数据间的空间冗余度;P-VOP是参考前一帧图像,并采用两种参数来编码。一种是
当前要编码的图像与参考图像之间的差值;另一种是运动矢量。编码器的具体结构模块如
图1所示。
1.1 形状编码
形状编码主要用于记录从图像序列中提取VOP的形状信息,该信息分为二值形状信息
和灰度形状信息。二值形状信息用0和1两个值表示VOP的形状;灰度形状信息用0~
255表示VOP区域的不同透明度。在编码时,当提取的VOP具有非矩形形状时,需要对
其进行边界扩展,使其矩形边界都是16的倍数,同时保证扩展后的面积最小,然后进行
形状编码;当提取的VOP为矩形时(矩形的长度和宽度都是16的倍数),形状编码就会被
屏蔽。
1.2 纹理编码
纹理编码主要对I-VOP内的图像像素或P-VOP内的差值像素进行编码,包括DCT、
量化、DC和AC预测、熵编码等过程,最大程度地去除当前VOP内各像素之间的空间冗
余度。
视频的第一帧图像采用I-VOP格式编码,其余的帧采用I-VOP,还是P-VOP格式则
受两个因素制约。其用户会按照IPPPIPPPI的方式设置当前帧所采用的格式;二是已经人
为地设置了当前帧为P-VOP,通过运动估计计算mad_P的值,如果mad_P满足下列两
个条件之一,则当前帧就采用P-VOP编码格式,否则采用I-VOP编码格式。
条件1:mad P<50/3;
条件2:mad P<50,并且IntraMBRatio<0.4。其中,IntraMBRatio为当前帧中采
用MBM_INTRA预测模式的宏块占总宏块的比重。
纹理编码中的DCT和量化模块比较简单,这里略过,重点介绍剩下的纹理编码模块。
1.2.1 DC和AC预测
8×8块经过DCT和量化后,系数排列呈现以下的规律,即非零系数集中在左上角,
大部分的0系数集中在偏离DC系数向右和向下的位置上。特别是DC系数、第一行和第
一列AC系数,数值非零且较大,如果能用较小的数值代替它们,会减少编码后的位流数,
于是产生DC和AC预测。
在MPEG-4中,通常把一个宏块分为6个8×8块进行DC和AC预测。
首先对8×8块进行DC预测。如图2所示,X表示当前的8×8块;A,B和C表示X
的相邻8×8块,其位置分别位于X的左边、左上角和上边。对X进行DC预测就是采用相
邻块的DC系数值预测X的DC系数值,关键是选择哪个相邻块的DC系数。
程序采用了以下策略选取相邻块。定义块A,B,C,X的DC系数值分别为DC_A,
DC_B,DC_C,DC_X。
如果DC_A与DC_B的差小于DC_B与DC_C的差,则DC_A与DC_B在数值上比较
接近,即在垂直方向上的数值比水平方向上更接近,所以采用DC_C来预测DC_X;反之,
在水平方向的数值比较接近,即采用DC_A来预测DC_X。
将当前块的DC系数与用来预测的相邻块的DC系数,经过特定处理后做差,其差存
放到当前块的DC位置上,同时记录此DC系数的预测方向。
第二方面:
MPEG-4 的初衷是针对于视频会议、视频电话的超低比特率编码, 但在以后的发展
中,MPEG 对该标准又进行了修改。MPEG-4 标准引入了视频对象VO(Video Object)
的概念, 编码是基于对象(Object) 的[ 1]。所谓对象是指一个场景中可以操作和控制的实
体, 而传统压缩方法是基于帧的, 已无法对对象进行操作。MPEG-4 中对比特率控制可
以是基于对象的, 即使在带宽有限的情况下, 可以利用码率分配方法, 对于用户感兴趣
的对象可以多分配一些比特率, 而对于用户不感兴趣的对象可以少分配一些比特率, 这
样图像质量可以得到保证。所以在MPEG-4 标准中, 视频对象分割算法显得十分重要。
目前的视频对象分割算法有很多, 如检测变化区域的分割方法[2],其主要是通过检
测序列图像帧的变化区域与不变区域,从而分割出运动物体与静止背景。该算法的关键是
阈值
的选取, 分割后的图像中没有变化的部分表示背景图像, 变化的部分代表运动区域。
这类算法的优点是计算简单, 特别适用于室内场景( 如视频电话、网络会议等)。其缺点
是对噪声敏感, 在背景场景变化复杂的室外情况下, 分割的效果不好。基于对称差分的
视频分割算法[3]是将数学的“ 与或” 操作运用在图像分割中, 通过连续帧的差减、“ 与
或” 运算, 可以提取出中间视频帧的图像运动对象。近年来, 自适应阈值的方法[ 4] 也
广泛运用在运动目标的提取上, 它结合了形态学中的开启和闭合方法来对图像进行处理。
此外还有基于时空信息的视频对象分割算法[ 5]。综上所述, 视频对象分割算法还处于发
展之中, 一种优秀的分割算法不仅要与图像分割相结合,而且还需要人工智能和运动分析
等方面知识。


发布评论