2024年5月26日发(作者:)

音频编码解码基本概念介绍

对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余

度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有

差异。

语音编码技术又分为三类:波形编码、参数编码以及混合编码。

波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形

状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺

点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技

术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通

过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的

G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只

对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技

术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准

中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用

这两项技术。

参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参

量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语

音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相

当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,

适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是

从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。

MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励

信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时

则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。

混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上

得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合

成分析技术。

它的基本原理是合成分析法,将综合滤波器引入编码器,与分析器相结合,在编码器中将

激励输入综合滤波器产生与译码器端完全一致的合成语音,然后将合成语音与原始语音相

比较(波形编码思想),根据均方误差最小原则,求得最佳的激励信号,然后把激励信号以

及分析出来的综合滤波器编码送给解码端。这种得到综合滤波器和最佳激励的过程称为分

析(得到语音参数);用激励和综合滤波器合成语音的过程称为综合;由此我们可以看出

CELP编码把参数编码和波形编码的优点结合在了一起,使得用较低码率产生较好的音质

成为可能。通过设计不同的码本和码本搜索技术,产生了很多编码标准,目前我们通讯中

用到的大多数语音编码器都采用了混合编码技术。例如在互联网上的G.723.1和G.729

标准,在GSM上的EFR、HR标准,在3GPP2上的EVRC、QCELP标准,在3GPP上

的AMR-NB/WB标准等等。

音乐的编码技术主要有自适应变换编码(频域编码)、心理声学模型和熵编码等技术。

自适应变换编码:利用正交变换,把时域音频信号变换到另一个域,由于去相关的结果,

变换域系数的能量集中在一个较小的范围,所以对变换域系数最佳量化后,可以实现码率

的压缩。理论上的最佳量化很难达到,通常采用自适应比特分配和自适应量化技术来对频

域数据进行量化。在MPEG layer3和AAC标准及Dolby AC-3标准中都使用了改进的

余弦变换(MDCT);在ITU G.722.1标准中则用的是重叠调制变换(MLT)。本质上它们

都是余弦变换的改进。

心理声学模型:其基本思想是对信息量加以压缩,同时使失真尽可能不被觉察出来,利用

人耳的掩蔽效应就可以达到此目的,即较弱的声音会被同时存在的较强的声音所掩盖,使

得人耳无法听到。在音频压缩编码中利用掩蔽效应,就可以通过给不同频率处的信号分量

分配以不同的量化比特数的方法来控制量化噪声,使得噪声的能量低于掩蔽阈值,从而使

得人耳感觉不到量化过程的存在。在MPEG layer2、3和AAC标准及AC-3标准中都采

用了心理声学模型,在目前的高质量音频标准中,心理声学模型是一个最有效的算法模型。

熵编码:根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是

信息熵。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵

编码,它是根据信息出现概率的分布特性而进行的,是一种无损数据压缩编码。常用的有

霍夫曼编码和算术编码。在MPEG layer1、2、3和AAC标准及ITU G.722.1标准中都

使用了霍夫曼编码;在MPEG4 BSAC工具中则使用了效率更高的算术编码。

语音编解码目的

语音编解码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特

(帧)。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性

(Robustness)。在接收端,语音帧先被解码为PCM语音样值,然后再转换成语音波形。

语音编解码器评价

帧大小: 帧的大小表示语音流量的时间长度,也称为帧时延。帧是语音信号的分立部件,

且每帧是根据语音样点更新的。本章所介绍的编解码器都是一次处理一帧。每帧信息放在

各语音分组中,并传送给接收端。

处理时延: 它表示在编解码器中对一帧语音做编码算法处理时所需的时间。它通常简单的

计入帧时延。处理时延也称为算法时延。

前视时延: 编码器为了对当前帧的编码提供帮助而检查下一帧的一定长度,此长度就称为

前视时延。前视的想法是为了利用相邻语音帧之间的密切相关性。

帧长度: 这个值表示经编码处理后的字节数(不包括帧头)。

语音比特率: 当编解码器的输入是标准脉冲编码调制的语音码流(比特率为64 kbit/s)时,

编解码器的输出速率。

DSP MIPS: 此值是指支持特定编码器的D S P处理器的最低速度。

RAM需求: 它描述了支持特定的编码过程所需要RAM的大小。

编码器工作所需的时间: 是指编码器的缓存及处理时间,称为单向系统时延。其值=帧大小

+ 处理时延+ 前视时延。显然,解码时延也非常重要。实际上,解码时延大约是编码时延

的一半。

主流音频别解码技术标准

当前国际上主流的新一代视音频编解码软件技术标准是国际运动图像专家组于1999年公

布的MPEG-4技术标准,将逐渐取代现有的MPEG-1(VCD)、MPEG-2(DVD)标

准。MPEG-4主要为了实现在有线、移动网络上传输互动的视音频内容,目前世界主要

公司的编解码软件都支持MPEG-4标准。虽然微软等几个公司在发展自己的技术和标准,

但都脱不开MPEG-4标准底层的基础专利技术。MPEG-4等编解码技术的革命,极大

地扩展了数字多媒体的应用市场

MPEG中音频编码标准(1)

编码器的输入和解码器的输出与现存的PCM标准兼容

ISO/IEC 11172-3(MPEG1音频)的采样率为32kHz,44.1kHz和48kHz 。

根据应用需要,可以使用不同层次的编码系统。

– LayerⅠ 包括将数字音频变成32个子带的基本映射。将数据格式化成块的

固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上,

层Ⅰ编码/解码的最少延时约为19ms。

– LayerⅡ 提供了为分配,缩放因子和抽样的附加编码。使用了不同的帧格式。

这层理论上的最小编码/解码延时约为35ms。

– LayerⅢ 采用混合带通滤波器来提高频率分辨率。它增加了差值量化(非均

匀)、自适应分段和量化值的熵编码。这层理论上的最小编码/解码延时为59ms。联合立

体声编码作为一个附加特征,能够加入到任何一层中。

杜比数字音频技术

AC-3编码和解码

AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适应增量调制

(ADM),它把20kHz的宽带立体声音频信号编码成512kbps的数据流。AC-1曾在电

视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它

采用类似MDCT的重叠窗口的快速傅立叶变换(FFT)编码技术,其数据率在256kbps

以下。AC-2被应用在PC声卡和综合业务数字网等方面。

1992年DOLBY实验室在AC-2的基础上,有开发了DOLBY AC-3的数字音频编码技

术。AC-3提供了五个声道的从20Hz的全通带频响,即正前方的左(L)、中(C)和右(R),

后边的两个独立的环绕声通道左后(LS)和右后(RS)。AC-3同时还提供了一个100Hz

以下的超低音声道供用户选用,以弥补低音之不足。因为此声道仅为辅助而已,故定为0.1

声道。所以AC-3被称为5.1声道。AC-3将这6个声道进行数字编码,并将它们压缩成

一个通道,而它的比特率仅是320kbps。

杜比 E是一种专业音频编码技术,用于辅助广播和其它一些两声道设备传输多声道的音频

信息。杜比E可以通过一对AES/EBU或者一对数字VTR音轨,给后期制作和发行提供多

达8个声道的广播级质量的音频信息。另外,杜比E的优点还在于经过它编码的信息可以

被编辑、解码、编码再解码,经过多次编解码转换而没有可察觉的音质降低。

MLP Lossless是一个真正的“无损”编码系统,DVD-Audio 中采用的压缩技术,可对

PCM数据进行完美地复制,不同于“有损”的感性编码的杜比数字技术。MLP Lossless

有效地将磁盘空间扩充了一倍,而没有影响高解析度的PCM音质,从而使DVD-Audio 光

盘可以同时携带同一节目的立体声和多声道版本。所有DVD-Audio播放机必须具备MLP

Lossless解码功能。

高级音频编码 (AAC)是一种高质量感性音频编码技术,应用于广播和网络音乐下载。

AAC的编码效率优于MP3,以更低的比特率提供更高质量的音频信号。这项技术是由四

个工业界的领导者(AT&T,杜比实验室,Fraunhofer IIS以及索尼公司)共同开发,将

其标准化为一个ISO/IEC的规范。作为MP3的继任者,AAC现在已经获得了越来越多软

硬件生产商的支持。

在音频编解码的过程中会碰到以下的问题:

回声抵消EC:AEC(adaptive echo canceller)是对扬声器信号与由它产生的多路径回声

的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波

器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减

去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除

延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少,AEC

可以消除各种延迟的回声 。

混音:混音就是把两个以上的声音(文件形式或码流形式)混合为一个。目前,混音主要

有硬件合成和软件叠加这两种方法。为了防止混音后的溢出问题,一般采用的算法是累加

取平均值,这种方法会产生声强失真现象。加权叠加的算法可以有效解决这个问题,加权

系数的优化成为这个算法的关键。在多方会议时,混音还有一个策略的问题

背景噪声抑制ANS:背景噪音抑制的英文缩写为ANS(Automatic Noise Suppression)。

ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现

出与会者清晰的声音

静音压缩:它利用了在总会话时间中静音时间占了大约50%这一事实。其基本思路是在静

音期间减少传送的比特数,从而节省了所需传输的总比特数。在电话网中,多年来对模拟

语音信号都是用时间分配语音插值(TASI, Time-Assigned Speech Interpolation)方法

进行处理。这一技术也就是将其他语音信号或者数据信号放置在谈话的静音期间内,从而

为多信道链路提供附加容量。现今, TASI已被运用于数字信号中并被赋予新名称—其中

的一个例子就是时分多址(TDMA, Time Division Multiple Access)。简要地讲,TDMA

是将通常的信号划分成很小的、数字化的片段(slots即时隙)。这些时隙和其他时隙一起在

一个信道中进行时分复用。

自动增益控制AGC:AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,

不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。AGC可分为模拟AGC

和数字AGC电路。AGC环路可以放在模拟与数字电路之间,增益控制算法在数字部分来

实现,合适的增益设置反馈给模拟可变增益放大器(VGA)。AGC电路的实现有前馈、反

馈和混合环路等三种

唇音同步:唇音同步是指语音和画面播放的时间差小于一定范围。它实际上是一个牵涉多

种技术的综合问题,包括编解码时延,网络QOS等等。这里只针对关键的一个因素进行

阐述:Internet是基于分组交换的传输技术,因此会出现语音包不会等时到达目的地的现

象,表现在语音不连贯。这就需要先对语音包进行排队,经过动态调整后使语音稳定输出。

一般采用jitter buffer等技术,使语音流畅清晰

包丢失隐藏PLC:包丢失隐藏(PLC)算法也被称为帧消除隐藏算法,它隐藏了音频系统的

传输包丢失现象。很多基于CELP算法的语音编码器都把PLC算法写入它们的算法中。

PLC的目标:是产生一个合成的语音信号以替代在接收的码流中丢失(消除)的数据。理想

情况下,合成的信号会有和丢失信号同样的音质和频谱特性,并且不会产生不自然的伪音。

PLC算法的依据:由于语音信号通常是局部静止的,所以可以利用以前的信号来产生对丢

失语音段合理近似。

PLC应用条件:丢失的包不是很长;丢失的包不发生在快速变化的区域内。在满足 PLC应

用条件的前提下,包丢失可以完全被隐藏。

编解码器的发展趋势

Structured Audio结构化音频这个名字是与计算机上的数字化音频相区别的。传统的数

字化信息编码方式无法让人们从编码数据中分析出什么东西。必须以人的本身去感知解码

后的媒体信息。而结构化音频的设计目标就是要弥补传统编码方式的不足,在提供压缩编

码的同时,可以直接从编码数据中获得其表征意义。这给未来的媒体信息检索等新应用提

供了无尽的方便。

我们关注结构化音频,是因为结构化音频最重要的地方就是指明了以后媒体信息编码的基

本方向:基于事物对象,而不是基于样本数据。所谓基于对象的媒体,也就是通过标准的

描述语言去描述信息。MPEG-4是第一个包含基于对象的媒体信息压缩和存储方式的标准。

在2001年7月份推出的MPEG-7,基于对象的编码方式将会成为标准方式。相信在将来,

所有的媒体信息编码都是基于面向对象来编码的。