2024年5月6日发(作者:)

第四章 音频的采集

本章主要内容:

 数字音频的一般概念

 音频相关设备

 音频的采集

4.1数字音频的相关概念

与一般生活中的很多音频信号不同,计算机多媒体中涉及的音频是指数字音

频。数字音频指的是一个用来表示声音强弱的数据序列,它是由模拟声音经抽样

(即每隔一个时间间隔在模拟声音波形上取一个幅度值)、 量化和编码(即把声

音数据写成计算机的数据格式)后得到的。

目前,多媒体计算机中数字音频的形式很多,主要有3种方式:波形音频、

MIDI音频和 CD音频,这3种音频分别通过对外部声音源进行录制、从MIDI

音乐和播放CD来获取。下面对这3种形式的数字音频做个介绍。

(1)波形音频

波形音频是多媒体计算机中最常用的方式。波形音频是通过模拟音频数字化

的过程获得的,数字化的过程是指将模拟音频转换成一连串的二进制数据,在计

算机中再现原始声音的过程。 实现这个步骤使用的设备是模/数转换器 (A/

D),它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟

声波在某一时刻的状态,这称之为祥本。将一串的样本连接起来,就可以描述一

段声音了。数宇化过程主要包括采样和量化两个方面。相应地,数字化音频的质

量取决于采样频率和量化位数这两个重要参数。

采样频率(Sampling Rate)是指将模拟声音数字化时,每秒钟所抽取声波幅

度样本的次数,采样频率的计算单位是kHz 。正常人耳听觉的频率范围大约在

20Hz 至20kHz 之间,根据采样理论,为了保证声音不失真,采样频率应在40kHz

左右。 在windows 系统中一般支持、22.05kHz及11.025kHz 3种采样频

率,其中 的采样率足以还原人所能听到的任何声音频率。一般来讲,采

样频率越高声音失真越小,但用于存储音频的数据量也越大。

量化数据位数(也称量化级)是指每一个采样点能够表示的数据范围,经常

采用的有8位、12位和6位。例如,8位量化级表示每个采样点可以表示256

个(0-255)不同的量化值,而16位量化则可表示65536个不同的量化值。量化

级的大小决定了声音的动态范围,16 位的量化级可以还原人可感受的声音范围。

同样,量化位数越高音质越好,数据量也越大。

反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如

果每次生成一个声波数据,称为单声道,每次生成两个声波数据,称为立体声(双

声道)。立体声更能反映人的听觉感受。

对声音的采样可以使用不同的采样率、量化级和声道,但实际上经常要在波形

文件的大小和声音回放质量之间进行权衡。

(2)M1Dl 音频

MIDI是音乐设备数字接口(Musical Instrument Digital Interface)的英文简

写。MIDl是一种国际通用的标准接口,是电子乐器之间以及电子乐器与计算机

之间进行交流的标准协议。从广义上可以将其理解为电子音乐合成器,是计算机

音乐的统称,包括协议、设备等相关的技术。通常所说的MIDI是指一种计算机

音乐的文件格式。

MIDI文件与波形文件不同,并不记录反映乐曲声音变化的声音信息,而是

记录音乐节奏、位置、力度、持续时间等发音命令,所以MIDI文件本身并不是

音乐,而是发音命令,是一些简单的描述性信息。

处理MIDI信息需要MIDI设备,这些设备包括MIDI端口、MlDI文件、

MIDI音序器、MIDI合成器、MIDI键盘等。其中 MIDl文件是记录、存储MIDI

信息的标准格式文件,包括音符、定时、通道选择指示等二进制编码数据。MIDI

音序器的作用是记录、编辑、播放MIDI文件,实现这些功能可以逋过硬件或软

件的方式,由于硬件设备价格昂贵,目前多采用软件方式。MIDI合成器是一种

电子设备,可将数字声音文件转换成模拟信号,再通过扬声器产生声音。计算机

中使用的合成器一般都安装在声卡上。

既然MIDI文件只是对乐曲播放的描述,本身并不包含任何可供播放的声音

信息,那么一首首动听的计算机音乐又是如何被播放出来的呢?MIDI音乐播放

的原理是,当需要播放MIDI时,计算机将指令发给声卡,声卡按照指令将MIDI

信息重新合成起来。所以,MlDl的播放效果取决于用户MIDI设备的质量和音

色。就声卡而言,最为常见的手段是FM(调频)合成与波表合成。前些年的声

卡多采用FM合成方式,它是运用声音振荡的原理对MIDI进行合成处理。而波

表合成的原理是将一小段真实的乐器声音或效果声用数字采集的方法录制下来,

然后在播放MIDI时再进行修饰、放大、输出。这样就保证了声音的真实性,其

效果远远超过FM合成法,目前已被广泛运用。

(3)CD 音频

CD音频也是一种数字化声音,一般以16位量化级、采样率的立体

声存储,可完全重现原始声音,每片CD唱盘能记录约74分钟这种质量的音乐

节目。目前使用的 CD-ROM驱动器不仅可以读取CD-ROM盘的信息,还能播

放数字CD唱盘(CD_DA格式),这样多媒体计算机就能够利用已经非常成熟的

数字音响技术来获得高质量的CD音频。

在多媒体计算机上输出CD音频信号一般有两种方法:一种是通过CD_ROM

驱动器前端的耳机插孔输出,另一种是使用连线连接声卡,放大后由扬声器输出。

前者的输出音质不受声卡质量的影响,但不能使用声卡的混声功能。而后者虽然

可以与波形或MIDI音频进行混音输出,但声卡的放大功率比较小,通常需要有

源场声器或配置外部声音放大器来获得足够的音量。

4.2 音频文件的常见格式

在音频处理中,经常会遇到各式各样的文件格式,其来源、功能、特点、适

用的领域各不相同。下面对一些常用的格式做简要介绍。

(1)WAV 文件

Microsoft 公司的音频文件格式,来源于对声音模拟波形的采样,属于波形

文件。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样

点,以不同的量化位数(8位或16位)把这些采样点的值转换成三进制数,就

产生了声音的文件,即波形文件。这种文件的数据是不经过压缩而直接对声音波

形迸行采样记录的数椐,其最大优点就是音质非常好,但缺点是文件非常大。

(2)MP3文件

全称为MPEG-l Audio Layer 3,属于波形文件。此种数据文件采用了有损压