2024年3月19日发(作者:)

口语对话语音语料库CADCC和其语音研究·

李爱军,殷活纲,王茂抹徐波啊宗成庆'矿

中田社会科学院语言研究所,Ⅲ中国科学院自动化研究所

摘要

口语对话和朗读语麓的差别表现在句法、剐语言学现象、音段和韵律等许多方面,这给

口语对话的标注带来新的课题.本文介绍自然口语对话语音语料库CADCC(Chinese

Annotated

Corpus)和其文字转写,音段以及韵律标注.CADCC包括两个子

库:电话对话库setl和口语对话语篇库set2.其标注内容包括篇章话题、话轮、韵律和音段

Dialoguo

and

Convvrsation

的标注.音段标注采用SAMPA—C标注系统,韵律标注采用C-ToBI标注系统.

本文还报告了标注结果,如篇章话题的长度,口语话轮出现的模式,插入和叠接现象,

韵律结构和朗读语篇的差异等等.

1自然口语库CADCC

语篇(discourse)包括朗读语篇和自然口语语篇,又可以分成独白和对话两种形式。不同

形式的语篇具有不同的特性,比如参与的人数、涉及的话题、话轮顺序和话轮长度等等。

我们已经建立了朗读语篇库ASCCD和独自的自然口语CASS,并且进行了语音学标注

【2】.口语对话语篇库CADCC是我们今年开始收集和标注的,我们希望它对言语工程和语音

研究会有较大的贡献。CADCC包括两个子库,其中SET

1是电话对话库,SET2是正常通道

对话库。表1给出了CADCC的详细信息。SET

2中的对话双方是同事或同学.有共同的爱好

或话题.谈话内容不限.也就是语篇话题可以自由转换。其中有8位发音人曾经参加朗读语

篇ASCCD的录音.这样做的目的是为了详细对比朗读和自然口语的各种差异.录音在普通办

公室或宿舍进行,对话者身别无线话筒,无线录音设备放置在另外的房间,这样保证了对话

双方完全进入自然谈话状态。每一对发音人的谈话时间在1个小时左右。

2音字转写

所有的声音都进行了汉字转写,特别将口语的副语言学和非语言学现象按照表2的符号

进行转写例l:B:我傻OV<B:我印度人A:LA<LA>OV>;

例2:A:LE<MO<嗅LE>M09;B:那个就是DS<一一DS>m子的事儿。

2.1语篇话题

为了进行对话交际中声学语音学分析【8】,我们在文字转写中标记了语篇话题(非句子话

题)转换的位置。语篇话题的组织呈现非线性形式。即一个语篇话题可以被另外一个中断,

然后在一定的位置重新开始.

本研究得到田家。973”和中田杜会科学院重大项目基金支持.

317

表3中给出了每对发音人语篇话题数(子话题除外)和时长分布。不考虑语速等个人特性

的话,图l给出了不同长度情况下的语篇话题数分布情况.语篇话题的平均长度是185.96秒.

表4是语篇话题出现的累计频率.80%的话题短于4.5分钟,90%话题短于5-6分钟。

2.2非语言学和副语言学现象

表5是非语言学和副语言学现象统计结果.黑体是出现率较高的现象。可以看到两个子

库中出现最多的是感叹词和语气词.如“啊、呀、哇、吗、呢、吧”等.很多感叹词只起填

充停顿Cfilled

paine)的功能.

2.3话轮转换

话轮交替机制是话语分析的一个重要课题。我们在CADCC中发现了各种话轮交替机制。

图2中左边一列是考察AB两个话轮出现模式图,右边一列是考察话轮ABA出现模式图。表

6是考察两个子库的话轮出现情况.在SET

l中总共有3256个话轮.其中315个是有叠接

(overh口)的话轮,柏个是插入式叠接的话轮,所以叠接的话轮占总话轮的20.6%((2"315+40)

可见,电话库的覆盖现象比会话库要多.可能是因为人们在打电话时交流的信息相对集

中,可能为了省一些电话费.说话速度更快.只要听懂对方的主要信息,不等对方把话说完

马上回应。

目前语音识别系统是将这些大量出现的重叠语音视为噪音处理的.也就是说在对话应用

系统中不考虑这种现象.我们发现人与人的对话和人与机器之间的对话存在差异,人不会和

机器抢着说话。

那么对这些有大量的叠接现象的口语研究是否有意义呢?我们认为研究大量出现的重叠

语音,可以解释会话交际中的心理认知机制。交际过程中听者可以不等话者说完一句话.就

去回应话者,这说明听者有“断章取义”的本事.至于研究听者如何得到的这种本事.是个

很有意义的研究课题.从长远的语音研究来看,语音理解是绕不过这个课题的.

自然口语中有大量的音变现象,如增音、减音等,具有音段音变标注的音库对语音识别

的发音建模和音变条件的研究都报重要。同时,对音段的准确真实地标注,也是其他层次标

Y.声韵

我们采用C-ToBI

2.0标注韵律系统【4,5,6】.它是对朗读和口语都适用的汉语韵律标注规

/3256).SET2中有叠接的话轮占10.6%(986"2/18608)】.

3.1音段标注

注的基础.标注软件选用Praat[7】和XWAVEs+,标注信息包括5层:PY:拼音层;s

层,用SAMPA-C【l】标注声母、韵母和音段和声调音变信息:MIS:杂类层,标注副语言学和

非语言学现象.见表3;ACC:口音层,标注发音人的口音信息.标注代码可以参考‘中国语

言文字使用情况调查一调查员手册'中的酱通话、汉语方言代码表;SM:语句功能层:标注疑

问、祈使、陈述、感叹四种功能语句.表7是两个表音人音段一致性检测结果(时间误差2ms)。

3.2韵律标注

范.韵律标注一般是分层的。音段切分是韵律标注的基础,所以是必不可少的~层,其他层

次的标注.要依据实际应用的需求和标注的语音特性确定。标注各层是:音段标注层:声调

语调层:标记每个音节的声调变化和全句的语调变化:间断指数层:标记汉语的韵律结构。

318