2024年3月19日发(作者:)
口语对话语音语料库CADCC和其语音研究·
李爱军,殷活纲,王茂抹徐波啊宗成庆'矿
中田社会科学院语言研究所,Ⅲ中国科学院自动化研究所
摘要
口语对话和朗读语麓的差别表现在句法、剐语言学现象、音段和韵律等许多方面,这给
口语对话的标注带来新的课题.本文介绍自然口语对话语音语料库CADCC(Chinese
Annotated
Corpus)和其文字转写,音段以及韵律标注.CADCC包括两个子
库:电话对话库setl和口语对话语篇库set2.其标注内容包括篇章话题、话轮、韵律和音段
Dialoguo
and
Convvrsation
的标注.音段标注采用SAMPA—C标注系统,韵律标注采用C-ToBI标注系统.
本文还报告了标注结果,如篇章话题的长度,口语话轮出现的模式,插入和叠接现象,
韵律结构和朗读语篇的差异等等.
1自然口语库CADCC
语篇(discourse)包括朗读语篇和自然口语语篇,又可以分成独白和对话两种形式。不同
形式的语篇具有不同的特性,比如参与的人数、涉及的话题、话轮顺序和话轮长度等等。
我们已经建立了朗读语篇库ASCCD和独自的自然口语CASS,并且进行了语音学标注
【2】.口语对话语篇库CADCC是我们今年开始收集和标注的,我们希望它对言语工程和语音
研究会有较大的贡献。CADCC包括两个子库,其中SET
1是电话对话库,SET2是正常通道
对话库。表1给出了CADCC的详细信息。SET
2中的对话双方是同事或同学.有共同的爱好
或话题.谈话内容不限.也就是语篇话题可以自由转换。其中有8位发音人曾经参加朗读语
篇ASCCD的录音.这样做的目的是为了详细对比朗读和自然口语的各种差异.录音在普通办
公室或宿舍进行,对话者身别无线话筒,无线录音设备放置在另外的房间,这样保证了对话
双方完全进入自然谈话状态。每一对发音人的谈话时间在1个小时左右。
2音字转写
所有的声音都进行了汉字转写,特别将口语的副语言学和非语言学现象按照表2的符号
进行转写例l:B:我傻OV<B:我印度人A:LA<LA>OV>;
例2:A:LE<MO<嗅LE>M09;B:那个就是DS<一一DS>m子的事儿。
2.1语篇话题
为了进行对话交际中声学语音学分析【8】,我们在文字转写中标记了语篇话题(非句子话
题)转换的位置。语篇话题的组织呈现非线性形式。即一个语篇话题可以被另外一个中断,
然后在一定的位置重新开始.
本研究得到田家。973”和中田杜会科学院重大项目基金支持.
317
表3中给出了每对发音人语篇话题数(子话题除外)和时长分布。不考虑语速等个人特性
的话,图l给出了不同长度情况下的语篇话题数分布情况.语篇话题的平均长度是185.96秒.
表4是语篇话题出现的累计频率.80%的话题短于4.5分钟,90%话题短于5-6分钟。
2.2非语言学和副语言学现象
表5是非语言学和副语言学现象统计结果.黑体是出现率较高的现象。可以看到两个子
库中出现最多的是感叹词和语气词.如“啊、呀、哇、吗、呢、吧”等.很多感叹词只起填
充停顿Cfilled
paine)的功能.
2.3话轮转换
话轮交替机制是话语分析的一个重要课题。我们在CADCC中发现了各种话轮交替机制。
图2中左边一列是考察AB两个话轮出现模式图,右边一列是考察话轮ABA出现模式图。表
6是考察两个子库的话轮出现情况.在SET
l中总共有3256个话轮.其中315个是有叠接
(overh口)的话轮,柏个是插入式叠接的话轮,所以叠接的话轮占总话轮的20.6%((2"315+40)
可见,电话库的覆盖现象比会话库要多.可能是因为人们在打电话时交流的信息相对集
中,可能为了省一些电话费.说话速度更快.只要听懂对方的主要信息,不等对方把话说完
马上回应。
目前语音识别系统是将这些大量出现的重叠语音视为噪音处理的.也就是说在对话应用
系统中不考虑这种现象.我们发现人与人的对话和人与机器之间的对话存在差异,人不会和
机器抢着说话。
那么对这些有大量的叠接现象的口语研究是否有意义呢?我们认为研究大量出现的重叠
语音,可以解释会话交际中的心理认知机制。交际过程中听者可以不等话者说完一句话.就
去回应话者,这说明听者有“断章取义”的本事.至于研究听者如何得到的这种本事.是个
很有意义的研究课题.从长远的语音研究来看,语音理解是绕不过这个课题的.
自然口语中有大量的音变现象,如增音、减音等,具有音段音变标注的音库对语音识别
的发音建模和音变条件的研究都报重要。同时,对音段的准确真实地标注,也是其他层次标
Y.声韵
我们采用C-ToBI
2.0标注韵律系统【4,5,6】.它是对朗读和口语都适用的汉语韵律标注规
/3256).SET2中有叠接的话轮占10.6%(986"2/18608)】.
3.1音段标注
注的基础.标注软件选用Praat[7】和XWAVEs+,标注信息包括5层:PY:拼音层;s
层,用SAMPA-C【l】标注声母、韵母和音段和声调音变信息:MIS:杂类层,标注副语言学和
非语言学现象.见表3;ACC:口音层,标注发音人的口音信息.标注代码可以参考‘中国语
言文字使用情况调查一调查员手册'中的酱通话、汉语方言代码表;SM:语句功能层:标注疑
问、祈使、陈述、感叹四种功能语句.表7是两个表音人音段一致性检测结果(时间误差2ms)。
3.2韵律标注
范.韵律标注一般是分层的。音段切分是韵律标注的基础,所以是必不可少的~层,其他层
次的标注.要依据实际应用的需求和标注的语音特性确定。标注各层是:音段标注层:声调
语调层:标记每个音节的声调变化和全句的语调变化:间断指数层:标记汉语的韵律结构。
318


发布评论