2024年4月19日发(作者:)

内容摘要:与机器进行语音交流,让机器发出需要的声音,这是人们长期以

来梦寐以求的事情,文语转换系统就是让机器通过识别和理解文章段落把文字信

号转变为相应的声音信号的高技术。文娱转换是一门交叉学科,近二十年来,文

语转换技术取得了更加显著的进步,开始从实验室走向市场。热门娱记,未来

10年,文语转换系统将进入工业、家电、通信、汽车电子、医疗、家庭服务、

消费电子产品等各个领域。很多专家都认为文娱转换技术是2000至2010年间信

息技术领域十大重要的科技发展技术之一。本文介绍了利用微软的Microsoft

Speech SDK 5.1提供的TTS(text-to-speech)技术开发具有语音朗读功能的应用

程序

关键词

文语转换 MSSDK COM

Abstract:And machinery for voice communication, so that the machine needs a

voice, this is what people have long dreamed of, text-to-speech system is to allow

machines to identify and understand the paragraphs of the article text signal into the

voice signals in the corresponding high-tech. Civic conversion is a cross-discipline,

the last 20 years, text-to-speech conversion technology have made more significant

progress, starting from the laboratory to the market. Top Yuji, the next 10 years,

text-to-speech system will enter the industrial, household appliances,

telecommunications, automotive electronics, medical care, family services, consumer

electronics and other fields. Many experts agree that cultural conversion technology is

the 2000-2010 field of information technology among the 10 important scientific and

technological development of the technology. this article introduces How to Create

speech-enableed Apllications use the Microsoft Speech SDK 5.1

Key words:Test -To- Speech MSSDK COM

1

1绪论

1.1. TTS技术概述

上世纪90年代中期以来,随着个人计算机的硬件和软件功能越来越强,和现

代语音技术的发展,以前在科幻电影中才能看到的会说话的电脑已经成为现实.

而TTS技术正是电脑能够说话的关键技术之一.

TTS是text-to-speech的缩写,英文也称Speech Synthesis即语音合成.

语音合成就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入

的文本按字或词分解为音素,并且对文本中的数字、货币单位、单词变形以及标

点等要特殊处理的符号进行分析,以及将音素生成数字音频然后用扬声器播放出

来或者存为声音文件以后用多媒体软件播放.图1形象地描述了这个过程.

语音应用程序

“ONE O CLOCK”

应用程序把语言以纯文

本的形式输出

语音合成引擎

WAHN WO KLAOKD

语音合成引擎把文本转换为

音素和韵律符号并生成连续

的数字音频

声卡—扬声器

硬件部分

“ONE O CLOCK”

声卡将数字声音转换为声音

信号并由扬声器播放出来

图1. text-to-speech实现过程

当应用程序需要发声的时候就调用语音合成引擎(SPEECH SYNTHESIS

ENGINE)进行语言合成,将文本处理后通过扬声器用近似于人的声音“读”出来,

2