一种综合的基音提取方法编程频道|福州电脑网

2024年4月28日发(作者：)

第

卷第

期　　　

2004

年

月　　

计算机应用与软件

ComputerApplicationsandSoftware

Vol

21,No

Feb

,2004

一种综合的基音提取方法

章文义　朱　杰

(

上海交通大学　上海交通大学与贝尔实验室通信与网络联合实验室　上海

200030

)

摘　要　　本文提出了一种综合的基音提取算法

综合运用了平均幅度差法、自相关函数法和简单逆滤波器跟踪法等多种算法对候

选的基音频率点进行打分

最后再用动态搜索的算法找出一条全局最优路径。从而避免了单一方法的局限性

取得了很好的性能。

关键词　　基音　平均幅度差函数　自相关函数　简单逆滤波器跟踪法

ANEWCOMPOSITEPITCHEXTRACTIONALGORITHM

ZhangWenyi

ZhuJie

(

ShanghaiJiaotongUniversityandBellLabsCommunicationsandNetworkJointLaboratory,Shanghai200030

)

Abstract

Thisarticleproposesacompositepitchextractionalgorithm,whichintegratesAMDF,AutocorrelationFunctionandSIFTtogether,scores

thecandidatepitchfrequency,positealgorithmabstainsthelimitation

existsinsinglealgorithmandshowsgoodperformanceinmulti

conditions.

Keywords

Pitch

AMDF

Autocorrelationfunction

SIFT

minlag

、

maxlag

分别是可能的最小或最大的基音频率点位

置。为了减少计算量

从

(

)

式计算出的

(

)

序列中取出

个

　引　言

基音提取是语音信号处理中一个重要的课题

在语音压缩

编码、语音识别

尤其是汉语语音识别中有着重要意义。基音提

取的方法大致可分为时域法、频域法和混合法三种。时域法包

括过零率法、短时自相关函数法、平均幅度差函数法等

[1,2,8]

;

频

域法包括频率极值点检测法、简单逆滤波器跟踪法、小波函数

[3,4,9]

法、

FIR

滤波器法等

;

此外还有倒谱法、即时频率法、

Comb

变换法等多种方法

[5,6,7]

。各种算法在运算量、精确度和抗噪性

能等方面不尽相同

一般来说

每种算法都有其固有的局限

性

[8,9]

。人们因此提出了各种改进算法和综合算法

[5,9]

以求提

高算法精确度和对各种环境下基音提取的健壮性。

本文在平均幅度差法、自相关函数法和简单逆滤波器跟踪

法的基础上

提出了一种综合算法。先用平均幅度差法选出一

些基音候选点

然后用其他两种算法对这些候选点进行打分

最

后根据分值采用全局的动态搜索算法找出一条全局最优路径。

该综合算法避免了单一方法的局限性

在实际测试中取得了很

好的性能。并且

在进行动态搜索时

由于考虑到了浊音和非浊

音段的区别

(

基音只存在于浊音段

在清音和静音时不存在基

音

)

使算法能够自动判别浊音段的端点

避免了额外的

分

类算法。

最小的作为候选点

进行下一步的计算。在这里

我们选用平均

幅度差函数法来计算候选点

是因为该方法具有运算量小的优

点。

简单逆滤波器跟踪算法

(SIFT)

标准的简单逆滤波器跟踪算法如图

所示。

图

　简单逆滤波器跟踪法原理图

本文修改了标准的

SIFT

算法

省略了最后一步的峰值检

测。用杜宾法计算语音的线性预测系数

利用求得的线性预测

系数求自相关函数

即为当前帧的

Itakula

距离。

打　分

计算第一步中得到的

个候选点处的自相关函数

记为

Ncc

[

～

。给当前帧的这

个候选点打分。

Score[

(

Ncc

[

]

)

arg[

]

(

)

～

是常数

,arg[

]

表示第

个候选点的频率位置。其中

、

因为无声和清音时是没有基音频率的。我们增加了一个

Score[8]

来表示这种情况。

Score[8]

定义为

收稿日期

:2003-01-06

。本项目得到上海市科学技术委员会基础

　基音的提取

平均幅度差函数

(AMDF)

(

)

∑

(

)

(

)

(

)

研究项目基金资助

(

01JC14033

)

。章文义

硕士生

主研领域

语音识别

语言信号处理。

其中

=minlag

…或

maxlag

。

第

期　　　

Score[8]=

Nccmean

章文义等

一种综合的基音提取方法

(

)

其中

Nccmean

是

个候选点处自相关函数的平均值。

转移矩阵

转移矩阵表示在确定基音的连续曲线时

从前一帧某个候

选点转移到后一帧某个候选点时的惩罚函数。当前后两帧语音

都是浊音时

定义转移矩阵为

trancost[

][

|forearg[

]-backarg[

～

(

)

其中

是常数

,forearg[

]

是前一帧第

个候选点的频率位置

backarg[

]

是后一帧第

个候选点的频率位置。

当从无基音的语音帧转移到有基音的帧时

转移函数定义

为

trancost[8][

change+

crossrate+

SNR

～

图

　某一女声语音的波形图

及相应的基音频率曲线

(

1547058

)

各取男女声

句话

测试结果列表所示

(

)

环境

错误率

近体麦克风

当从有基音的语音帧转移到无基音的帧时

转移函数定义

为

trancost[

][8]=

change+

(

RRi

-1

)

crossrate

～

桌面麦克风程控电话信道手机电话信道

1%2

7%4

(

)

当前后两帧都无基音时

转移函数定义为

trancost[8][8]=

(

)

　结　论

本文提出了一种综合的基音提取方法

综合运用了平均幅

度差法、自相关函数法和简单逆滤波器跟踪法等多种方法

并采

用动态搜索算法来提取语音基音

取得了很高的精度

并且在各

种环境下都有稳定的性能。算法的核心思想在于先用一种低运

算量的算法选出一些候选的基音频率点

再用其他较复杂的算

法对这些候选点进行打分

最后根据分值进行全局的最优搜索。

基于这一思想

我们完全可以采用其他一些算法来替代本文所

提到的平均幅度差法、自相关函数法和简单逆滤波器跟踪法

由

此可以衍生出多种综合算法。由于采用了动态搜索的缘故

本

文所述算法的运算量偏大

如何降低算法的运算量仍然是值得

我们考虑的问题。

　　其中

、

为常数。

crossrate

、

SNR

分别是当前

帧的过零率和信躁比。

RRi

是前后两帧的能量比。

change

是前

后两帧能量比和

Itakula

距离比的乘积。

动态搜索和全局回溯

设

gloscore[

]

表示从语音起始帧到当前帧的第

个候选点

的累计分数。

gloscore[

]=min

{pregloscore[

]+trancost[

][

]}

∈

(

0..8

)

～

(

)

(

)

preindex[

]=argmin

{pregloscore[

]

∈

(

0..8

)

+trancost[

][

]}

其中

pregloscore[

]

表示从语音起始帧到当前帧的前一帧的第

个候选点的累计分数。

preindex[

]

记录了从前一帧到当前帧的

第

个候选点的最优路径。这样当到达最后一帧时

从最后一

帧的累计分数最小的候选点

就可以根据

preindex[

]

进行回溯

从而找到一条全局最优路径。在最优路径上的每个候选点的

agr[

]

(

见式

(

))

值

就构成了当前语句的基音包络。

参考文献

[1]ndD.O

Shaughnessy,AutomaticandReliableEstimationof

GlottalClosureInstantandPeriod,stics,Speech,and

SignalProcessing,Vol.37,No.12,pp.1805

～

1815,1989.

[2],r,ACohen,R

,Average

MagnitudeDifferenceFunctionPitchExtractor,stics,

SpeechandSignalProcessing,Vol.22,No.5,pp.353

～

362,1974.

[3]JianlingHu,ShengXu,JianChen,Amodifiedpitchdetectionalgorithm,

IEEECommunicationsLetters,Volume:5Issue:2,Feb2001,pp

～

66.

[4]Ghaemmaghami,e,sh,B.,Anewapproachtopitchand

voicingdetectionthroughspectrumperiodicitymeasurement,TENCON

97,

IEEERegion10AnnualConference,SpeechandImageTechnologiesfor

ComputingandTelecommunications,Volume:2,1997,pp

743

～

746,Vol.2.

[5]Hernandez

DiazHuici,LorenzoGinori,Combinedalgorithmforpitchdetec

tionofspeechsignals,ElectronicsLetters,Volume:31Issue:1,5Jan.1995

～

16.

[6]Abe,shi,,S.,Harmonicstrackingandpitchextraction

basedoninstantaneousfrequency,Acoustics,Speech,andSignalProcessing,

1995,ICASSP-95,1995InternationalConferenceon,Volume:1,1995

756

～

759,Vol.1.

　实验结果

图

中显示了电话信道环境下某一中文女声连续数子串的

声音文件波形图及相应的基音频率曲线。其中图

(

)

显示了

该语音的波形图

图

(

)

显示的是相应的基音频率曲线

实线

表示算法所提取出的基音曲线

虚线表示该段语音实际的基音

曲线。从图中可以看出

本文所述算法提取出的基音曲线跟真

实的基音曲线之间的误差非常的小

这些误差主要集中在基音

曲线的变化段

真实基音曲线的变化更平滑自然。由于采用了

全局动态搜索最优路径

有效的抑制了

倍频或

1/2

倍频等类

型的错判。从图中还可看出

本文所述算法判别出的浊音段的

起始和结束的端点非常准确。

用本文所提出的算法对近体麦克风、桌面麦克风、程控电话

信道和手机电话信道四种环境下的语音进行测试

每种环境下

(

下转第

116

页

)

116

　　　　计算机应用与软件

2004

年

绿色

(

)

、蓝色

(

)

的数值读数及色调

(

)

、饱和度

(

)

、亮度

(

)

的数值读数

当改变

、

中的任意刻度线或光标时

相应的

、

数值读数改变其值

、

的数值读数跟着改变其值

上

面的颜色显示框也就跟着改变其颜色

表示当前颜色。同样

调

节

、

时

、

也会发生相应改变

颜色样品显示当前颜

色。当用户从键盘直接给数值读数输入新值时

刻度线与颜色

也随着作相应的改变。

关系到用户的第一印象。本文把目前应用最为广泛的两种色彩

模型作了详细的分析

并做了选择颜色的具体实验

提出了新的

选择颜色方法和思想。通过对自然景物的图像处理实验

证明

本文提出的新方法适用

而且快速、有效。另外我们把它应用于

三维视景的颜色处理

特别在处理海水和天空颜色时

得到了很

好的效果。

参考文献

[1]ce-Hall,1996.

[2]er

SciencePress.

[3]LindbloomBJAccuratecolorreproductionforcomputergraphicsapplications

图

　颜色编辑器

ComputerGraphic,1989,23

(

)

[4]erGraphics.

[5]

章毓晋

图像处理和分析

北京

清华大学出版社

,1999

从实验中发现

当饱和度

S=0

时

任意改变

但是

、

保持相等

而且不变化

此时如果改变

值

、

会同时变化

但是仍然相等

而且当

R=G=B=0

时

亮度值最小

当

R=G=

B=255

时

亮度值为最大值

;

相反

当

R=G=B

时

饱和度

一

定等于

。这样完全可以验证前面提到的

HSI

色彩空间

说明了

当

S=0

时

颜色就是通过圆心的亮度条

显然此时

R=G=B,H

的值可以是任意。

这样

我们可以在两个三维颜色空间中

直接进行交互式的

选取颜色。

(

上接第

页

)

[7]Janer,L.,

FrequencyandTime

ScaleAnalysis,dingsoftheIEEE

SPInter

nationalSymposiumon,1998pp

165

～

168

[8]er,,gal,ACom

parativePerformanceStudyofSeveralPitchDetectionAlgorithms,

IEEE

stics,Speech,andSignalProcessing,Vol.24,No.5,pp.399

～

418,1976.

[9]deCheveignA.,Kawahara,H.,ComparativeevaluationofF0estimational

gorithms,Eurospeech2001Scandinavia,pp

2451

～

2454.

HSI

色彩空间在图像处理中的应用实验

图

(

)

是一幅自然景物的原始图像

大小为

160

120,R

、

各位

8bit

的

位图

通过改变亮度

值

得到图

(

)

从图

(

)

可见

我们可以很方便地改变其亮度值

使很暗的图像变得

明亮

得到理想的图像。其次我们可以改变色调

(

Hue

)

值

可以

给图像添加色彩

如图

(

)

。还可以改变饱和度

把图像的颜

色加浓

如图

(

)

。

(

上接第

页

)

(

)

商品销售情况分析

商品的销售信息是商业企业中最宝贵的信息资源之一

系

统从不同的角度加工、分析了这些销售信息

例如

)

特价商品促销效果分析

;

)

商品的时令特点分析

;

)

热销商品、滞销商品分析。

　结束语

数据仓库是

世纪

年代发展起来的一门新兴技术

它

为

DSS

的发展和全面应用提供了有利的技术基础。文章介绍了

一种基于数据仓库技术

用于连锁型商业企业的商业营销

DSS,

该系统弥补了连锁型商业企业现有的信息系统在决策支持方面

的不足

能有效地提高企业的决策水平。

决策支持现在已经越来越受到人们的重视

在未来的一段

时间内

DSS

在商业企业中具有良好的应用前景

是商业企业信

息系统建设的重点。

参考文献

图

　四幅利用上述方法处理的图像

[1]

陈文伟

决策支持系统及其开发

(

第二版

)

[M],

清华大学出版社、广

西科学技术出版社

,2000

[2]

高洪深、决策支持系统

(

DSS

)

理论、方法、案例

(

第二版

)

[M],

清华大

　结束语

随着多媒体技术的发展

数字图像处理成了一个重要的研

究领域

但是

一直以来

选取颜色是一个关键问题

因为它直接

学出版社、广西科学技术出版社

,2000

[3]

王珊

数据仓库技术与联机分析处理

[M],

科学出版社

,1998

[4]

张素萍“

浅论基于数据仓库的决策支持系统

[J]

”《计算机应用研

究》

,1999,16

(

)

:22

～

一种综合的基音提取方法

发布评论取消回复

最近发表

相关推荐

标签列表

一种综合的基音提取方法

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复