2024年4月28日发(作者:)

21

卷第

2

期   

2004

2

月  

计算机应用与软件

ComputerApplicationsandSoftware

Vol

1

21,No

1

2

Feb

1

,2004

一种综合的基音提取方法

章文义 朱 杰

(

上海交通大学 上海交通大学与贝尔实验室通信与网络联合实验室 上海

200030

)

摘 要  本文提出了一种综合的基音提取算法

,

综合运用了平均幅度差法、自相关函数法和简单逆滤波器跟踪法等多种算法对候

选的基音频率点进行打分

,

最后再用动态搜索的算法找出一条全局最优路径。从而避免了单一方法的局限性

,

取得了很好的性能。

关键词  基音 平均幅度差函数 自相关函数 简单逆滤波器跟踪法

ANEWCOMPOSITEPITCHEXTRACTIONALGORITHM

ZhangWenyi

 

ZhuJie

(

ShanghaiJiaotongUniversityandBellLabsCommunicationsandNetworkJointLaboratory,Shanghai200030

)

Abstract

  

Thisarticleproposesacompositepitchextractionalgorithm,whichintegratesAMDF,AutocorrelationFunctionandSIFTtogether,scores

thecandidatepitchfrequency,positealgorithmabstainsthelimitation

existsinsinglealgorithmandshowsgoodperformanceinmulti

2

conditions.

Keywords

  

Pitch

 

AMDF

 

Autocorrelationfunction

 

SIFT

minlag

maxlag

分别是可能的最小或最大的基音频率点位

置。为了减少计算量

,

(

1

)

式计算出的

D

(

n

)

序列中取出

8

1

 引 言

基音提取是语音信号处理中一个重要的课题

,

在语音压缩

编码、语音识别

,

尤其是汉语语音识别中有着重要意义。基音提

取的方法大致可分为时域法、频域法和混合法三种。时域法包

括过零率法、短时自相关函数法、平均幅度差函数法等

[1,2,8]

;

域法包括频率极值点检测法、简单逆滤波器跟踪法、小波函数

[3,4,9]

法、

FIR

滤波器法等

;

此外还有倒谱法、即时频率法、

Comb

变换法等多种方法

[5,6,7]

。各种算法在运算量、精确度和抗噪性

能等方面不尽相同

,

一般来说

,

每种算法都有其固有的局限

[8,9]

。人们因此提出了各种改进算法和综合算法

[5,9]

,

以求提

高算法精确度和对各种环境下基音提取的健壮性。

本文在平均幅度差法、自相关函数法和简单逆滤波器跟踪

法的基础上

,

提出了一种综合算法。先用平均幅度差法选出一

些基音候选点

,

然后用其他两种算法对这些候选点进行打分

,

后根据分值采用全局的动态搜索算法找出一条全局最优路径。

该综合算法避免了单一方法的局限性

,

在实际测试中取得了很

好的性能。并且

,

在进行动态搜索时

,

由于考虑到了浊音和非浊

音段的区别

(

基音只存在于浊音段

,

在清音和静音时不存在基

)

,

使算法能够自动判别浊音段的端点

,

避免了额外的

U

/

V

类算法。

最小的作为候选点

,

进行下一步的计算。在这里

,

我们选用平均

幅度差函数法来计算候选点

,

是因为该方法具有运算量小的优

点。

2

1

2

简单逆滤波器跟踪算法

(SIFT)

标准的简单逆滤波器跟踪算法如图

1

所示。

1

 简单逆滤波器跟踪法原理图

本文修改了标准的

SIFT

算法

,

省略了最后一步的峰值检

测。用杜宾法计算语音的线性预测系数

,

利用求得的线性预测

系数求自相关函数

,

即为当前帧的

Itakula

距离。

2

1

3

打 分

计算第一步中得到的

8

个候选点处的自相关函数

,

记为

Ncc

[

i

],

i

=0

7

。给当前帧的这

8

个候选点打分。

33

Score[

i

]=

(

1-

Ncc

[

i

]

)

α

+

β

arg[

i

]

(

2

)

i

=0

7

β

是常数

,arg[

i

]

表示第

i

个候选点的频率位置。其中

α

因为无声和清音时是没有基音频率的。我们增加了一个

Score[8]

来表示这种情况。

Score[8]

定义为

:

收稿日期

:2003-01-06

。本项目得到上海市科学技术委员会基础

2

 基音的提取

2

1

1

平均幅度差函数

(AMDF)

N

D

(

n

)

=

k

=0

|

s

(

n

)

-

s

(

k

+

n

)

|

/

N

(

1

)

研究项目基金资助

(

01JC14033

)

。章文义

,

硕士生

,

主研领域

:

语音识别

,

语言信号处理。

其中

:

n

=minlag

…或

maxlag

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.

 

2

期   

3

Score[8]=

γ

Nccmean

章文义等

:

一种综合的基音提取方法

(

3

)

 

13

其中

Nccmean

8

个候选点处自相关函数的平均值。

2

1

4

转移矩阵

转移矩阵表示在确定基音的连续曲线时

,

从前一帧某个候

选点转移到后一帧某个候选点时的惩罚函数。当前后两帧语音

都是浊音时

,

定义转移矩阵为

:

trancost[

i

][

j

]=

θ

3

|forearg[

i

]-backarg[

j

]|

i

,

j

=0

7

(

4

)

其中

θ

是常数

,forearg[

i

]

是前一帧第

i

个候选点的频率位置

,

backarg[

j

]

是后一帧第

j

个候选点的频率位置。

当从无基音的语音帧转移到有基音的帧时

,

转移函数定义

:

trancost[8][

j

]=

A

Π

change+

B

3

crossrate+

C

Π

SNR

j

=0

7

2

 某一女声语音的波形图

及相应的基音频率曲线

(

1547058

)

各取男女声

20

句话

,

测试结果列表所示

:

(

5

)

环境

错误率

近体麦克风

2

1

3%

当从有基音的语音帧转移到无基音的帧时

,

转移函数定义

:

trancost[

i

][8]=

A

3

change+

D

3

(

RRi

-1

)

+

E

3

crossrate

i

=0

7

桌面麦克风程控电话信道手机电话信道

2

1

1%2

1

7%4

1

2%

(

6

)

当前后两帧都无基音时

,

转移函数定义为

:

trancost[8][8]=

F

(

7

)

4

 结 论

本文提出了一种综合的基音提取方法

,

综合运用了平均幅

度差法、自相关函数法和简单逆滤波器跟踪法等多种方法

,

并采

用动态搜索算法来提取语音基音

,

取得了很高的精度

,

并且在各

种环境下都有稳定的性能。算法的核心思想在于先用一种低运

算量的算法选出一些候选的基音频率点

,

再用其他较复杂的算

法对这些候选点进行打分

,

最后根据分值进行全局的最优搜索。

基于这一思想

,

我们完全可以采用其他一些算法来替代本文所

提到的平均幅度差法、自相关函数法和简单逆滤波器跟踪法

,

此可以衍生出多种综合算法。由于采用了动态搜索的缘故

,

文所述算法的运算量偏大

,

如何降低算法的运算量仍然是值得

我们考虑的问题。

  其中

A

B

C

D

E

F

为常数。

crossrate

SNR

分别是当前

帧的过零率和信躁比。

RRi

是前后两帧的能量比。

change

是前

后两帧能量比和

Itakula

距离比的乘积。

2

1

5

动态搜索和全局回溯

gloscore[

i

]

表示从语音起始帧到当前帧的第

i

个候选点

的累计分数。

 

gloscore[

i

]=min

{pregloscore[

j

]+trancost[

j

][

i

]}

j

(

0..8

)

i

=0

8

(

8

)

(

9

)

 

preindex[

i

]=argmin

{pregloscore[

j

]

j

(

0..8

)

+trancost[

j

][

i

]}

其中

pregloscore[

j

]

表示从语音起始帧到当前帧的前一帧的第

j

个候选点的累计分数。

preindex[

i

]

记录了从前一帧到当前帧的

i

个候选点的最优路径。这样当到达最后一帧时

,

从最后一

帧的累计分数最小的候选点

,

就可以根据

preindex[

i

]

进行回溯

,

从而找到一条全局最优路径。在最优路径上的每个候选点的

agr[

i

]

(

见式

(

2

))

,

就构成了当前语句的基音包络。

参考文献

[1]ndD.O

π

Shaughnessy,AutomaticandReliableEstimationof

GlottalClosureInstantandPeriod,stics,Speech,and

SignalProcessing,Vol.37,No.12,pp.1805

1815,1989.

[2],r,ACohen,R

1

,Average

MagnitudeDifferenceFunctionPitchExtractor,stics,

SpeechandSignalProcessing,Vol.22,No.5,pp.353

362,1974.

[3]JianlingHu,ShengXu,JianChen,Amodifiedpitchdetectionalgorithm,

IEEECommunicationsLetters,Volume:5Issue:2,Feb2001,pp

1

64

66.

[4]Ghaemmaghami,e,sh,B.,Anewapproachtopitchand

voicingdetectionthroughspectrumperiodicitymeasurement,TENCON

π

97,

IEEERegion10AnnualConference,SpeechandImageTechnologiesfor

ComputingandTelecommunications,Volume:2,1997,pp

1

743

746,Vol.2.

[5]Hernandez

2

DiazHuici,LorenzoGinori,Combinedalgorithmforpitchdetec

2

tionofspeechsignals,ElectronicsLetters,Volume:31Issue:1,5Jan.1995

pp

1

15

16.

[6]Abe,shi,,S.,Harmonicstrackingandpitchextraction

basedoninstantaneousfrequency,Acoustics,Speech,andSignalProcessing,

1995,ICASSP-95,1995InternationalConferenceon,Volume:1,1995

pp

1

756

759,Vol.1.

3

 实验结果

2

中显示了电话信道环境下某一中文女声连续数子串的

声音文件波形图及相应的基音频率曲线。其中图

2

(

a

)

显示了

该语音的波形图

,

2

(

b

)

显示的是相应的基音频率曲线

,

实线

表示算法所提取出的基音曲线

,

虚线表示该段语音实际的基音

曲线。从图中可以看出

,

本文所述算法提取出的基音曲线跟真

实的基音曲线之间的误差非常的小

,

这些误差主要集中在基音

曲线的变化段

,

真实基音曲线的变化更平滑自然。由于采用了

全局动态搜索最优路径

,

有效的抑制了

2

倍频或

1/2

倍频等类

型的错判。从图中还可看出

,

本文所述算法判别出的浊音段的

起始和结束的端点非常准确。

用本文所提出的算法对近体麦克风、桌面麦克风、程控电话

信道和手机电话信道四种环境下的语音进行测试

,

每种环境下

(

下转第

116

)

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.

 

116

    计算机应用与软件

2004

绿色

(

G

)

、蓝色

(

B

)

的数值读数及色调

(

H

)

、饱和度

(

S

)

、亮度

(

I

)

的数值读数

,

当改变

R

G

B

中的任意刻度线或光标时

,

相应的

R

G

B

数值读数改变其值

,H

S

I

的数值读数跟着改变其值

,

面的颜色显示框也就跟着改变其颜色

,

表示当前颜色。同样

,

H

S

I

,R

G

B

也会发生相应改变

,

颜色样品显示当前颜

色。当用户从键盘直接给数值读数输入新值时

,

刻度线与颜色

也随着作相应的改变。

关系到用户的第一印象。本文把目前应用最为广泛的两种色彩

模型作了详细的分析

,

并做了选择颜色的具体实验

,

提出了新的

选择颜色方法和思想。通过对自然景物的图像处理实验

,

证明

本文提出的新方法适用

,

而且快速、有效。另外我们把它应用于

三维视景的颜色处理

,

特别在处理海水和天空颜色时

,

得到了很

好的效果。

参考文献

[1]ce-Hall,1996.

[2]er

SciencePress.

[3]LindbloomBJAccuratecolorreproductionforcomputergraphicsapplications

4

 颜色编辑器

ComputerGraphic,1989,23

(

3

)

.

[4]erGraphics.

[5]

章毓晋

,

图像处理和分析

,

北京

:

清华大学出版社

,1999

1

从实验中发现

,

当饱和度

S=0

,H

任意改变

,

但是

R

G

B

保持相等

,

而且不变化

,

此时如果改变

I

,R

G

B

会同时变化

,

但是仍然相等

,

而且当

R=G=B=0

,

亮度值最小

,

R=G=

B=255

,

亮度值为最大值

;

相反

,

R=G=B

,

饱和度

S

定等于

0

。这样完全可以验证前面提到的

HSI

色彩空间

,

说明了

S=0

,

颜色就是通过圆心的亮度条

,

显然此时

R=G=B,H

的值可以是任意。

这样

,

我们可以在两个三维颜色空间中

,

直接进行交互式的

选取颜色。

(

上接第

13

)

[7]Janer,L.,

2

FrequencyandTime

2

ScaleAnalysis,dingsoftheIEEE

2

SPInter

2

nationalSymposiumon,1998pp

1

165

168

1

[8]er,,gal,ACom

2

parativePerformanceStudyofSeveralPitchDetectionAlgorithms,

π

IEEE

stics,Speech,andSignalProcessing,Vol.24,No.5,pp.399

418,1976.

[9]deCheveignA.,Kawahara,H.,ComparativeevaluationofF0estimational

2

gorithms,Eurospeech2001Scandinavia,pp

1

2451

2454.

6

 

HSI

色彩空间在图像处理中的应用实验

5

(

a

)

是一幅自然景物的原始图像

,

大小为

160

×

120,R

G

B

各位

8bit

24

位图

,

通过改变亮度

I

,

得到图

5

(

b

)

,

从图

5

(

b

)

可见

,

我们可以很方便地改变其亮度值

,

使很暗的图像变得

明亮

,

得到理想的图像。其次我们可以改变色调

(

Hue

)

,

可以

给图像添加色彩

,

如图

5

(

c

)

。还可以改变饱和度

S,

把图像的颜

色加浓

,

如图

5

(

d

)

(

上接第

40

)

(

4

)

商品销售情况分析

商品的销售信息是商业企业中最宝贵的信息资源之一

,

统从不同的角度加工、分析了这些销售信息

,

例如

:

1

)

特价商品促销效果分析

;

2

)

商品的时令特点分析

;

3

)

热销商品、滞销商品分析。

4

 结束语

数据仓库是

20

世纪

90

年代发展起来的一门新兴技术

,

DSS

的发展和全面应用提供了有利的技术基础。文章介绍了

一种基于数据仓库技术

,

用于连锁型商业企业的商业营销

DSS,

该系统弥补了连锁型商业企业现有的信息系统在决策支持方面

的不足

,

能有效地提高企业的决策水平。

决策支持现在已经越来越受到人们的重视

,

在未来的一段

时间内

DSS

在商业企业中具有良好的应用前景

,

是商业企业信

息系统建设的重点。

参考文献

5

 四幅利用上述方法处理的图像

[1]

陈文伟

,

决策支持系统及其开发

(

第二版

)

[M],

清华大学出版社、广

西科学技术出版社

,2000

1

2

1

[2]

高洪深、决策支持系统

(

DSS

)

理论、方法、案例

(

第二版

)

[M],

清华大

7

 结束语

随着多媒体技术的发展

,

数字图像处理成了一个重要的研

究领域

,

但是

,

一直以来

,

选取颜色是一个关键问题

,

因为它直接

学出版社、广西科学技术出版社

,2000

1

9

1

[3]

王珊

,

数据仓库技术与联机分析处理

[M],

科学出版社

,1998

1

5

1

[4]

张素萍“

,

浅论基于数据仓库的决策支持系统

[J]

”《计算机应用研

,

究》

,1999,16

(

5

)

:22

24

1

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.