2024年4月28日发(作者:)
第
21
卷第
2
期
2004
年
2
月
计算机应用与软件
ComputerApplicationsandSoftware
Vol
1
21,No
1
2
Feb
1
,2004
一种综合的基音提取方法
章文义 朱 杰
(
上海交通大学 上海交通大学与贝尔实验室通信与网络联合实验室 上海
200030
)
摘 要 本文提出了一种综合的基音提取算法
,
综合运用了平均幅度差法、自相关函数法和简单逆滤波器跟踪法等多种算法对候
选的基音频率点进行打分
,
最后再用动态搜索的算法找出一条全局最优路径。从而避免了单一方法的局限性
,
取得了很好的性能。
关键词 基音 平均幅度差函数 自相关函数 简单逆滤波器跟踪法
ANEWCOMPOSITEPITCHEXTRACTIONALGORITHM
ZhangWenyi
ZhuJie
(
ShanghaiJiaotongUniversityandBellLabsCommunicationsandNetworkJointLaboratory,Shanghai200030
)
Abstract
Thisarticleproposesacompositepitchextractionalgorithm,whichintegratesAMDF,AutocorrelationFunctionandSIFTtogether,scores
thecandidatepitchfrequency,positealgorithmabstainsthelimitation
existsinsinglealgorithmandshowsgoodperformanceinmulti
2
conditions.
Keywords
Pitch
AMDF
Autocorrelationfunction
SIFT
minlag
、
maxlag
分别是可能的最小或最大的基音频率点位
置。为了减少计算量
,
从
(
1
)
式计算出的
D
(
n
)
序列中取出
8
个
1
引 言
基音提取是语音信号处理中一个重要的课题
,
在语音压缩
编码、语音识别
,
尤其是汉语语音识别中有着重要意义。基音提
取的方法大致可分为时域法、频域法和混合法三种。时域法包
括过零率法、短时自相关函数法、平均幅度差函数法等
[1,2,8]
;
频
域法包括频率极值点检测法、简单逆滤波器跟踪法、小波函数
[3,4,9]
法、
FIR
滤波器法等
;
此外还有倒谱法、即时频率法、
Comb
变换法等多种方法
[5,6,7]
。各种算法在运算量、精确度和抗噪性
能等方面不尽相同
,
一般来说
,
每种算法都有其固有的局限
性
[8,9]
。人们因此提出了各种改进算法和综合算法
[5,9]
,
以求提
高算法精确度和对各种环境下基音提取的健壮性。
本文在平均幅度差法、自相关函数法和简单逆滤波器跟踪
法的基础上
,
提出了一种综合算法。先用平均幅度差法选出一
些基音候选点
,
然后用其他两种算法对这些候选点进行打分
,
最
后根据分值采用全局的动态搜索算法找出一条全局最优路径。
该综合算法避免了单一方法的局限性
,
在实际测试中取得了很
好的性能。并且
,
在进行动态搜索时
,
由于考虑到了浊音和非浊
音段的区别
(
基音只存在于浊音段
,
在清音和静音时不存在基
音
)
,
使算法能够自动判别浊音段的端点
,
避免了额外的
U
/
V
分
类算法。
最小的作为候选点
,
进行下一步的计算。在这里
,
我们选用平均
幅度差函数法来计算候选点
,
是因为该方法具有运算量小的优
点。
2
1
2
简单逆滤波器跟踪算法
(SIFT)
标准的简单逆滤波器跟踪算法如图
1
所示。
图
1
简单逆滤波器跟踪法原理图
本文修改了标准的
SIFT
算法
,
省略了最后一步的峰值检
测。用杜宾法计算语音的线性预测系数
,
利用求得的线性预测
系数求自相关函数
,
即为当前帧的
Itakula
距离。
2
1
3
打 分
计算第一步中得到的
8
个候选点处的自相关函数
,
记为
Ncc
[
i
],
i
=0
~
7
。给当前帧的这
8
个候选点打分。
33
Score[
i
]=
(
1-
Ncc
[
i
]
)
α
+
β
arg[
i
]
(
2
)
i
=0
~
7
β
是常数
,arg[
i
]
表示第
i
个候选点的频率位置。其中
α
、
因为无声和清音时是没有基音频率的。我们增加了一个
Score[8]
来表示这种情况。
Score[8]
定义为
:
收稿日期
:2003-01-06
。本项目得到上海市科学技术委员会基础
2
基音的提取
2
1
1
平均幅度差函数
(AMDF)
N
D
(
n
)
=
k
=0
∑
|
s
(
n
)
-
s
(
k
+
n
)
|
/
N
(
1
)
研究项目基金资助
(
01JC14033
)
。章文义
,
硕士生
,
主研领域
:
语音识别
,
语言信号处理。
其中
:
n
=minlag
…或
maxlag
。
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
第
2
期
3
Score[8]=
γ
Nccmean
章文义等
:
一种综合的基音提取方法
(
3
)
13
其中
Nccmean
是
8
个候选点处自相关函数的平均值。
2
1
4
转移矩阵
转移矩阵表示在确定基音的连续曲线时
,
从前一帧某个候
选点转移到后一帧某个候选点时的惩罚函数。当前后两帧语音
都是浊音时
,
定义转移矩阵为
:
trancost[
i
][
j
]=
θ
3
|forearg[
i
]-backarg[
j
]|
i
,
j
=0
~
7
(
4
)
其中
θ
是常数
,forearg[
i
]
是前一帧第
i
个候选点的频率位置
,
backarg[
j
]
是后一帧第
j
个候选点的频率位置。
当从无基音的语音帧转移到有基音的帧时
,
转移函数定义
为
:
trancost[8][
j
]=
A
Π
change+
B
3
crossrate+
C
Π
SNR
j
=0
~
7
图
2
某一女声语音的波形图
及相应的基音频率曲线
(
1547058
)
各取男女声
20
句话
,
测试结果列表所示
:
(
5
)
环境
错误率
近体麦克风
2
1
3%
当从有基音的语音帧转移到无基音的帧时
,
转移函数定义
为
:
trancost[
i
][8]=
A
3
change+
D
3
(
RRi
-1
)
+
E
3
crossrate
i
=0
~
7
桌面麦克风程控电话信道手机电话信道
2
1
1%2
1
7%4
1
2%
(
6
)
当前后两帧都无基音时
,
转移函数定义为
:
trancost[8][8]=
F
(
7
)
4
结 论
本文提出了一种综合的基音提取方法
,
综合运用了平均幅
度差法、自相关函数法和简单逆滤波器跟踪法等多种方法
,
并采
用动态搜索算法来提取语音基音
,
取得了很高的精度
,
并且在各
种环境下都有稳定的性能。算法的核心思想在于先用一种低运
算量的算法选出一些候选的基音频率点
,
再用其他较复杂的算
法对这些候选点进行打分
,
最后根据分值进行全局的最优搜索。
基于这一思想
,
我们完全可以采用其他一些算法来替代本文所
提到的平均幅度差法、自相关函数法和简单逆滤波器跟踪法
,
由
此可以衍生出多种综合算法。由于采用了动态搜索的缘故
,
本
文所述算法的运算量偏大
,
如何降低算法的运算量仍然是值得
我们考虑的问题。
其中
A
、
B
、
C
、
D
、
E
、
F
为常数。
crossrate
、
SNR
分别是当前
帧的过零率和信躁比。
RRi
是前后两帧的能量比。
change
是前
后两帧能量比和
Itakula
距离比的乘积。
2
1
5
动态搜索和全局回溯
设
gloscore[
i
]
表示从语音起始帧到当前帧的第
i
个候选点
的累计分数。
gloscore[
i
]=min
{pregloscore[
j
]+trancost[
j
][
i
]}
j
∈
(
0..8
)
i
=0
~
8
(
8
)
(
9
)
preindex[
i
]=argmin
{pregloscore[
j
]
j
∈
(
0..8
)
+trancost[
j
][
i
]}
其中
pregloscore[
j
]
表示从语音起始帧到当前帧的前一帧的第
j
个候选点的累计分数。
preindex[
i
]
记录了从前一帧到当前帧的
第
i
个候选点的最优路径。这样当到达最后一帧时
,
从最后一
帧的累计分数最小的候选点
,
就可以根据
preindex[
i
]
进行回溯
,
从而找到一条全局最优路径。在最优路径上的每个候选点的
agr[
i
]
(
见式
(
2
))
值
,
就构成了当前语句的基音包络。
参考文献
[1]ndD.O
π
Shaughnessy,AutomaticandReliableEstimationof
GlottalClosureInstantandPeriod,stics,Speech,and
SignalProcessing,Vol.37,No.12,pp.1805
~
1815,1989.
[2],r,ACohen,R
1
,Average
MagnitudeDifferenceFunctionPitchExtractor,stics,
SpeechandSignalProcessing,Vol.22,No.5,pp.353
~
362,1974.
[3]JianlingHu,ShengXu,JianChen,Amodifiedpitchdetectionalgorithm,
IEEECommunicationsLetters,Volume:5Issue:2,Feb2001,pp
1
64
~
66.
[4]Ghaemmaghami,e,sh,B.,Anewapproachtopitchand
voicingdetectionthroughspectrumperiodicitymeasurement,TENCON
π
97,
IEEERegion10AnnualConference,SpeechandImageTechnologiesfor
ComputingandTelecommunications,Volume:2,1997,pp
1
743
~
746,Vol.2.
[5]Hernandez
2
DiazHuici,LorenzoGinori,Combinedalgorithmforpitchdetec
2
tionofspeechsignals,ElectronicsLetters,Volume:31Issue:1,5Jan.1995
pp
1
15
~
16.
[6]Abe,shi,,S.,Harmonicstrackingandpitchextraction
basedoninstantaneousfrequency,Acoustics,Speech,andSignalProcessing,
1995,ICASSP-95,1995InternationalConferenceon,Volume:1,1995
pp
1
756
~
759,Vol.1.
3
实验结果
图
2
中显示了电话信道环境下某一中文女声连续数子串的
声音文件波形图及相应的基音频率曲线。其中图
2
(
a
)
显示了
该语音的波形图
,
图
2
(
b
)
显示的是相应的基音频率曲线
,
实线
表示算法所提取出的基音曲线
,
虚线表示该段语音实际的基音
曲线。从图中可以看出
,
本文所述算法提取出的基音曲线跟真
实的基音曲线之间的误差非常的小
,
这些误差主要集中在基音
曲线的变化段
,
真实基音曲线的变化更平滑自然。由于采用了
全局动态搜索最优路径
,
有效的抑制了
2
倍频或
1/2
倍频等类
型的错判。从图中还可看出
,
本文所述算法判别出的浊音段的
起始和结束的端点非常准确。
用本文所提出的算法对近体麦克风、桌面麦克风、程控电话
信道和手机电话信道四种环境下的语音进行测试
,
每种环境下
(
下转第
116
页
)
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
116
计算机应用与软件
2004
年
绿色
(
G
)
、蓝色
(
B
)
的数值读数及色调
(
H
)
、饱和度
(
S
)
、亮度
(
I
)
的数值读数
,
当改变
R
、
G
、
B
中的任意刻度线或光标时
,
相应的
R
、
G
、
B
数值读数改变其值
,H
、
S
、
I
的数值读数跟着改变其值
,
上
面的颜色显示框也就跟着改变其颜色
,
表示当前颜色。同样
,
调
节
H
、
S
、
I
时
,R
、
G
、
B
也会发生相应改变
,
颜色样品显示当前颜
色。当用户从键盘直接给数值读数输入新值时
,
刻度线与颜色
也随着作相应的改变。
关系到用户的第一印象。本文把目前应用最为广泛的两种色彩
模型作了详细的分析
,
并做了选择颜色的具体实验
,
提出了新的
选择颜色方法和思想。通过对自然景物的图像处理实验
,
证明
本文提出的新方法适用
,
而且快速、有效。另外我们把它应用于
三维视景的颜色处理
,
特别在处理海水和天空颜色时
,
得到了很
好的效果。
参考文献
[1]ce-Hall,1996.
[2]er
SciencePress.
[3]LindbloomBJAccuratecolorreproductionforcomputergraphicsapplications
图
4
颜色编辑器
ComputerGraphic,1989,23
(
3
)
.
[4]erGraphics.
[5]
章毓晋
,
图像处理和分析
,
北京
:
清华大学出版社
,1999
1
从实验中发现
,
当饱和度
S=0
时
,H
任意改变
,
但是
R
、
G
、
B
保持相等
,
而且不变化
,
此时如果改变
I
值
,R
、
G
、
B
会同时变化
,
但是仍然相等
,
而且当
R=G=B=0
时
,
亮度值最小
,
当
R=G=
B=255
时
,
亮度值为最大值
;
相反
,
当
R=G=B
时
,
饱和度
S
一
定等于
0
。这样完全可以验证前面提到的
HSI
色彩空间
,
说明了
当
S=0
时
,
颜色就是通过圆心的亮度条
,
显然此时
R=G=B,H
的值可以是任意。
这样
,
我们可以在两个三维颜色空间中
,
直接进行交互式的
选取颜色。
(
上接第
13
页
)
[7]Janer,L.,
2
FrequencyandTime
2
ScaleAnalysis,dingsoftheIEEE
2
SPInter
2
nationalSymposiumon,1998pp
1
165
~
168
1
[8]er,,gal,ACom
2
parativePerformanceStudyofSeveralPitchDetectionAlgorithms,
π
IEEE
stics,Speech,andSignalProcessing,Vol.24,No.5,pp.399
~
418,1976.
[9]deCheveignA.,Kawahara,H.,ComparativeevaluationofF0estimational
2
gorithms,Eurospeech2001Scandinavia,pp
1
2451
~
2454.
6
HSI
色彩空间在图像处理中的应用实验
图
5
(
a
)
是一幅自然景物的原始图像
,
大小为
160
×
120,R
、
G
、
B
各位
8bit
的
24
位图
,
通过改变亮度
I
值
,
得到图
5
(
b
)
,
从图
5
(
b
)
可见
,
我们可以很方便地改变其亮度值
,
使很暗的图像变得
明亮
,
得到理想的图像。其次我们可以改变色调
(
Hue
)
值
,
可以
给图像添加色彩
,
如图
5
(
c
)
。还可以改变饱和度
S,
把图像的颜
色加浓
,
如图
5
(
d
)
。
(
上接第
40
页
)
(
4
)
商品销售情况分析
商品的销售信息是商业企业中最宝贵的信息资源之一
,
系
统从不同的角度加工、分析了这些销售信息
,
例如
:
1
)
特价商品促销效果分析
;
2
)
商品的时令特点分析
;
3
)
热销商品、滞销商品分析。
4
结束语
数据仓库是
20
世纪
90
年代发展起来的一门新兴技术
,
它
为
DSS
的发展和全面应用提供了有利的技术基础。文章介绍了
一种基于数据仓库技术
,
用于连锁型商业企业的商业营销
DSS,
该系统弥补了连锁型商业企业现有的信息系统在决策支持方面
的不足
,
能有效地提高企业的决策水平。
决策支持现在已经越来越受到人们的重视
,
在未来的一段
时间内
DSS
在商业企业中具有良好的应用前景
,
是商业企业信
息系统建设的重点。
参考文献
图
5
四幅利用上述方法处理的图像
[1]
陈文伟
,
决策支持系统及其开发
(
第二版
)
[M],
清华大学出版社、广
西科学技术出版社
,2000
1
2
1
[2]
高洪深、决策支持系统
(
DSS
)
理论、方法、案例
(
第二版
)
[M],
清华大
7
结束语
随着多媒体技术的发展
,
数字图像处理成了一个重要的研
究领域
,
但是
,
一直以来
,
选取颜色是一个关键问题
,
因为它直接
学出版社、广西科学技术出版社
,2000
1
9
1
[3]
王珊
,
数据仓库技术与联机分析处理
[M],
科学出版社
,1998
1
5
1
[4]
张素萍“
,
浅论基于数据仓库的决策支持系统
[J]
”《计算机应用研
,
究》
,1999,16
(
5
)
:22
~
24
1
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
发布评论