2024年6月14日发(作者:)
《西藏科技>>2o12年7期(总第232期) 信息技术
Unicode藏文分词系统的设计
才华普布卓玛
(西藏大学图书馆,西藏 拉萨850000)
摘 要:微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码
Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏
文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文
分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所
以很有必要对Unicode藏文文本进行分词研究。
关键词:藏文信息处理分词hash表逐字二分法
l 国内藏文分词研究的现状
的分词;西北民族大学姚徐先生等人提出《多级索引
1.1 基于规则的藏文分词方法研究
的藏语分词词典设计》,采用多个索引表来缩小分词
北京大学计算机语言学研究所陈玉忠先生等人在
词典中的匹配范围,其算法仍然是基于最大匹配法;西
2002年发表了《基于格助词和接续特征的藏文自动分
北民族大学祁坤钰先生2011年12月发表了《基于国
词方案》,此文借助藏语中的格助词和藏语言文字的
际标准编码系统的藏文分词词典机制研究》,初次介
特征,提出在格助词、接续特征、字性知识库和词典支
绍了Unicode藏文文本的分词技术。
持下进行逐级定位的确定性分词方法;2003年中国社
1.4藏文分词规范研究
科院江荻先生发表了《现代藏语组块分词的方法和过
西藏大学率先研究藏文分词规范标准,根据藏文
程》,以藏语形式句法特征为基础提出了藏语组块分
自身的词汇特点与构造规律,提出了较为系统、实用的
析和块内分词的组块自动分词方法;2006年西北民族
分词规范。
大学祁坤钰先生发表《信息处理用藏文自动分词研
2分词技术的发展动态
究》,提出格切分、边界符判定和模式匹配的多级分词
作为象形文字,汉语属于开放语言体系的非受限
方法。基于规则的藏文分词方法是在海量语言知识库 语言,其语法结构的约束性很弱。而藏文是拼音文字,
的基础上进行智能分词。就目前的计算机技术来说, 其相对严格的格语法理论便成了藏语分词的天然优
基于纯规则的藏文分词方法在知识库的组织与各模块 势,所以书面藏文分词系统必须以规则和词典相结合。
之间的协调上实有不少的困难。
从藏语词法、句法、音势论等为基础的格语法理论研究
1.2基于统计的藏文分词研究
开始,建立一套藏文字符串预处理即分块方法。分块
西北民族大学苏峻峰先生等人描述了一个基于
处理得当与否直接影响最后的分词结果,《基于格助
HMM的藏文分词模型;厦门大学史晓东先生等人发表
词和接续特征的藏文自动分词方案》、《现代藏语组块
了基于HMM模型的《央金藏文分词系统》。基于统计
分词的方法和过程》和《信息处理用藏文自动分词研
的藏文分词方法主要是依据相邻音节字出现的概率为
究》均对藏文分块方案进行了很有应用价值的学术研
依据进行分词。目前,采用的数学模型均为一阶隐马
究。
尔科夫模型。与实际的语言相比,该模型有不切实际
块内分词是藏文分词的最后匹配环节,其算法设
假设条件。故此方法在实际应用中有较大的局限性。
计的优劣直接影响着整个分词系统的工作效率。以往
1.3基于词典的藏文分词研究
的藏文分词系统都采用了正向或逆向最大匹配算法,
青海师大才智杰先生描述了班智达藏文分词系统 在待切分的字符串中截取长度为l(1取词典中最长词
的设计和实现,该分词系统只能用于班智达藏文文本
的长度,一般为26个藏文音节字。)的字符串作为假
77
信息技术
象词,在词典中进行整词二分查找。查找不成功则词
长l递次减一并循环,直至匹配成功。但是,据数据统
计,藏语中以单音节、双音节、三音节和四音节的词汇
《西藏科技))2012年7期(总第232期)
文字符号。符号库的元素作为藏语天然的切分特征标
记,可用于文本断句、分块等分词处理的前期工作中。
3.2 unicode藏文音节字的hash表
居多,它们更动态地覆盖了真实藏文文本的绝大部分,
所以在分词系统中不宜采用正向或逆向最大匹配算
法,这种由长词及短语的盲目尝试方法效率很低。所
以,设计并实现分词词典的快速查找方案是藏文分词
系统亟待解决的一大问题。
Hash方法是建立在数据存储地址与数据内容之
间的一个确定性的函数对应关系,使得每一个数据与
散列结构中的一个惟一存储位置相对应:即存储位置
=
hash(键)。在查找数据时,只要通过一次hash运
算,就可以直接定位该数据的存储地址,其查找效率是
在中文分词领域,清华大学孙茂松先生等很多学
者对汉语的多种分词机制做了全面的比较研究。从词
典的时间和空间效率、查询速度以及可维护性等多个
方面考察发现,基于逐字二分的分词词典机制是一种
简洁、高效的词典组织模式,能最大程度地满足实用型
中文自动分词系统的现实需要。除了沿用信息处理用
藏文语法研究中已取得的成果外,还要注重中文分词
所推出的最新技术方案同藏文分词的实际问题相联
系,优化和改进分词效率是藏文分词技术发展的客观
规律。
3 Unicode藏文分词系统的设计
本分词系统的设计采用了多级分词方案,如下图
所示:首先对待切分Unicode藏文文本进行“认字”处
理,找出文本中的标点符号、无歧义关联词;通过这些
切分特征标记进行“断句”处理;用无歧义格助词“分
块”;再用词典“分词”。
3.1 基础词汇及符号库的建设
分词单位是中国国家标准分词规范中的一个基本
概念。它是指信息处理中使用的、具有确定的语义和
语法功能的基本单位。依照这个原则,在建设基础词
t[库时,要录入包括字、词、短语、词藻、成语、俚语等在
内的多种词汇形式。内容要尽能覆盖人文社科、自然
科学两大领域的诸多学科方面。为此要将《藏汉大辞
典》、《安多口语词典》、《拉萨口语词典》、《格西曲扎
藏文辞典》、《新编藏文字典》、《藏文同音字典》、《藏
汉词典》、《藏文辞典》、《佛学词典》、《藏语动词词
典》、《藏医辞典》、《汉藏英对照自然科学名词术语丛
书》等多部藏文字(词)典中的数据经计算机录入、查
重、排序处理后合成一个十几万条词汇的藏文通用词
表。符号库既要包括藏语中的标点符号、数字符号等
文字符号,也要包括篇章符、敬重符、历算符等其他非
78
二分法无法比拟的。
基本集Unicode藏文文本是一个典型的音节字序
列结构,藏文词是由若干个物理音节构成。因此,词表
hash函数的键应该是音节序列。
根据藏文Unicode文本特点,每个藏文音节字由1
至7个字符构成,而每个字符用双字节编码表示。其
中高字节编码都是0x0F,低字节编码范围为0x00到
0xFF。所以,我们完全可以用一个64位整数(刚好是
8个字节)来表示一个有效的藏文音节字。如若pos
表示一个词在hash表中的存储地址,m表示音节字,
Bi表示字节,那么藏文的一个音节的表示形式为:
越: l转l f B2 l B3 }B4 f B5 f B6一f B I B8一
藏文音节字的hash函数为:pos=f(m),可采用多
种方法将111映射到更小的值,以免发生存储地址的冲
突。
3.3藏文逐字二分词典机制研究
在基于词典的藏文分词系统中,词切分的准确率
主要取决于分词词典的规模和待切分字符串的预处理
环节。而分词效率主要取决于分词词典的数据结构、
分词算法及两者之间的搭配效果。在分词算法效率无
法突破的情况下,构造一个词类信息细化、规模庞大、
结构简约的分词词典是提高分词效率和精度的一个突
破口。
在中文分词系统中,基于逐字二分分词词典机制
的实现比TRIE树简单,效率更高,是一种简洁、高速
的词典组织模式,基本达到了汉语自动分词系统的现
实要求。
对于藏语来说,该机制的词典结构分为词的首音
节字散列表、词索引表、词典正文。
.
;『T…—0 …一一— 昌丁一—]
《西藏科技 ̄2012年7期(总第232期)
词首字散列函数(hash函数)通过一次运算把藏
文变长编码文本直接定位在首字散列表中的对应序号
上。
首字散列表的一个单元包括两项内容:一项是入
口项个数:以该音节字为首字的词的个数;另一项是第
一
入口项指针:指向第一入口项在词索引表中的位置。
词索引表指向词在词典正文中的位置。
词典正文是以词为单位的有序表。通过词索引表
和词典正文的配合,很容易实现指定音节字的逐字二
分快速查询。
3.4藏文分词算法研究
自动分词系统的准确率、高效性、通用性及实用性
是其主要的技术指标。在藏文分词系统中,要充分挖
掘藏语自身所潜在的切分规则外,也要借鉴其他语种
在分词领域所取得的最新研究成果。多种方法有机结
合、优势互补,藏文分词的整体效果才能达到最佳状
态。
逐字二分同整词二分的区别在于查询过程:不再
以主观设定的长度截取字符串并其作为一个关键词与
词典数据进行比较,而是每次仅仅比较单个藏文音节
字。
例如:查询“
”中从首字开始的最长词。
(1)通过首字敞列表可知:以“ ”字开头的词在
词索引表中的范围;
(2)在第一步中确定的范围内通过二分法再查找
第二个字为“ ”的词,又可知以“ ”为开头的词
在索引表中的范围;
(3)通过二分法在第二步中确定的范围内再查找
第三个字为“ ”的词,又可知以“ ”为开头的
词的索引范围;
(4)通过二分法在第三步中确定的范围内查找第
四个字为“ ”的词,其中发现“ ”为一个
词;
(5)通过二舒洼在第四步中确定的查询范围内再
查找第五个字为“ ”的词,结果为空,查询结束。最
后得到“ ”为最长词,中间过程识别的
“ ”
、
“ ”
、
、
、
“ ”均为“ ”字开头的词,,’ / J /I/、H ,
可用全切分。
信息技术
嗍I蕊
脚
蜀鼻芷筻
马
^—— 霉 哥q
女●
o ———
— ,一
二. L-一 ———-.嚣 料
r
’
● ————’鞫 {珏知
———
・ ———,
3.5未登录词的处理
地名、机构名称、专业术语、外族人名等新词的大
量涌现,会发现任何一个分词词典都不可能构成完备
集。因此,在分词系统的应用过程中,将并列出现的未
登录词同原文相联系,确定是否为一个分词单位后进
行添加操作,动态完善词表数据。
参考文献
[1]孙茂松,左正平,黄昌宁.汉语自动分词词典机
制的实验研究.中文信息学报,2000,14:1—6.
[2] 江获.藏语文本信息处理的历程与进展[EB/
OL].[2008—06—15].http://www.cipsc.org.cn/up—
load/jiangdi.pdf.
[3] 陈玉忠,李保利,俞士汶.藏文自动分词系统的
设计与实现.中文信息学报,2003,17:15—20.
[4] 祁坤钰.基于国际标准编码系统的藏文分词词
典机制研究.西北民族大学学报(自然科学版),2010,
31(4),29—32.
[5] 姚徐,郭淑妮,李永宏,于洪志.多级索引的藏语
分词词典设计.计算机应用,2009,29:178—180.
(6] 才智杰.班智达藏文自动分词系统的设计与实
现.青海师范大学民族师范学院学报,2010,21(2):75
—
77.
[7] 孙茂松,邹嘉彦等.汉语自动分词研究评述[J].
当代语言学,2001,1.
[8] 陈玉忠,李保利,俞士汶等.基于格助词和接续
特征的书面藏文分词方案[J].语言文字应用,2003,1
[9] 陈玉忠,俞士汶.藏文信息处理的研究现状与展
望[J].中国藏学,2003,4.
[10] 翟伟斌,周振柳,蒋卓明,等.汉语分词词典设
计[J].计算机工程与应用,2007,43(1):1—2.
79
信息技术
[11] 李庆虎,陈玉健等.一种中文分词词典新机制
一
《西藏科技))2012年7期(总第232期)
[14]杨毅,王禹桥.一种改进逐字二分中文分词词
典设计.湘潭大学自然科学学报,2009,31(4):124—
6 7 8 9 m
128.
双字哈希机制[J].中文信息学报,2003,17(4):13
19.
—
[12] 魏进,常朝稳.单数组全映射分词词典[J].计
算机工程与应用,2007,43(23):184—186.
[13] 才智杰.藏文自动切分系统中紧缩词的识别
[J].中文信息学报,2009,1.
[15] 王东,陈笑蓉.一种改进的高效分词词典机制
[J].贵州大学学报(自然科学版),2007,24(4):380~
384.
5 6 7 8 9
编校土登达杰
2
3
1
2
为真,执行语句IJ.r[0]=L.r[i];
为假,结束本次fnr循环
1
0
为真,执行语句L.r[j+dk]=L.r[j];
为假,退出内层for循环,顺序执行语L.r[j+dk]=L.rEo];
为真,执行语句L r[j+dk]=L.r[j];
为假,退出内层for循环,顺序执行语L r[j+dk]:L.riO];
为真,执行语句L|r[j+dk]=L.rEj];
为真,执行语句IJ. j+dk]:L.rEj];
为假,退出内层f0r循环,顺序执行L.r[j+dk]=L.riO];
4
5
3
4
为真,执行语句L.r[0]=L.r[i];
为真,执行语句L.r[0]=L.r[i];
为假,结束本次for循环
为假,结束本次fnr循环
为假,结束本次f0r循环
为假,结束本次f0r循环
为真,执行语句L.r[0]=L.r[i];
11 为假,结束外层f0r循环
9
8
为真,执行语句L.r[j+dk]=L.r[j];
为假,退出内层for循环IJ.r[j+dk]=L.rE0];
从表3的走查过程可以看出当i为5时,内层f0r
循环执行了两次。而正是这两次调整了27和38之间
待排序列已经按记录关键字非递减有序。
4 总结
通过走查,从质疑算法中内层f0r循环的必要性到
清楚地认识到它的作用,这个过程进一步加深了对算
的次序。这充分体现了希尔排序的特点:子序列的构
成不是简单的“逐段分割”,而是将相隔某个“增量”的
记录组成一个子序列。较之直接插入排序,关键字较
小的记录不是一步步地往前挪动,而是跳跃式地前移。
希尔排序是在直接插入排序基础上的改进,算法1内
层f0r循环的作用就是以增量dk为间隔后移记录,查
法精髓的理解。在教学实践中,帮助学生养成走查算
法的习惯,培养学生形成求真务实的行为习惯,对教学
工作的顺利进行及学生日后综合能力的提升都大有裨
益。
找插入正确的插入位置,因此,是不可或缺的。此时,
程序执行结果为图3所示:
i c s , 甜 胛 0惭 she乳 ,h蛳e艟
., 1_ _
参考文献
[1] 严蔚敏,吴伟民.数据结构(c语言版)[M].北
}衅-鹤 躺
一
京:清华大学出版社,2006.
j
[2] 谭浩强.c程序设计[M].北京:清华大学出
版社,清华大学出版社,2005.
编校土登达杰
图3 -l荻复算法中内层f0r循环后的执行结果
80
发布评论