Unicode藏文分词系统的设计编程频道|福州电脑网

2024年6月14日发(作者：)

《西藏科技＞＞２ｏ１２年７期（总第２３２期）　信息技术　

Ｕｎｉｃｏｄｅ藏文分词系统的设计　

才华普布卓玛　

（西藏大学图书馆，西藏　拉萨８５００００）　

摘　要：微软公司以叠置引擎和ＯｐｅｎＴｙｐｅ字库技术为基础，于２００７年推出了基于藏文国际标准编码　

Ｕｎｉｃｏｄｅ字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法，并能解决国内其他藏　

文系统普遍存在的缺字问题，其发展趋势很强，已成为藏文资源及藏文应用软件开发的主流平台。藏文　

分词作为信息处理的基础性工作之一，在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用，所　

以很有必要对Ｕｎｉｃｏｄｅ藏文文本进行分词研究。　

关键词：藏文信息处理分词ｈａｓｈ表逐字二分法　

ｌ　国内藏文分词研究的现状　

的分词；西北民族大学姚徐先生等人提出《多级索引　

１．１　基于规则的藏文分词方法研究　

的藏语分词词典设计》，采用多个索引表来缩小分词　

北京大学计算机语言学研究所陈玉忠先生等人在　

词典中的匹配范围，其算法仍然是基于最大匹配法；西　

２００２年发表了《基于格助词和接续特征的藏文自动分　

北民族大学祁坤钰先生２０１１年１２月发表了《基于国　

词方案》，此文借助藏语中的格助词和藏语言文字的　

际标准编码系统的藏文分词词典机制研究》，初次介　

特征，提出在格助词、接续特征、字性知识库和词典支　

绍了Ｕｎｉｃｏｄｅ藏文文本的分词技术。　

持下进行逐级定位的确定性分词方法；２００３年中国社　

１．４藏文分词规范研究　

科院江荻先生发表了《现代藏语组块分词的方法和过　

西藏大学率先研究藏文分词规范标准，根据藏文　

程》，以藏语形式句法特征为基础提出了藏语组块分　

自身的词汇特点与构造规律，提出了较为系统、实用的　

析和块内分词的组块自动分词方法；２００６年西北民族　

分词规范。　

大学祁坤钰先生发表《信息处理用藏文自动分词研　

２分词技术的发展动态　

究》，提出格切分、边界符判定和模式匹配的多级分词　

作为象形文字，汉语属于开放语言体系的非受限　

方法。基于规则的藏文分词方法是在海量语言知识库　语言，其语法结构的约束性很弱。而藏文是拼音文字，　

的基础上进行智能分词。就目前的计算机技术来说，　其相对严格的格语法理论便成了藏语分词的天然优　

基于纯规则的藏文分词方法在知识库的组织与各模块　势，所以书面藏文分词系统必须以规则和词典相结合。　

之间的协调上实有不少的困难。　

从藏语词法、句法、音势论等为基础的格语法理论研究　

１．２基于统计的藏文分词研究　

开始，建立一套藏文字符串预处理即分块方法。分块　

西北民族大学苏峻峰先生等人描述了一个基于　

处理得当与否直接影响最后的分词结果，《基于格助　

ＨＭＭ的藏文分词模型；厦门大学史晓东先生等人发表　

词和接续特征的藏文自动分词方案》、《现代藏语组块　

了基于ＨＭＭ模型的《央金藏文分词系统》。基于统计　

分词的方法和过程》和《信息处理用藏文自动分词研　

的藏文分词方法主要是依据相邻音节字出现的概率为　

究》均对藏文分块方案进行了很有应用价值的学术研　

依据进行分词。目前，采用的数学模型均为一阶隐马　

究。　

尔科夫模型。与实际的语言相比，该模型有不切实际　

块内分词是藏文分词的最后匹配环节，其算法设　

假设条件。故此方法在实际应用中有较大的局限性。　

计的优劣直接影响着整个分词系统的工作效率。以往　

１．３基于词典的藏文分词研究　

的藏文分词系统都采用了正向或逆向最大匹配算法，　

青海师大才智杰先生描述了班智达藏文分词系统　在待切分的字符串中截取长度为ｌ（１取词典中最长词　

的设计和实现，该分词系统只能用于班智达藏文文本　

的长度，一般为２６个藏文音节字。）的字符串作为假　

７７　

信息技术　

象词，在词典中进行整词二分查找。查找不成功则词　

长ｌ递次减一并循环，直至匹配成功。但是，据数据统　

计，藏语中以单音节、双音节、三音节和四音节的词汇　

《西藏科技））２０１２年７期（总第２３２期）　

文字符号。符号库的元素作为藏语天然的切分特征标　

记，可用于文本断句、分块等分词处理的前期工作中。　

３．２　ｕｎｉｃｏｄｅ藏文音节字的ｈａｓｈ表　

居多，它们更动态地覆盖了真实藏文文本的绝大部分，　

所以在分词系统中不宜采用正向或逆向最大匹配算　

法，这种由长词及短语的盲目尝试方法效率很低。所　

以，设计并实现分词词典的快速查找方案是藏文分词　

系统亟待解决的一大问题。　

Ｈａｓｈ方法是建立在数据存储地址与数据内容之　

间的一个确定性的函数对应关系，使得每一个数据与　

散列结构中的一个惟一存储位置相对应：即存储位置　

＝

ｈａｓｈ（键）。在查找数据时，只要通过一次ｈａｓｈ运　

算，就可以直接定位该数据的存储地址，其查找效率是　

在中文分词领域，清华大学孙茂松先生等很多学　

者对汉语的多种分词机制做了全面的比较研究。从词　

典的时间和空间效率、查询速度以及可维护性等多个　

方面考察发现，基于逐字二分的分词词典机制是一种　

简洁、高效的词典组织模式，能最大程度地满足实用型　

中文自动分词系统的现实需要。除了沿用信息处理用　

藏文语法研究中已取得的成果外，还要注重中文分词　

所推出的最新技术方案同藏文分词的实际问题相联　

系，优化和改进分词效率是藏文分词技术发展的客观　

规律。　

３　Ｕｎｉｃｏｄｅ藏文分词系统的设计　

本分词系统的设计采用了多级分词方案，如下图　

所示：首先对待切分Ｕｎｉｃｏｄｅ藏文文本进行“认字”处　

理，找出文本中的标点符号、无歧义关联词；通过这些　

切分特征标记进行“断句”处理；用无歧义格助词“分　

块”；再用词典“分词”。　

３．１　基础词汇及符号库的建设　

分词单位是中国国家标准分词规范中的一个基本　

概念。它是指信息处理中使用的、具有确定的语义和　

语法功能的基本单位。依照这个原则，在建设基础词　

ｔ［库时，要录入包括字、词、短语、词藻、成语、俚语等在　

内的多种词汇形式。内容要尽能覆盖人文社科、自然　

科学两大领域的诸多学科方面。为此要将《藏汉大辞　

典》、《安多口语词典》、《拉萨口语词典》、《格西曲扎　

藏文辞典》、《新编藏文字典》、《藏文同音字典》、《藏　

汉词典》、《藏文辞典》、《佛学词典》、《藏语动词词　

典》、《藏医辞典》、《汉藏英对照自然科学名词术语丛　

书》等多部藏文字（词）典中的数据经计算机录入、查　

重、排序处理后合成一个十几万条词汇的藏文通用词　

表。符号库既要包括藏语中的标点符号、数字符号等　

文字符号，也要包括篇章符、敬重符、历算符等其他非　

７８　

二分法无法比拟的。　

基本集Ｕｎｉｃｏｄｅ藏文文本是一个典型的音节字序　

列结构，藏文词是由若干个物理音节构成。因此，词表　

ｈａｓｈ函数的键应该是音节序列。　

根据藏文Ｕｎｉｃｏｄｅ文本特点，每个藏文音节字由１　

至７个字符构成，而每个字符用双字节编码表示。其　

中高字节编码都是０ｘ０Ｆ，低字节编码范围为０ｘ００到　

０ｘＦＦ。所以，我们完全可以用一个６４位整数（刚好是　

８个字节）来表示一个有效的藏文音节字。如若ｐｏｓ　

表示一个词在ｈａｓｈ表中的存储地址，ｍ表示音节字，　

Ｂｉ表示字节，那么藏文的一个音节的表示形式为：　

越：　ｌ转ｌ　ｆ　Ｂ２　ｌ　Ｂ３　｝Ｂ４　ｆ　Ｂ５　ｆ　Ｂ６一ｆ　Ｂ　Ｉ　Ｂ８一　

藏文音节字的ｈａｓｈ函数为：ｐｏｓ＝ｆ（ｍ），可采用多　

种方法将１１１映射到更小的值，以免发生存储地址的冲　

突。　

３．３藏文逐字二分词典机制研究　

在基于词典的藏文分词系统中，词切分的准确率　

主要取决于分词词典的规模和待切分字符串的预处理　

环节。而分词效率主要取决于分词词典的数据结构、　

分词算法及两者之间的搭配效果。在分词算法效率无　

法突破的情况下，构造一个词类信息细化、规模庞大、　

结构简约的分词词典是提高分词效率和精度的一个突　

破口。　

在中文分词系统中，基于逐字二分分词词典机制　

的实现比ＴＲＩＥ树简单，效率更高，是一种简洁、高速　

的词典组织模式，基本达到了汉语自动分词系统的现　

实要求。　

对于藏语来说，该机制的词典结构分为词的首音　

节字散列表、词索引表、词典正文。　

．　

；『Ｔ…—０　…一一—　昌丁一—］　

《西藏科技￣２０１２年７期（总第２３２期）　

词首字散列函数（ｈａｓｈ函数）通过一次运算把藏　

文变长编码文本直接定位在首字散列表中的对应序号　

上。　

首字散列表的一个单元包括两项内容：一项是入　

口项个数：以该音节字为首字的词的个数；另一项是第　

一

入口项指针：指向第一入口项在词索引表中的位置。　

词索引表指向词在词典正文中的位置。　

词典正文是以词为单位的有序表。通过词索引表　

和词典正文的配合，很容易实现指定音节字的逐字二　

分快速查询。　

３．４藏文分词算法研究　

自动分词系统的准确率、高效性、通用性及实用性　

是其主要的技术指标。在藏文分词系统中，要充分挖　

掘藏语自身所潜在的切分规则外，也要借鉴其他语种　

在分词领域所取得的最新研究成果。多种方法有机结　

合、优势互补，藏文分词的整体效果才能达到最佳状　

态。　

逐字二分同整词二分的区别在于查询过程：不再　

以主观设定的长度截取字符串并其作为一个关键词与　

词典数据进行比较，而是每次仅仅比较单个藏文音节　

字。　

例如：查询“　

”中从首字开始的最长词。　

（１）通过首字敞列表可知：以“　”字开头的词在　

词索引表中的范围；　

（２）在第一步中确定的范围内通过二分法再查找　

第二个字为“　”的词，又可知以“　”为开头的词　

在索引表中的范围；　

（３）通过二分法在第二步中确定的范围内再查找　

第三个字为“　”的词，又可知以“　”为开头的　

词的索引范围；　

（４）通过二分法在第三步中确定的范围内查找第　

四个字为“　”的词，其中发现“　”为一个　

词；　

（５）通过二舒洼在第四步中确定的查询范围内再　

查找第五个字为“　”的词，结果为空，查询结束。最　

后得到“　”为最长词，中间过程识别的　

“　”

、　

“　”

、

　“　”均为“　”字开头的词，，’　／　Ｊ　／Ｉ／、Ｈ　，　

可用全切分。　

信息技术　

嗍Ｉ蕊　

脚　

蜀鼻芷筻　

马　

＾——　霉　哥ｑ　

女●　

ｏ　———　

—　，一　

二．　Ｌ－一　———－．嚣　料　

ｒ

’　

●　————’鞫　｛珏知　

———　

・　———，　

３．５未登录词的处理　

地名、机构名称、专业术语、外族人名等新词的大　

量涌现，会发现任何一个分词词典都不可能构成完备　

集。因此，在分词系统的应用过程中，将并列出现的未　

登录词同原文相联系，确定是否为一个分词单位后进　

行添加操作，动态完善词表数据。　

参考文献　

［１］孙茂松，左正平，黄昌宁．汉语自动分词词典机　

制的实验研究．中文信息学报，２０００，１４：１—６．　

［２］　江获．藏语文本信息处理的历程与进展［ＥＢ／　

ＯＬ］．［２００８—０６—１５］．ｈｔｔｐ：／／ｗｗｗ．ｃｉｐｓｃ．ｏｒｇ．ｃｎ／ｕｐ—　

ｌｏａｄ／ｊｉａｎｇｄｉ．ｐｄｆ．　

［３］　陈玉忠，李保利，俞士汶．藏文自动分词系统的　

设计与实现．中文信息学报，２００３，１７：１５—２０．　

［４］　祁坤钰．基于国际标准编码系统的藏文分词词　

典机制研究．西北民族大学学报（自然科学版），２０１０，　

３１（４），２９—３２．　

［５］　姚徐，郭淑妮，李永宏，于洪志．多级索引的藏语　

分词词典设计．计算机应用，２００９，２９：１７８—１８０．　

（６］　才智杰．班智达藏文自动分词系统的设计与实　

现．青海师范大学民族师范学院学报，２０１０，２１（２）：７５　

—

７７．　

［７］　孙茂松，邹嘉彦等．汉语自动分词研究评述［Ｊ］．　

当代语言学，２００１，１．　

［８］　陈玉忠，李保利，俞士汶等．基于格助词和接续　

特征的书面藏文分词方案［Ｊ］．语言文字应用，２００３，１　

［９］　陈玉忠，俞士汶．藏文信息处理的研究现状与展　

望［Ｊ］．中国藏学，２００３，４．　

［１０］　翟伟斌，周振柳，蒋卓明，等．汉语分词词典设　

计［Ｊ］．计算机工程与应用，２００７，４３（１）：１—２．　

７９　

信息技术　

［１１］　李庆虎，陈玉健等．一种中文分词词典新机制　

一

《西藏科技））２０１２年７期（总第２３２期）　

［１４］杨毅，王禹桥．一种改进逐字二分中文分词词　

典设计．湘潭大学自然科学学报，２００９，３１（４）：１２４—　

６　７　８　９　ｍ　

１２８．　

双字哈希机制［Ｊ］．中文信息学报，２００３，１７（４）：１３　

１９．　

—

［１２］　魏进，常朝稳．单数组全映射分词词典［Ｊ］．计　

算机工程与应用，２００７，４３（２３）：１８４—１８６．　

［１３］　才智杰．藏文自动切分系统中紧缩词的识别　

［Ｊ］．中文信息学报，２００９，１．　

［１５］　王东，陈笑蓉．一种改进的高效分词词典机制　

［Ｊ］．贵州大学学报（自然科学版），２００７，２４（４）：３８０～　

３８４．　

５　６　７　８　９　

编校土登达杰　

２　

３　

１　

２　

为真，执行语句ＩＪ．ｒ［０］＝Ｌ．ｒ［ｉ］；　

为假，结束本次ｆｎｒ循环　

１　

０　

为真，执行语句Ｌ．ｒ［ｊ＋ｄｋ］＝Ｌ．ｒ［ｊ］；　

为假，退出内层ｆｏｒ循环，顺序执行语Ｌ．ｒ［ｊ＋ｄｋ］＝Ｌ．ｒＥｏ］；　

为真，执行语句Ｌ　ｒ［ｊ＋ｄｋ］＝Ｌ．ｒ［ｊ］；　

为假，退出内层ｆｏｒ循环，顺序执行语Ｌ　ｒ［ｊ＋ｄｋ］：Ｌ．ｒｉＯ］；　

为真，执行语句Ｌ｜ｒ［ｊ＋ｄｋ］＝Ｌ．ｒＥｊ］；　

为真，执行语句ＩＪ．　ｊ＋ｄｋ］：Ｌ．ｒＥｊ］；　

为假，退出内层ｆ０ｒ循环，顺序执行Ｌ．ｒ［ｊ＋ｄｋ］＝Ｌ．ｒｉＯ］；　

４　

５　

３　

４　

为真，执行语句Ｌ．ｒ［０］＝Ｌ．ｒ［ｉ］；　

为假，结束本次ｆｏｒ循环　

为假，结束本次ｆｎｒ循环　

为假，结束本次ｆ０ｒ循环　

为真，执行语句Ｌ．ｒ［０］＝Ｌ．ｒ［ｉ］；　

１１　为假，结束外层ｆ０ｒ循环　

９　

８　

为真，执行语句Ｌ．ｒ［ｊ＋ｄｋ］＝Ｌ．ｒ［ｊ］；　

为假，退出内层ｆｏｒ循环ＩＪ．ｒ［ｊ＋ｄｋ］＝Ｌ．ｒＥ０］；　

从表３的走查过程可以看出当ｉ为５时，内层ｆ０ｒ　

循环执行了两次。而正是这两次调整了２７和３８之间　

待排序列已经按记录关键字非递减有序。　

４　总结　

通过走查，从质疑算法中内层ｆ０ｒ循环的必要性到　

清楚地认识到它的作用，这个过程进一步加深了对算　

的次序。这充分体现了希尔排序的特点：子序列的构　

成不是简单的“逐段分割”，而是将相隔某个“增量”的　

记录组成一个子序列。较之直接插入排序，关键字较　

小的记录不是一步步地往前挪动，而是跳跃式地前移。　

希尔排序是在直接插入排序基础上的改进，算法１内　

层ｆ０ｒ循环的作用就是以增量ｄｋ为间隔后移记录，查　

法精髓的理解。在教学实践中，帮助学生养成走查算　

法的习惯，培养学生形成求真务实的行为习惯，对教学　

工作的顺利进行及学生日后综合能力的提升都大有裨　

益。　

找插入正确的插入位置，因此，是不可或缺的。此时，　

程序执行结果为图３所示：　

ｉ　ｃ　ｓ　，　甜　胛　０惭　ｓｈｅ乳　，ｈ蛳ｅ艟　

．，　１＿　＿

参考文献　

［１］　严蔚敏，吴伟民．数据结构（ｃ语言版）［Ｍ］．北　

｝衅－鹤　躺　

一

京：清华大学出版社，２００６．　

ｊ　

［２］　谭浩强．ｃ程序设计［Ｍ］．北京：清华大学出　

版社，清华大学出版社，２００５．　

编校土登达杰　

图３　－ｌ荻复算法中内层ｆ０ｒ循环后的执行结果　

８０　

Unicode藏文分词系统的设计

发布评论取消回复

最近发表

相关推荐

标签列表

Unicode藏文分词系统的设计

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复