2024年5月4日发(作者:)

总第265期 

计算机与数字工程 

Computer&Digital Engineering 

Vo1.39 No.U 

44 

2011年第11期 

种基于TrueType字库格式的女书轮廓提取方法 

严红娟 

(中南民族大学计算机科学学院武汉430074) 

摘要TrueType字库是Windows操作系统的通用轮廓字体文件,女书字形轮廓的提取对建立女书TrueType轮廓 

字库具有重要的意义。该文介绍了一种按照TrueType字库格式提取女书字形轮廓的算法,主要包括女书预处理、轮廓提 

取、轮廓数据有序化跟踪、轮廓特征点提取等主要步骤。实验结果表明:该算法效果良好,提取的字形轮廓能写入女书Tru— 

eType字库中,为下一步自动生成TrueType字模打下了基础。 

关键词女书;TrueType字库;字形轮廓;特征点提取 

TP391 中图分类号

An Approach for Extracting Contour of NiiS hu 

Based on TrueType Font Format 

Yan Hongjuan 

(College of Computer Science,South-Central University for Nationalities,Wuhan 430074) 

Abstract TrueType font is a popular outline font file of Windows operator system,contour extraction of NoShu has 

great significance for building outline font of NfiShu.This paper introduces an algorithm tO extract NaShu characters contour 

in accordance with TrueType font format,which includes preprocessing,contour extraction,acquiring NaShu characters 

outline data,extracting the characteristic point from outline data.Experiment result is given to show the performance of the 

algorithm,the outline data can be written in TrueType font of NOShu,and it lays a foundation for generating TrueType font 

automatically. 

Key Words N ̄Shu,TrueType font,characters contour,feature extracting 

Class Number TP39] 

1 引言 

女书,又叫“女字”,是由女性创造并只在女性 

中流传、使用的一种神秘符号,流传地点主要在湖 

南江永及道县局部地区,它用歌谣、文字等形式记 

载了女性的生活场景和情感世界,是世界上唯一的 

女性文字l_】]。女书的研究对语言学、考古学、历史 

得到与文稿大小基本一致的女书字符,然后用胶水 

粘贴在文稿的相应位置来撰写文章。这一过程耗 

时费力,使得大量的研究成果难以发表,也使得国 

内外的出版机构深感不便,严重影响了女书文化的 

传承和发扬。随着现代社会自然与人文环境的巨 

大变革,以电脑网络为代表的新媒介迅速普及,人 

们希望借助计算机来处理女书。解决这个问题的 

关键就是如何把图片形式的女书转化为字处理软 

件所需要的格式。 

TrueType字库是Windows操作系统的通用 

字体文件,它采用直线和二次Bezier曲线来描述 

字符的轮廓,字体可以任意放大、缩小、旋转和变 

学、民族学、社会学、女性学等研究具有不可替代的 

价值。 

目前女书的传承主要是通过手写的方式进行。 

为了保持女书的“原生态”,研究人员通常采用对收 

集的原始女书作品复印、剪切、等比例缩印等方法, 

收稿日期:2011年5月11日,修回日期:2011年6月18日 

作者简介:严红娟,女,硕士研究生,研究方向:数字图像处理、人工智能。 

2011年第11期 计算机与数字工程 45 

形而不会影响输出质量[ 。随着Windows操作 

系统的盛行,TrueType字形技术越来越受到人们 

的关注。本文对扫描进计算机的女书图片进行预 

处理,并按照TrueType字库格式自动提取女书字 

4女书轮廓数据跟踪 

轮廓跟踪的目的是为了获得经过轮廓提取后 

的连通域轮廓数据。基本原理是从上到下、从左往 

右扫描图像,当遇到边界点时则进行跟踪,并将搜 

索到的轮廓线上的点记录到一个点列中,这样一个 

形轮廓和特征点,从而可以得到描述女书轮廓的 

直线和Bezier曲线,并把得到的字形轮廓数据存 

放在TrueType格式的字库中,使女书可以和通用 

方法输入的字一样在各种通用办公软件中得到应 

用 2~3l。 

2预处理一二值化 

传递、记载女书的物品主要有四种一书、纸、 

扇、巾[1]。要获取女书,必须扫描女书图片作为输 

人。但是由于数量庞杂、年代久远、保存不善等原 

因,扫描出来的图片一般质量不高,所以在二值化 

之前必须对它们进行灰度化、图像增强、平滑滤波、 

锐化等处理,以去除噪声的影响。 

在二值化过程中,合适的阈值选取是关键。为 

确保文字的特征信息不会丢失太多,在本文中主要 

采用高效的大津法(OTSU)E47实现全局动态二值 

化,其主要思想是:按图像的灰度特性,将图像的直 

方图以某一灰度为阈值将图像分成背景和目标两 

部分。背景和目标之间的类间方差最大时,说明构 

成图像的两部分的差别最大,此时的灰度值是最佳 

阈值。 

3女书轮廓提取 

轮廓提取的目的是获得图像的外部轮廓特 

征_5 ],二值图像的轮廓提取方法有多种,如形态 

学方法[ 川]、Sobel算法、I og算法[ ]等等,本文所 

用的提取方法是掏空内部点,从上往下,从左往右 

扫描整个图像,若图像中有一个点为黑点,且它的 

八个相邻点都为黑点,则将该点标记为内部点并将 

其删除,否则保留此点。继续扫描直至图像中全部 

像素点都被判断过为止。最后未被标记为内部点 

的黑点构成了图像的内外边界轮廓。图2是对二 

值化后的图像(图1)进行轮廓提取后的结果。 

图1二值化后的女书图片 图2轮廓提取后结果 

点列组成一条轮廓线。 

4.1轮廓点有序化 

由于TrueType字形数据格式要求女书字形 

的外轮廓点集按顺时针排列,内轮廓点集按逆时针 

排列,所以在轮廓跟踪的过程中需要使轮廓点有序 

化。文献[5]中使用的模板能完整地跟踪出轮廓数 

据,但不能保证轮廓数据的有序性。本文综合采用 

3*3顺时针模板(图3(a))、逆时针模板(图3(b))、 

无断点模板(图3(c))跟踪轮廓数据,最终使边界点 

有序化。 

(a)顺时针模板

器圈圜 

(b)逆时针模板(c)无断点模板 

图3 3*3跟踪模板 

用顺时针模板跟踪外边界可以得到顺时针方 

向排列的外轮廓数据,用逆时针模板跟踪内边界可 

以得到逆时针方向排列的内轮廓数据,但是顺时针 

模板和逆时针模板在某些情况下跟踪轮廓线时会 

产生断点。无断点模板可以完全跟踪出轮廓线,但 

它的方向性不明确。为了既能保证跟踪的方向性, 

又能完整跟踪出轮廓线,必须综合应用这三个模 

板。首先使用顺时针模板或逆时针模板连续跟踪 

起始的两个点,保证外轮廓的顺时针方向和内轮廓 

的逆时针方向;然后使用无断点模板跟踪整个轮廓 

线数据,保证跟踪数据的完整性。 

4.2女书轮廓数据跟踪算法 

算法的具体步骤描述如下: 

1)从上往下、从左往右扫描图像,找到第一个 

未被跟踪过的黑点P ,并将其标记为已跟踪,同时 

将其标记值置为m+1( 初始值为0,记录其属于 

第几条连通轮廓),若P 周围各像素点都为白色, 

则P 为孤立点,停止跟踪,否则转到步骤2)。 

2)判断P 是外轮廓点还是内轮廓点,判断的 

方法为从P 点沿水平方向向右引一条射线,若射 

线与已跟踪轮廓的交点个数为偶数时则为外轮廓 

点,转到步骤4),若交点个数为奇数时则为内轮廓 

点,转到步骤5)。 

2011年第11期 计算机与数字工程 67 

删除G3、G4;m 一1,合并G5、Ge得 e并删除G5、 

参考文献 

G6; :1,合并G7、G8得G7。并删除G 、G8。得到 

[1]Pawlak z.Rough Sets:Theoretical Aspects of Reason— 

修正后的规则集Rules(S ): 

ing About Data[M].Dordrecht:Kluwer Academic 

G1:a3(2)一 (O) 

Publishers,1991 

Gz:口2(2)一 (1) 

[2]王生,武俊.基于云理论和粗集的复杂电磁环境评估模 

Gs4:口2(0)一 (0)V (1) 

型[J].计算机与数字工程,2010,38(5):55 ̄56,154 

Gs6:a2(1)^a3(1)— (O)V (1) 

[3]Koczkodaj W W,Orlowski M,Marek V W.Myths a— 

G78:a3(O)一 (O)V (1) 

bout rough set theory[J].Communic ations of the 

ACM,1998,41(11):1O2~103 

为S 构造规则分辨矩阵DM (矩阵3)时,发 

[4]Pawlak Z.Rudiments of rough sets I-J].Information 

现m 一1且m reset,则停止构造此矩阵并放 

Sciences,2007,177(1):3~27 

弃计算该约简的规则集。此时约简簇中已无未计 

[5]Mollestad T,Skowron久A rough set framework for 

算的约简,规则获取算法结束,得到决策信息系统 

datamining of prepositional default rules[C,i//Proc of 

S的规则集Rules一{Rules(S ))。 

9th International Symposiumon Foundations of Intelli— 

获取的规则集中,G。、G2为一致性规则,G 、 

gent Syetems,ISMIS,1996.448 ̄457 

G 、G7。为不一致性规则。由表1检验可知获取的 

[6]郑书富,卢昌荆,史开泉.分辨矩阵与它在一致性决策 

规则是正确有效的。由于规则分辨矩阵是在信息 

规则中的应用[J].计算机工程与应用,2007,43(11):61 

论观点下定义的,因此使用此算法获取的是信息论 

,、一

63 

观点下的规则集。 

[7]Hu XiaoHua,Cereone N.Learning in relational data— 

bases:a rough set approachl,J].Computational Intelli— 

5 结语 

gence,1995,11(2):323 ̄337 

根据规则分辨矩阵及其性质,可以获取不一致 

[8]舒芬,王加阳.一种改进的规则分辨矩阵及其属性约简 

方法口].计算机工程与应用,2007,43(32):77 ̄79 

性决策信息系统中的规则。考虑到不一致性决策 

[9]何健,黄沈华,杨作宾,等.基于变精度粗糙集的故障特 

信息系统在约简时可能产生新的冲突规则,通过规 

征选择方法l-J].舰船电子工程,2010,30(3) 

则分辨矩阵中值为1的元素,选择不产生新的冲突 

,110,i李嘉,T Jm阳.基于Rough集的规则分辨矩阵研究 

规则的约简获取规则集,并对其中的不一致性规则 

[J].计算机工程与应用,2006,42(11):27 ̄31 

进行合并。此方法可用来在不一致性决策信息系 

[11]李嘉.决策信息系统不确定性的熵度量[J].计算机与 

统中获取正确的一致性规则和不一致性规则。 

数字工程,2008,36(4):29 ̄34 

!矫 矫{ !矫  .矫 芥 乖 不 开 尜 乖 乖 乖 乖 乖 尔 翰 锯 纫 坏 乖 钚 乖 舔 乖 

(上接第46页) 

L6 M.Sarfraz,M.A.Khan.Automatic outline capture 

参考文献 

of Arabic fontsl,J].Information Sciences,2002(140): 

269~281 

[1]易叶舟.世界唯一的女性文字一江永女书漫谈l-J].华 [7]冈萨雷斯.数字图像处理[M-I.北京:电子工业出版社, 

夏文化,2008(3):39 ̄40 

2009:433 ̄437 

[2]王瑜,黄源,张福炎.Windows中TrueType字形数据的 

[8]李伟.基于数学形态学的边缘检测算法研究[J].计算 

存储技术[J].小型微型计算机系统,1997,18(11):75~ 

机与数字工程,2008,36(11):20 ̄22 

80 

[9]赵鹏亮,席泽敏,肖欢.基于小波包变换和改进SVD的 

[3]Microsoft Corp.TrueType Font Files[M].Microsoft 

特征提取[J].舰船电子工程,2007,27(4) 

Corporation Press,1993:12 ̄37 

[10]孙爽滋,谷欣超,杨勇,等.飞机图像的轮廓提取与多 

[4]李了了,邓善熙,丁兴号.基于大津法的图像分块二值 边形拟合研究[J].长春理工大学学报(自然科学版), 

化算法fJ].微计算机信息,2005,21(08X):76 ̄77 

2009,32(3):447 ̄449 

[5]马小虎,黄文帆,顾绍通,等.甲骨文点阵字形转换为甲 

[11]谢志民.女书研究的现状和存在的问题[J].中南民族 

骨文轮廓字形的方法口].语言科学,2004,3(3):3~11 

大学学报(自然科学版),2003,23(4):90 ̄92