2024年4月27日发(作者:)

印刷体汉字的识别及其MATLAB实现

0.汉字识别研究的意义

汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧

的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印

刷材料的数量大大增加,一些专业单位所接触的印刷材料更是浩如烟海,信息量

均是爆炸性增长。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字

快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能

否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问

题。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益

的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选

择。因此,汉字识别技术也越来越受到人们的重视。汉字识别是一门多学科综合

的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、

信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等

都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,

它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意

义。

1.印刷体汉字识别的研究

1.1印刷体汉字识别技术的发展历程

计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。

加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。

印刷体文字的识别可以说很早就成为人们的梦想。印刷体汉字的识别最早可以追

溯到60年代,但都是西方国家进行的研究。我国对印刷体汉字识别的研究始于

70年代末80年代初。同国外相比,我国的印刷体汉字识别研究起步较晚。从80

年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤

努力,印刷体汉字识别技术的发展和应用,有了长足进步。

1.2印刷体汉字识别的原理分析及算法研究

汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法

来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写

体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印

刷体汉字识别。

印刷体汉字识别的流程如图1-1所示:

1

图1-1汉字识别流程框图

印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入

后得到灰度图像(Grayscale image)或者二值图像(Binary image),然后利用各

种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判

别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、

匹配识别和后处理等步骤。

1.2.1预处理

在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必

要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面

分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。

(1)版面分析

它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,

并确定其逻辑关系,并将相应的文本块连接在一起。

(2)二值化

将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化

处理,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素

的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取

较为关键。

(3)倾斜校正

通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、

文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图

2