2024年4月4日发(作者:)

2008年第10期(总第68期) 中国现代教甫装备 

扫描仪使用O CR技巧 

耿宇航 

佳木斯大学 黑龙江佳木斯 154007 

摘 要:本文介绍扫描仪合理使用0 c R文字识别技术应用,以及在图书管理中使用0 c R表格文字识别系统 

的一些经验和方法,以及目前存在的问题。 

关键词:扫描仪0 C R文字识别技术图书管理 

扫描仪是除键盘和鼠标之外被广泛应用于计算机的 

输入设备,被广泛应用于办公自动化、广告设计、形象 

设计和服装设计等领域。利用扫描仪可以扫描照片建立 

电子影集;扫描各种图片建立自己的网站;扫描手写信 

函再用E—mai l发送出去以代替传真机;还可以利用扫 

描仪配合OCR软件输入报纸或书籍的内容,免除键盘输 

入汉字的辛苦。在日常办公工作中,对扫描仪的合理使 

用,可以大大提高工作的效率。 

多少年来,图书管理工作一直都是手工操作。随着 

社会发展和科学技术进步,随着图书数量日益增多和利 

用者查找要求的提高,对图书管理计算机化提出了更多 

更高的要求。随着计算机软、硬件技术的发展和图书管 

理自动化研究的深入,计算机在图书管理部门的应用, 

己开始向图书管理各个环节扩展。随着图书管理现代化 

步伐的加快,电子文件、现代化办公等数字化图书管理 

也是发展的趋势,并同时出现了一批实用效果明显的计 

算机应用成果,其中包括OCR文字识别技术(例如:汉王 

5.0、尚书六号、清华紫光2000、丹青OCR、扫描小精 

灵V1.30 Bui 1d 2003、奥普印刷体文字识别0CR系统 

等成果)。 

OCR(Optical Character Recognition)是光学 

字符识别的简称,通过该技术,用户可以通过扫描仪、 

摄像机等光学输入方式得到书籍、报刊、文稿、表格等 

印刷品的图像信息转化和可供计算机识别及处理的文本 

信息。OCR技术的出现,实现了将印刷文字扫描得到的 

图片转化为文本文字的功能,提供了一种全新的文字输 

入手段,大大提高了用户工作的效率。利用计算机OCR 

文字识别技术对一篇5000字的文章进行人工对照实验, 

人工打字录入用了近5O分钟(每分钟录入约1O0个字), 

收稿日期:2 008-0 7—31 

作者简介:耿宇航,馆员。 

缎 

而用尚书六号识别系统仅用了不N25分钟,相比之下节 

约一半的文字录入时间。现将OCR表格文字识别系统在 

图书管理中的心得体会和使用技巧作一点介绍。 

0CR适合对象 

1.印刷行业、文印店经常会遇到客户只给你一本 

厚厚的宣传册(因为客户不知道电子稿保存的重要意 

义,甚至压根就不知道什么是电子稿),要你明天之前, 

必须把那本几十页宣传册上的文字,原原本本打出来。 

生意还是要做,没有办法,你只能再当一回为了打字而 

打字的工具了,除非你使用OCR。 

2.办公室工作人员老板某天拿了一张写满字的传 

单给你,要求你马上打成Word文档,对于打字慢或是懒 

得打的你,为了完成工作任务,OCR就很适合你了。 

3.其他对象在工作中、网络中、现实生活中, 

OCR对很多人都是有用的,能帮你轻松提高效率。 

二、OOR表格文字识别系统的操作程序 

1.选择识别的文稿 

(1)首先选择的文稿字迹必须清晰,可考虑选择报 

刊、杂志、激光打印机输出的文稿、一般性文件等等 

(只能对印刷体文字进行识别,对手写体无法识别)。 

(2)文稿的版面要干净不能有涂改。 

(3)尽量选择识别文件的原件,而不使用复印件。 

2.检查扫描仪是否安装正确 

在使用OCR号表格文字识别系统以前必须认真检查 

你的扫描仪是否安装正确(包括电源是否插好、扫描仪 

数据线是否与计算机连接好)。 

3.打开OC R表格文字识别系统软件,点击文件扫 

描,即进入文件扫描的下一个程序。 

三、文稿的扫描及图像处理 

1.被扫描的文稿图像处理 

25 

中国砚代敷甫装备 2008年第10期(总第68期) 

(1)将被扫描的文稿反放到扫描板上,要求尽量放 

正,不要有较大的倾斜,以免影响识别文稿的质量。 

(2)选择扫描文稿的diP,一般情况下,可选择256 

色灰度扫描,像素选择300—400dip ̄O可(这样的话,扫 

描时间较快,正常情况下一般A4文稿需1—2分钟);如 

选择1O0万种色彩扫描,像素选择300—400dip(这样的 

话,扫描时间较慢,正常情况下一般A4文稿需3—4分 

钟)。 

(3)扫描文件后可通过自动识别进行文字的识 

别,也可将该文档的扫描图像存储,存储的图像格式 

为.tiff格式,以后可随时调用。 

2.被扫描的文稿图像可以借助扫描仪输入图像, 

或通过U盘及移动硬盘等存储装置将图像载入 

(i)扫描仪输入图像后,应先进行对歪扭图像的自 

动或手动倾斜校正、图像旋转校正。如图像放倒了,应 

该用“图像旋转”工具旋转180度(可对工作区内的图像 

进行90度,180度,270度旋转操作),如图像放歪了, 

应该用“自动倾斜校正”工具进行微调。或“手动倾斜 

校正”工具输入指定要旋转的度数。反复几次后图像就 

会达到你的要求了。 

(2)要保证扫描文稿的识别质量还得注意文稿版面 

的清洁,对图像中杂点(因属印刷、打印过程中产生的墨 

点,肉眼很难分辨)必须进行清除,对扫描文稿进行放大 

后,用工具条上的橡皮擦小心进行清除。同时要注意: 

不可将扫描后的文字擦除,否则将影响识别的质量。 

四、选取识别区域 

1.进行版面分析(有人工分析和自动版面分析),如 

报刊或杂志,版面较为复杂,分左右两版,甚至更多,如何 

选择识别区域以及识别的顺序直接影响文稿的识别质 

量。自动版面分析选项的功能与自动版面分析命键所对 

应的功能相同,选择自动版面分析选项,系统将对文字图 

像自动进行文字切分处理,分析文章的版面结构。 

2.激活选取区域选项,然后将鼠标箭头移到工作区 

内要识别的文字旁按下鼠标左键不放,拖动鼠标左键拖 

到文章段落的结尾,此时出现一个兰色的选框,随后连 

续对要识别文字段落按顺序进行逐一选定。 

五、进行文字自动识别 

1.识别率凶扫描纸质不同而不同在选择识别区域 

后,点击菜单栏上的“自动识别”按钮即可对扫描文稿 

进行自动识别,识别后文字即转为了可编辑的纯文本文 

件或world文件(.doc格式),OCR表格文字识别系统对 

各种不同的纸质材料和印刷质量的识别率也是不同的, 

激光打印机输出的文稿识别率最高,一般可达到98%以 

2 

上,一页A4的文稿最多有l 0个错字;一般杂志和报纸文 

稿识别率也较高,一般可达到95%左右;一般的文件复 

印件文稿识别率较低,一般可达到85%左右。 

2.对识别有误的文字的处理办法因扫描纸质(或印 

刷质量)的影响,部分文字识别后产生了很多的错字, 

并由计算机提示为兰色。在OCR表格文字识别系统软件 

中专门设计了“文字纠正候选区”,区内有计算机对文 

字判断而产生的若干侯选文字,只要你用鼠标点击相应 

的文字即可将识别的错字进行纠正,非常的方便。如在 

“文字纠正侯选区”也不能找到正确文字的,你只要将 

鼠标移至兰色的错字前后,将错字清除,键入正确的文 

字即可。 

六、目前存在的问题 . 

1.我国的计算机OCR文字识别软件技术还有待于发 

展和提高,目前各种OCR文字识别软件对扫描文稿的质 

量要求较高,而且只能对印刷体文字进行识别,对手写 

体无法识别。对一般图像质量不高的印刷体文稿识别率 

较低,甚至无法识别(全部产生乱码)。 

2.计算机OCR文字识别软件技术还需面向广大的办 

公市场,特别是目前政府上网工程的全面启动,此软件 

技术的推广力度不够,人们在选购软件时对OCR文字识 

别软件技术非常陌生,没有像微软的0ffi c e2003, 

OffficeXP,金山办公组合等等办公软件那样熟悉。 

3.计算机操作人员有待于业务技术培训和提高。一 

般计算机操作人员对OCR文字识别软件技术较为陌生, 

对一般扫描识别程序都不知道,而且在使用软件过程中 

的一些技巧一无所知,不知如何使用。 

随着汉字识别技术水平的提高和应用的普及,可能 

还会产生新的应用方式,但无论使用哪一种方式,都必须 

符合本单位图书管理工作的实际,统筹考虑图书状况、 

人员配备、经费能力、办公自动化水平、图书现代化建 

设发展规划等方面的因素,以切实提高图书信息资源开 

发利用能力为目的,这样才能收到事半功倍的效果。 

参考文献 

【l】刘维丹.论数字图书馆的知识服务【J].图书 

情报知识,2 00 2,4 

【2】张晓林.分布式数字图书馆机制【J】.情报学 

报,2002,1 

【3】张菽,李素娥.数字图书馆建设中的关键问 

题及其对策【J】.图书情报工作,2 O 01,3 

【4】曹学柱.国外数字图书馆的发展概况【J】.中 

国图书馆学报,2 O O 2,l 

. 

— .