2024年4月4日发(作者:)
2008年第10期(总第68期) 中国现代教甫装备
扫描仪使用O CR技巧
耿宇航
佳木斯大学 黑龙江佳木斯 154007
摘 要:本文介绍扫描仪合理使用0 c R文字识别技术应用,以及在图书管理中使用0 c R表格文字识别系统
的一些经验和方法,以及目前存在的问题。
关键词:扫描仪0 C R文字识别技术图书管理
扫描仪是除键盘和鼠标之外被广泛应用于计算机的
输入设备,被广泛应用于办公自动化、广告设计、形象
设计和服装设计等领域。利用扫描仪可以扫描照片建立
电子影集;扫描各种图片建立自己的网站;扫描手写信
函再用E—mai l发送出去以代替传真机;还可以利用扫
描仪配合OCR软件输入报纸或书籍的内容,免除键盘输
入汉字的辛苦。在日常办公工作中,对扫描仪的合理使
用,可以大大提高工作的效率。
多少年来,图书管理工作一直都是手工操作。随着
社会发展和科学技术进步,随着图书数量日益增多和利
用者查找要求的提高,对图书管理计算机化提出了更多
更高的要求。随着计算机软、硬件技术的发展和图书管
理自动化研究的深入,计算机在图书管理部门的应用,
己开始向图书管理各个环节扩展。随着图书管理现代化
步伐的加快,电子文件、现代化办公等数字化图书管理
也是发展的趋势,并同时出现了一批实用效果明显的计
算机应用成果,其中包括OCR文字识别技术(例如:汉王
5.0、尚书六号、清华紫光2000、丹青OCR、扫描小精
灵V1.30 Bui 1d 2003、奥普印刷体文字识别0CR系统
等成果)。
OCR(Optical Character Recognition)是光学
字符识别的简称,通过该技术,用户可以通过扫描仪、
摄像机等光学输入方式得到书籍、报刊、文稿、表格等
印刷品的图像信息转化和可供计算机识别及处理的文本
信息。OCR技术的出现,实现了将印刷文字扫描得到的
图片转化为文本文字的功能,提供了一种全新的文字输
入手段,大大提高了用户工作的效率。利用计算机OCR
文字识别技术对一篇5000字的文章进行人工对照实验,
人工打字录入用了近5O分钟(每分钟录入约1O0个字),
收稿日期:2 008-0 7—31
作者简介:耿宇航,馆员。
缎
而用尚书六号识别系统仅用了不N25分钟,相比之下节
约一半的文字录入时间。现将OCR表格文字识别系统在
图书管理中的心得体会和使用技巧作一点介绍。
一
、
0CR适合对象
1.印刷行业、文印店经常会遇到客户只给你一本
厚厚的宣传册(因为客户不知道电子稿保存的重要意
义,甚至压根就不知道什么是电子稿),要你明天之前,
必须把那本几十页宣传册上的文字,原原本本打出来。
生意还是要做,没有办法,你只能再当一回为了打字而
打字的工具了,除非你使用OCR。
2.办公室工作人员老板某天拿了一张写满字的传
单给你,要求你马上打成Word文档,对于打字慢或是懒
得打的你,为了完成工作任务,OCR就很适合你了。
3.其他对象在工作中、网络中、现实生活中,
OCR对很多人都是有用的,能帮你轻松提高效率。
二、OOR表格文字识别系统的操作程序
1.选择识别的文稿
(1)首先选择的文稿字迹必须清晰,可考虑选择报
刊、杂志、激光打印机输出的文稿、一般性文件等等
(只能对印刷体文字进行识别,对手写体无法识别)。
(2)文稿的版面要干净不能有涂改。
(3)尽量选择识别文件的原件,而不使用复印件。
2.检查扫描仪是否安装正确
在使用OCR号表格文字识别系统以前必须认真检查
你的扫描仪是否安装正确(包括电源是否插好、扫描仪
数据线是否与计算机连接好)。
3.打开OC R表格文字识别系统软件,点击文件扫
描,即进入文件扫描的下一个程序。
三、文稿的扫描及图像处理
1.被扫描的文稿图像处理
.
25
中国砚代敷甫装备 2008年第10期(总第68期)
(1)将被扫描的文稿反放到扫描板上,要求尽量放
正,不要有较大的倾斜,以免影响识别文稿的质量。
(2)选择扫描文稿的diP,一般情况下,可选择256
色灰度扫描,像素选择300—400dip ̄O可(这样的话,扫
描时间较快,正常情况下一般A4文稿需1—2分钟);如
选择1O0万种色彩扫描,像素选择300—400dip(这样的
话,扫描时间较慢,正常情况下一般A4文稿需3—4分
钟)。
(3)扫描文件后可通过自动识别进行文字的识
别,也可将该文档的扫描图像存储,存储的图像格式
为.tiff格式,以后可随时调用。
2.被扫描的文稿图像可以借助扫描仪输入图像,
或通过U盘及移动硬盘等存储装置将图像载入
(i)扫描仪输入图像后,应先进行对歪扭图像的自
动或手动倾斜校正、图像旋转校正。如图像放倒了,应
该用“图像旋转”工具旋转180度(可对工作区内的图像
进行90度,180度,270度旋转操作),如图像放歪了,
应该用“自动倾斜校正”工具进行微调。或“手动倾斜
校正”工具输入指定要旋转的度数。反复几次后图像就
会达到你的要求了。
(2)要保证扫描文稿的识别质量还得注意文稿版面
的清洁,对图像中杂点(因属印刷、打印过程中产生的墨
点,肉眼很难分辨)必须进行清除,对扫描文稿进行放大
后,用工具条上的橡皮擦小心进行清除。同时要注意:
不可将扫描后的文字擦除,否则将影响识别的质量。
四、选取识别区域
1.进行版面分析(有人工分析和自动版面分析),如
报刊或杂志,版面较为复杂,分左右两版,甚至更多,如何
选择识别区域以及识别的顺序直接影响文稿的识别质
量。自动版面分析选项的功能与自动版面分析命键所对
应的功能相同,选择自动版面分析选项,系统将对文字图
像自动进行文字切分处理,分析文章的版面结构。
2.激活选取区域选项,然后将鼠标箭头移到工作区
内要识别的文字旁按下鼠标左键不放,拖动鼠标左键拖
到文章段落的结尾,此时出现一个兰色的选框,随后连
续对要识别文字段落按顺序进行逐一选定。
五、进行文字自动识别
1.识别率凶扫描纸质不同而不同在选择识别区域
后,点击菜单栏上的“自动识别”按钮即可对扫描文稿
进行自动识别,识别后文字即转为了可编辑的纯文本文
件或world文件(.doc格式),OCR表格文字识别系统对
各种不同的纸质材料和印刷质量的识别率也是不同的,
激光打印机输出的文稿识别率最高,一般可达到98%以
.
2
上,一页A4的文稿最多有l 0个错字;一般杂志和报纸文
稿识别率也较高,一般可达到95%左右;一般的文件复
印件文稿识别率较低,一般可达到85%左右。
2.对识别有误的文字的处理办法因扫描纸质(或印
刷质量)的影响,部分文字识别后产生了很多的错字,
并由计算机提示为兰色。在OCR表格文字识别系统软件
中专门设计了“文字纠正候选区”,区内有计算机对文
字判断而产生的若干侯选文字,只要你用鼠标点击相应
的文字即可将识别的错字进行纠正,非常的方便。如在
“文字纠正侯选区”也不能找到正确文字的,你只要将
鼠标移至兰色的错字前后,将错字清除,键入正确的文
字即可。
六、目前存在的问题 .
1.我国的计算机OCR文字识别软件技术还有待于发
展和提高,目前各种OCR文字识别软件对扫描文稿的质
量要求较高,而且只能对印刷体文字进行识别,对手写
体无法识别。对一般图像质量不高的印刷体文稿识别率
较低,甚至无法识别(全部产生乱码)。
2.计算机OCR文字识别软件技术还需面向广大的办
公市场,特别是目前政府上网工程的全面启动,此软件
技术的推广力度不够,人们在选购软件时对OCR文字识
别软件技术非常陌生,没有像微软的0ffi c e2003,
OffficeXP,金山办公组合等等办公软件那样熟悉。
3.计算机操作人员有待于业务技术培训和提高。一
般计算机操作人员对OCR文字识别软件技术较为陌生,
对一般扫描识别程序都不知道,而且在使用软件过程中
的一些技巧一无所知,不知如何使用。
随着汉字识别技术水平的提高和应用的普及,可能
还会产生新的应用方式,但无论使用哪一种方式,都必须
符合本单位图书管理工作的实际,统筹考虑图书状况、
人员配备、经费能力、办公自动化水平、图书现代化建
设发展规划等方面的因素,以切实提高图书信息资源开
发利用能力为目的,这样才能收到事半功倍的效果。
参考文献
【l】刘维丹.论数字图书馆的知识服务【J].图书
情报知识,2 00 2,4
【2】张晓林.分布式数字图书馆机制【J】.情报学
报,2002,1
【3】张菽,李素娥.数字图书馆建设中的关键问
题及其对策【J】.图书情报工作,2 O 01,3
【4】曹学柱.国外数字图书馆的发展概况【J】.中
国图书馆学报,2 O O 2,l
.
— .


发布评论