2024年5月6日发(作者:)
下面结合Microtek扫描仪的驱动软件ScanWizard 5,详细介绍如何配合尚书
六号OCR软件做好文字识别工作:
Step1:扫描图像文件
建议首先点击桌面上ScanWizard 5软件的图标,进入Microtek扫描仪驱动软件
的界面,直接进行扫描工作,而不需要启动其他的扫描程序或图像编辑程序,这
样可以大大加快扫描进程。同 时,注意将ScanWizard 5软件切换到高级工作模
式(如图1所示),以便于用户检查扫描仪工作时的分辨率。在文字识别时,推
荐使用的扫描分辨率设定在300ppi,色彩模式可以选 择“RGB彩色”或者“灰
阶”,选择“扫描到”的文件格式是TIF或者JPG两者都可以,然后将扫描得到
的文件保存在用户确定的目录下面。
Step2:打开尚书六号读取扫描好的图像文件
Step3:被识别图片的预处理
被识别图片的预处理工作主要包括“倾斜校正”和“设定正确识别区域”两个
步骤。在进行“倾斜校正”时,可按下工具栏的最下面的一个“图像倾斜校正”
工 具按钮。系统会自动弹出一个对话框,提示需要校正的角度,此时按下“是”
按钮,系统就给予图片做水平的倾斜校正。在此需要特别注意,“自动倾斜校正
功能” 只能对原稿做±2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,
系统会建议用户重新扫描稿件,以提高识别率。
如何“正确设定识别区域”,也是一个值得用户注意的地方:如“海尔”一文,
实际是分成两个栏目进行阅读的,所以在设定识别区域的时候,注意需要将这个
两个栏目分别圈定,也就是设定两个识别区域(如图2所示)。同时,对于一些
文字稿件,如果在中间插有图片的时候,建议采用绕开的方式,对所环绕的文字
分别 进行识别区域的设定。此外,对于表格类的图片,为了将标题栏也能识别
进去,建议将表格部分整个框选,同时标题作为一个单独的框选区域。
图2
Step4:开始进行识别
在开始“识别”的时候,应注意识别软件的设定值是否正确,尤其注意识别字集
的选择问题:如果要识别简体中文,请选择“简体字集”;如果要识别繁体中 文,
请选择“繁体字集”;在选择“纯英文字集”时,可以大幅提升英文字母的识别
率。同时,“简体字集”和“繁体字集”也具有较强的识别英文的能力。
Step5:识别校对完成后,进行保存
在“尚书六号”文字识别软件中,存盘格式(也就是文件保存的类型)有四种,
分别是:Word、Text、CSV、HTML。直接用Word格式保存 时,可以用微软的Word
软件打开,它可以相对比较完整的保存排版格式;但建议用户一般可选择Text
(纯文本)格式保存,因为这种格式可以用几乎所有文 档编辑器打开;如果用
户进行表格识别,识别结果可以选择保存为CSV格式,这样用EXCEL就能够直接
打开;而HTML格式是针对网页设计使用的,用IE 等网络浏览器或网页编辑器
可以打开。
通过上面的介绍,你看,使用与Microtek扫描仪搭配的“尚书六号”OCR软件,
文字识别的工作真的很简单呢。
发布评论