2024年1月16日发(作者:)

如何请jpg图片转化成word

提高OCR识别率

购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版。很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高。其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平。

1、处理原稿扫描图像,使之清晰可“辨”。在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上。而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率。对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹。并注意将偏斜的版面“改斜归正”,通常OCR软件均有此功能,且一般都设有自动纠偏和手动纠偏。

2、分辨率应选择适宜。一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间。有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的。

3、调整好亮度值和对比度值。这条非常关键,对识别率的影响很大。亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,笔者常根据预扫时图像清晰度确定。

4、利用OCR的自学习功能。有时OCR对某些字总是难以识别,比如OCR开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了。具体操作极易,上机看一下菜单即可明白。另外,若原稿全是英文或其中中文很少,最好用附赠的英文OCR软件。还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担。

图文混排稿件扫描

作为图文混排的稿件制作,首先用户必须采用图文混排软件,如Pagemaker、Coreldraw等,而不能使用纯粹图象处理软件。在扫描时,将图象部分进行扫描,而文字部分必须进行单独输入,并且千万不要将文字转化成图象,或将制作完的稿件存为一个图象文件,否则将使文字在输出时变得模糊不清,因为文字边缘将有层次过渡。

图表稿件扫描

用户在使用扫描仪进行文字或图表等线条扫描时(或直接输出,或进行OCR识别等),一般很难准确扫描,扫描后的稿件不是太黑,使文字相连,出现底色,就是出现断线,无法进行后期处理,其控制办法一般有两种方式。

1、在进行黑白二值扫描时,通过预览准确对Threshled值进行调整,也可在扫描后调整(一般好的扫描驱动软件,或图象软件都有此功能),便可得到好的结果,但原则上最好在扫描之前调整。

2、在扫描之后处理则更为有效,就是对图象进行灰度扫描,然后通过图象软件,转化成二值,这个操作会有难度,但你有可能得到最佳效果。

巧用插值分辨率

1

插值分辨率又称最大分辨率,是利用软件技术在硬件产生的像点之间插入另外像点获得的较高分辨率。软件插值技术在一定程度上使扫描图像质量得以到提高。

对于彩色、灰度扫描,插值分辨率基本无任何用处,如果厂家的软件不是很好,高于光学分辨率的插值分辨率扫描时,反而会影响图象质量。

但扫描黑白图像或放大较小的原稿时,插值分辨率非常有用。例如将黑白图像用1200dpi的图文输出机输出,用1200dpi的插值分辨率就能得到良好的图像,产生平滑的线条,消除部分锯齿影响。

扫描过程中原稿一定要放置正确,不能倾斜,否则扫描出来的字体也是倾斜的,OCR软件将无法正确识别。如果实在无法将原稿摆正,那就需要使用“自动倾斜校正”或者“手动纠斜”功能纠正字体的倾斜。当然选择适当的扫描参数也非常重要,一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对文字的正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节,调节的工具是扫描仪工具内的“阀值”。

而对于分辨率,用户选择的原则应为不求最“高”,只求最“佳”。如果分辨率太高,扫描的时间将会大大增加,图形所需的空间也会成倍地增长,无实际意义;如果分辨率太低,给OCR软件的信息量不足,识别率就不会很高。根据笔者的经验,普通五号印刷体采用250~300dpi比较合适;若字号比较大(四号以上),用150~200dpi就足够了;如果是六号或七号等小字体,就要考虑使用400~600dpi了。当然,这也不是绝对的,如果印刷字迹比较模糊,或者笔划较多的识别文本,应适当提高扫描的分辨率。这里额外再提供一个公式供大家参考:文件长度(字节)=(水平尺寸×垂直尺寸×扫描分辨率)/8。

扫描后,我们还要观察图像是否有污点现象,如有则应使用图像处理软件将这些污点擦去。同时如果有图像存在,也会影响OCR的文字切分,可使用“图像的块擦拭”工具将文档中的图像去除。此外,还应采用适当的辨识方式,注意稿件是横排还是竖排,可选择合适的编排格式按钮,以保持对应。如有必要还可进行版面分析,因为没此步骤的话识别结果会有大量的空格,而OCR通常也将空白处作为识别对象。自动识别虽然可以很好地解决这一问题,但有时却常把不应分开的区域分开,造成识别结果的错误和颠倒。这时可以通过将自动分析与手工分析结合,将不恰当的版面分析删除。 现在大多数OCR都提供了简体、繁体、英文的识别方式,也应注意选择。最后,我们还可再次适当地调节对比度和亮度,因为这样可以增加文字和背景的对比度,从而最终均可达到95%以的OCR识别正确率,再略加校对一遍就万事OK了。

另外提醒用户的是,应充分使用OCR识别软件的用户自学习功能。OCR识别软件内一般都含有用户自学习功能,如果个别字在扫描比较清楚的情况下,软件识别得不正确,就可以把这个字加到用户自定义库中,这样就可以逐渐地提高识别的正确性。要想获得较高的扫描识别率,用户应当不断进行尝试,找出一个适合OCR识别软件的扫描分辨率及扫描亮度以供参考。

2