2024年4月4日发(作者:)

龙源期刊网

常用OCR识别产品性能比较

作者:曾东

来源:《财讯》2017年第03期

OCR(Optical Character Recognition)识别技术的研发改变了传统发模式识别业务处理模

式,它依托于计算机软硬件,将纷蘩复杂的工作交给计算机完成,从而节省了大量人力物力,

OCR识别类的软件产品具有强大的优势,它的研发具有非常广阔的应用市场。

OCR光学字符识别

引言

OCR是光学字符识别技术的简称,字符识别是模式识别的一个重要分支。其工作原理是

通过扫描仪、数码相机等光学输入设备获取纸张上的文字图片信息,采用光学方式将文档资料

转换成黑白点阵的图像文件,再利用模式识别算法分析文字体态特征,判断识别出字符文字,

进而通过识别软件将图像中的文字转换成文本格式,并按通用格式存储在文本文件或者数据库

中,还可通过文字处理或编辑软件等再进一步加工。

在市场上已经推出了很多成功的商业软件,以汉字为例,如汉王公司的文本王、清华文通

TH-OCR、尚书OCR、蒙恬OCR以及丹青OCR等。其应用范围也越来越广泛,不仅仅局限于

个人或中小企业的办公自动化,在金融、税务、数字图书馆等领域也已经开始了大规模地应

用。本文从现有产品的角度着笔,列出国内外已有三款优秀产品(汉王、文通、ABBYY),

分别介绍其优缺点,综合对比并客观分析其优劣势。

OCR产品比较

国内把中文OCR识别做得比较专业的是文通和汉王两家,这两家的中文识别率都是非常

不错的。紫光OCR、CAJViewer、MS Office、清华OCR、以及慧视小灵鼠这些都是文通的产

品或者使用文通的识别引擎,尚书OCR是汉王的产品。国外的ABBYY和IRIS在OCR识别

技术上也做得不错,它的特点是西方语言的识别率很好,支持多种西欧语言,产品化程度也很

高,不过中文方面速度和识别率还是有差距的。

(1)汉王OCR

文字识别能力很好,支持百余种印刷字体和各种中英繁表图混排格式的文本识别,商业软

件版本功能比较强大,支持对文字、表格、图像等数据识别并录入系统。

优点:中文识别能力较好,出错率较低;识别速度较快;对于版式、标点的保留比较好。

龙源期刊网

(2)文通OCR

支持汉字和英文混排、日文和英文混排、韩文和英文混排同时识别,汉字识别性能很好;

商业软件版本可对识别结果进行电子文档版面复原;提供有付费的SDK。

优点:中文识别能力较好,出错率较低;识别速度较快;对于生僻字的识别性能很高;有

SDK(需付费)。

(3)ABBYYFinereader

ABBYY是一家俄罗斯软件公司,在文档识别、数据捕获和语言技术的开发中居世界领先

地位,该软件中文名叫泰比。它提供出色的识别率和版面还原,即使面对读取困难或低品质的

文档也如此。它完美的获取并且重建所有的格式化要素(包括分栏、表格、列表和图象),无

需重新打字或重新排版,且能存成RTF、TXT、DOC、CSV、XLS或HTML等格式。据悉,

已有IOS的APP上线。

优点:识别率很高,可以自定义图片分辨率,遇到比较模糊不清的表格数据图片,泰比依

然可以保持非常高的识别率,众多识别软件中泰比综合识别性能最高,自由度高,可以在同一

页面手动划分不同的区块,每一个区块也可以分别设置表格或文字,而此时大部分软件还只能

对一个页面设置一种识别方案,要么表格,要么文字;批量操作方便。对于版式雷同的年鉴,

将一页的版式设计好,便可以应用到其他页,省去大量重复操作;可以保持原有表格格式,省

去二次编辑,跨页识别表格时,选择“识别为EXCEL”,ABBYY可以将表格连在一起,产出的

是一整个EXCEL文件,分析起来很方便;带有梯形校正,歪斜校正之类的许多图片校正方

式,即使扫描歪了,或者因为书本太厚而导致靠近书脊的部分文字扭曲,都可校正回来;官方

发布有免费版软件。

值得注意的是,软件的识别性能与软件设置有关。泰比免费版软件支持很多功能,譬如绘

制表格,图像编辑等等。

(4)Tesseract引擎

它是一款开源产品,目前由Google主持开发和维护,识别输出文件默认是TXT文本文

件。

优点:Tesseract作为一款开源、免费的OCR引擎,有中文语言包;有.NET和JAVA的

demo,简洁易懂;编程实现简单;Tesseract提供了训练样本的方法,可以生成自己所需的识

别语言库。

龙源期刊网

不足:命令行语句执行识别,没有特定的界面;默认输出是TXT格式,暂不支持表格化

识别;针对文字、数字、英文等最好采用分类识别,其识别效果不是很理想,中文大部分都能

识别,但是英文、符号乱码情况较多,中英文混合的情况识别可能会不理想了;转换时间较

慢,对于要求不高的中小型项目来说,已经足够用了;中英文最好分开识别,否则出错率较

大。

OCR产品分析

综上所述,就现有产品来说,汉王和文通的商业软件是付费的,免费版OCR软件功能非

常简单,但识别能力有限,不能满足常规应用,泰比免费版软件比汉王和文通功能齐全,用户

可选择性大,另外文通有开放的商用SDK,可以购买进行二次开发;就性能来说,汉王和文

通不分伯仲,各有千秋,识别率相差不大,但泰比软件综合能力最好,英文识别能力很强,中

文略逊于前两者,其次识别时间稍慢;就识别结果来说,泰比软件可以将读取的文件保存为多

种格式,相对另两个可选范围较小;就用户体验感来说,泰比软件更直观,样式更丰富;就表

格化数据识别来说,泰比软件有着强大的格式化数据识别能力,可以很好地复现原文件格式,

读取完毕即可保存为EXCEL文件;就软件价格来说,泰比软件最便宜。

结束语

尽管已有各种OCR识别软件产品面世,但识别性能与扫描分辨率,纸质清晰度,图像倾

斜度,格式规范程度,内容复杂度有关。市面上众多OCR软件功能各有千秋,文通和汉王的

识别性能较好,但依然难以达到百分百的准确率,都需要部分人工参与,尽管这样,但也极大

的减少了人力物力,提升了工作效率。OCR识别类的软件产品具有强大的业务处理优势,将

来会有非常广阔的应用市场。