2024年4月4日发(作者:)
龙源期刊网
常用OCR识别产品性能比较
作者:曾东
来源:《财讯》2017年第03期
OCR(Optical Character Recognition)识别技术的研发改变了传统发模式识别业务处理模
式,它依托于计算机软硬件,将纷蘩复杂的工作交给计算机完成,从而节省了大量人力物力,
OCR识别类的软件产品具有强大的优势,它的研发具有非常广阔的应用市场。
OCR光学字符识别
引言
OCR是光学字符识别技术的简称,字符识别是模式识别的一个重要分支。其工作原理是
通过扫描仪、数码相机等光学输入设备获取纸张上的文字图片信息,采用光学方式将文档资料
转换成黑白点阵的图像文件,再利用模式识别算法分析文字体态特征,判断识别出字符文字,
进而通过识别软件将图像中的文字转换成文本格式,并按通用格式存储在文本文件或者数据库
中,还可通过文字处理或编辑软件等再进一步加工。
在市场上已经推出了很多成功的商业软件,以汉字为例,如汉王公司的文本王、清华文通
TH-OCR、尚书OCR、蒙恬OCR以及丹青OCR等。其应用范围也越来越广泛,不仅仅局限于
个人或中小企业的办公自动化,在金融、税务、数字图书馆等领域也已经开始了大规模地应
用。本文从现有产品的角度着笔,列出国内外已有三款优秀产品(汉王、文通、ABBYY),
分别介绍其优缺点,综合对比并客观分析其优劣势。
OCR产品比较
国内把中文OCR识别做得比较专业的是文通和汉王两家,这两家的中文识别率都是非常
不错的。紫光OCR、CAJViewer、MS Office、清华OCR、以及慧视小灵鼠这些都是文通的产
品或者使用文通的识别引擎,尚书OCR是汉王的产品。国外的ABBYY和IRIS在OCR识别
技术上也做得不错,它的特点是西方语言的识别率很好,支持多种西欧语言,产品化程度也很
高,不过中文方面速度和识别率还是有差距的。
(1)汉王OCR
文字识别能力很好,支持百余种印刷字体和各种中英繁表图混排格式的文本识别,商业软
件版本功能比较强大,支持对文字、表格、图像等数据识别并录入系统。
优点:中文识别能力较好,出错率较低;识别速度较快;对于版式、标点的保留比较好。
龙源期刊网
(2)文通OCR
支持汉字和英文混排、日文和英文混排、韩文和英文混排同时识别,汉字识别性能很好;
商业软件版本可对识别结果进行电子文档版面复原;提供有付费的SDK。
优点:中文识别能力较好,出错率较低;识别速度较快;对于生僻字的识别性能很高;有
SDK(需付费)。
(3)ABBYYFinereader
ABBYY是一家俄罗斯软件公司,在文档识别、数据捕获和语言技术的开发中居世界领先
地位,该软件中文名叫泰比。它提供出色的识别率和版面还原,即使面对读取困难或低品质的
文档也如此。它完美的获取并且重建所有的格式化要素(包括分栏、表格、列表和图象),无
需重新打字或重新排版,且能存成RTF、TXT、DOC、CSV、XLS或HTML等格式。据悉,
已有IOS的APP上线。
优点:识别率很高,可以自定义图片分辨率,遇到比较模糊不清的表格数据图片,泰比依
然可以保持非常高的识别率,众多识别软件中泰比综合识别性能最高,自由度高,可以在同一
页面手动划分不同的区块,每一个区块也可以分别设置表格或文字,而此时大部分软件还只能
对一个页面设置一种识别方案,要么表格,要么文字;批量操作方便。对于版式雷同的年鉴,
将一页的版式设计好,便可以应用到其他页,省去大量重复操作;可以保持原有表格格式,省
去二次编辑,跨页识别表格时,选择“识别为EXCEL”,ABBYY可以将表格连在一起,产出的
是一整个EXCEL文件,分析起来很方便;带有梯形校正,歪斜校正之类的许多图片校正方
式,即使扫描歪了,或者因为书本太厚而导致靠近书脊的部分文字扭曲,都可校正回来;官方
发布有免费版软件。
值得注意的是,软件的识别性能与软件设置有关。泰比免费版软件支持很多功能,譬如绘
制表格,图像编辑等等。
(4)Tesseract引擎
它是一款开源产品,目前由Google主持开发和维护,识别输出文件默认是TXT文本文
件。
优点:Tesseract作为一款开源、免费的OCR引擎,有中文语言包;有.NET和JAVA的
demo,简洁易懂;编程实现简单;Tesseract提供了训练样本的方法,可以生成自己所需的识
别语言库。
龙源期刊网
不足:命令行语句执行识别,没有特定的界面;默认输出是TXT格式,暂不支持表格化
识别;针对文字、数字、英文等最好采用分类识别,其识别效果不是很理想,中文大部分都能
识别,但是英文、符号乱码情况较多,中英文混合的情况识别可能会不理想了;转换时间较
慢,对于要求不高的中小型项目来说,已经足够用了;中英文最好分开识别,否则出错率较
大。
OCR产品分析
综上所述,就现有产品来说,汉王和文通的商业软件是付费的,免费版OCR软件功能非
常简单,但识别能力有限,不能满足常规应用,泰比免费版软件比汉王和文通功能齐全,用户
可选择性大,另外文通有开放的商用SDK,可以购买进行二次开发;就性能来说,汉王和文
通不分伯仲,各有千秋,识别率相差不大,但泰比软件综合能力最好,英文识别能力很强,中
文略逊于前两者,其次识别时间稍慢;就识别结果来说,泰比软件可以将读取的文件保存为多
种格式,相对另两个可选范围较小;就用户体验感来说,泰比软件更直观,样式更丰富;就表
格化数据识别来说,泰比软件有着强大的格式化数据识别能力,可以很好地复现原文件格式,
读取完毕即可保存为EXCEL文件;就软件价格来说,泰比软件最便宜。
结束语
尽管已有各种OCR识别软件产品面世,但识别性能与扫描分辨率,纸质清晰度,图像倾
斜度,格式规范程度,内容复杂度有关。市面上众多OCR软件功能各有千秋,文通和汉王的
识别性能较好,但依然难以达到百分百的准确率,都需要部分人工参与,尽管这样,但也极大
的减少了人力物力,提升了工作效率。OCR识别类的软件产品具有强大的业务处理优势,将
来会有非常广阔的应用市场。


发布评论