2024年4月4日发(作者:)
OCR字符识别简介
OCR是英文Optical Character Recoggnition的缩写,意思是光学
字符识别,也可简单地成为文字识别,是文字自动输入的一种方法。
它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用
各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按
通用格式存储在文本文件中,所以,OCR是一种非常快捷、省力的
输入方式,也是在文字量较大的今天,很受人们欢迎的一种输入方式。
OCR的概念是在1929年由德国科学家Tausheck最先提出来的,
后来美国科学家Handel也提出了利用技术对文字进行识别的想法。
而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,
1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法
识别了1000个印刷体汉字。直至1986年以后我国的OCR研究有了
很大的进展,在汉字建模和识别方法上都有所创新,在系统研制和开
发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。
进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国
信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发
展,使OCR的识别正确率、识别速度满足了广大用户的要求。
目前,比较流行的OCR软件很多,英文OCR主要有OmniPage,
中文OCR主要有云脉OCR、汉王OCR、清华文通OCR、中晶尚书
OCR、丹青ORC、蒙恬OCR等。尽管汉字字量大、字形复杂,但
OCR技术已经走向成熟。许多OCR软件不仅能识别黑白印刷体汉字,
还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到了
99%以上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多
种字体、不同字号的混排进行识别;有些OCR软件还能识别图像、
表格。与此同时,对于手写体汉字识别的研究也取得了很大进展,正
确识别率已达到了70%以上。
厦门云脉OCR在OCR识别应用软件上推出了证件识别、文档识
别及拍照翻译等多种软件。其中,OCR识别应用软件——证件识别
是一款基于Android系统的识别软件,可识别身份证、车牌等证件。
无论是拍照、导入、识别、自动分类,还是核对信息、批量管理、导
出表格,全程只在手机上完成。它的诞生彻底宣告了扫描、福音与手
动录入时代的终结,无需任何硬件设备的辅助,轻松实现身份证、护
照或户口簿及各式车牌信息的查询与批量管理。而OCR识别应用软
件——文档识别则是利用手机摄像头拍摄文档(报纸、杂志、书本等)
的图像的方式,自动识别图像上的文字信息,并可立即在线翻译,还
可通过电邮、短信等方式分享发送给好友。远远超越电子此点的及时
翻译功能,为学习或工作提供便利。OCR识别应用软件——拍照翻
译则可以利用手机直接拍摄文档图像,划文字行或点选文字词进行快
速自动文字识别,并按用户需要显示单字、词组的翻译结果,并可直
接在谷歌上搜索关键字;同时支持直接在视频状态下取词翻译,识别
结果和翻译结果可立即通过电邮、短信等方式分享给好友。
汉王OCR涵盖票据、表格、单证识别系统等。应用步骤包括资
料整理——扫描——图像处理——版面分析——识别——校对——
数据入库。可自动进行版面理解并定位,判别划框选区域是横排文本
区、竖排文本区、表格还是图像区,自动版面分析在后台运行。操作
人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
将文字图像转化为计算机文字内码,可以识别印刷体中文(包括简体
字和繁体字)表格、中英文混排,识别出来的文字内码有GB码、BIG5
码、GBK码。识别过程在后台运行。OCR录入资料数据库经由扫描
录入、图像处理、版面分析、识别、纵校、横校、版面还原的工序处
理最终形成。汉王OCR识别可以提供表格数据之间的逻辑和算数运
算关系,并针对表格形成设计了独特的处理功能,能够满足各种复杂
的表格识别要求,并且支持数据入库前的修改,确保最终的入库数据
符合要求。


发布评论