2024年4月13日发(作者:)

如何使用扫描仪的ORC功能

扫描文字,结果以图片格式(.bmp)存入电脑。然后使用ORC识别系统进行

转换,最终用WORD进行修改编辑。下面教你如何使用ORC:OCR是英文

Optical Character Recognition的缩写,翻译成中文就是通过光学技术对文

字进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。它是一

种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,

属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在OCR主要

是指文字识别软件,在1996年清华紫光开始搭配中文识别软件之前,市场上的

扫描仪和OCR软件一直是分开销售的,专业的OCR软件识别能力非常强,准确

率在98%以上,OCR软件也在不断升级,扫描仪厂商现在已把专业的OCR软件搭

配自己生产的扫描仪出售。OCR技术的迅速发展与扫描仪的广泛使用是密不可

分的,近两年随着扫描仪逐渐普及和OCR技术的日臻完善,OCR己成为绝大多

数扫描仪用户的得力助手。一、OCR技术的发展历程自20世纪60年代初期出

现第一代OCR产品开始,经过30多年的不断发展改进,包括手写体的各种OCR

技术的研究取得了令人瞩目的成果,人们对OCR产品的功能要求也从原来的单

纯注重识别率,发展到对整个OCR系统的识别速度、用户界面的友好性、操作

的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等

各方面提出更高的要求。IBM公司最早开发了OCR产品,1965年在纽约世界博

览会上展出了IBM公司的OCR产品--IBMl287。当时的这款产品只能识别印刷体

的数字、英文字母及部分符号,并且必须是指定的字体。20世纪60年代末,

日立公司和富士通公司也分别研制出各自的OCR产品。全世界第一个实现手写

体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公

司也推出了同样的系统。到了1974年,信函的自动分拣率达到92%左右,并且

广泛地应用在邮政系统中,发挥着较好的作用。1983年日本东芝公司发布了其

识别印刷体日文汉字的OCR系统OCRV595,其识别速度为每秒70~100个汉字,

识别率为99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作。中

国在OCR技术方面的研究工作相对起步较晚,在20世纪70年代才开始对数字、

英文字母及符号的识别技术进行研究,20世纪70年代末开始进行汉字识别的

研究。1986年,国家863计划信息领域课题组织了清华大学、北京信息工程学

院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清

华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版,至此中

文OCR正式从实验室走向了市场。清华OCR印刷体汉字识别软件其后又推出了

TH-OCR 92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体

汉字识别技术又取得重大进展。到1994年推出的TH-OCR 94高性能汉英混排印

刷文本识别系统,则被专家鉴定为"是国内外首次推出的汉英混排印刷文本识别

系统,总体上居国际领先水平"。上个世纪90年代中后期,清华大学电子工程

系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写

汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重

要成果。具有代表性的成果是TH-OCR 97综合集成汉字识别系统,它可以完成

多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识

别输入。几年来,除清华文通TH-OCR外,其它如尚书SH-OCR等各具风格的

OCR软件也相继问世,中文OCR市场稳步扩大,用户遍布世界各地。可以说目

前印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指

定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表

格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息

快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的

文字其识别率也达到95%以上。可识别宋体、黑体、楷体、仿宋体等多种字体

的简、繁体,并且可以对多种字体、不同字号混合排版进行识别,对手写体汉

字的识别率达到70%以上。特别是我国的汉字OCR技术经过十几年的努力,克

服了起步晚、汉字字符集异常庞大等困难,单字的识别速度(指在单位时间内所

完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上。由于印刷体

OCR汉字识别技术已经比较成熟,所以OCR产品被广泛地应用在新闻、印刷、

出版、图书馆、办公自动化等各个行业。专业型OCR产品多是面向特定的行业,

即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等

等。这种面向特定行业的专业型OCR系统,格式较为固定,识别的字符集相对

较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比

如邮件自动分拣系统等。手写文稿的识别直到1996、1997年才开始有产品问世,

而且是作为印刷文稿识别产品的一项附加功能提供的。由于人写字的习惯千差

万别,实现自由手写体识别相当困难,所以手写体OCR技术的使用领域是联机

手写体识别,即人一边写,计算机一边识别,是一种实时识别方式。二、OCR

的基本原理简单地说,OCR的基本原理就是通过扫描仪将一份文稿的图像输入

给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其