2024年3月15日发(作者:)

聊城大学业界精英

5个最好的免费OCR软件

坦白说,真希望我在学校的时候就知道这些使用免费的

OCR软件的方式。当然,那时候我们没有带有摄像头的手机或者是廉价的数码相机,但是应该

可以节省很多抄笔记的时间了!

啊,现代科技多么美好!拿一张扫描图片(或者使用手机摄像头/数码相机拍摄一张照片)进行

排版–OCR软件从图片中提取所有的信息到可以编辑的文本格式。

光学字符识别(OCR)

是将扫描的打印/手写图片文件转换为可以机器识别的可编辑文本格式。

OCR软件通过分析文档然后与存储在数据库中的字体进行比较,以及/或者标记出字体的典型

特征来工作。有些OCR软件也通过拼写检查来“猜测”不能识别的单词。100%精确是很难达

到的,不过能够做到尽量接近是大多数软件争取的目标。

也许你之前看过我们的如何从图片中提取文本(OCR)这篇文章中使用的JOCR,是一款免费的

OCR软件工具。或者你也许更喜欢那些在线的OCR工具。然而,如果你想要知道更多利用

OCR软件以其高效率的捷径,那么让我们告诉你更多可以使用的工具。

我们将要介绍5款免费的OCR软件,在这之前先了解一下已经安装在系统中的最容易忽视的两

款。

OCR使用微软OneNote2007

作为偶尔使用的基本的OCR工作,微软OneNote的光学字符识别功能可以节省不少时间。

你可能忽略了它…叫做

从图片中复制文本

聊城大学业界精英

•将一个扫描或者保存的图片拖拽到OneNote。你也可以使用OneNote

剪辑

部分屏幕

或者图片到OneNote。

•右击插入的图片选择

从图片中复制文本

。复制下来的识别文本保存到剪切板中,你可以

粘贴到像Word或记事本之类的任何程序。

OneNote非常的建议。但是它对于手写字符或者甚至模糊的字符识别不太理想。不过对于快速

的任务,我非常支持OneNote的剪辑和粘贴。

OCR使用微软OfficeDocumentImaging

另一个微软Office家族中不常用的工具。它就在

开始-所有程序–MicrosoftOffice–

MicrosoftOffice工具–MicrosoftOfficeDocumentImaging.

聊城大学业界精英

使用documentimaging工具进行OCR识别很悠闲,因为它只接受

TIFF

(或者

MDI

)格式。

不过那并不太麻烦,因为任何图形应用程序都可以将图片转换为TIFF。在下面的截图中,我使

用微软画图板程序将JPEG转换为TIFF。

•在程序中打开文件

MicrosoftOfficeDocumentImaging–文件–打开

•点击那个小眼睛图标–

使用OCR识别文本

•点击MSWord图标–

将文本发送到Word

•自动打开一个含有可编辑转换文本的MSWord文件。

•另外,你也可以使用画图板程序选择特定区域并复制到剪切板,打开

MSOffice

DocumentImaging–选择页面–粘贴页面并复制选择部分进行OCR识别

聊城大学业界精英

再次,MODI处理印刷文本很不错,不过我的手写文本却遇到了“OCR已执行但不能识别提交

的文本”。当然,你可以试试自己的手写体。

那么,现在让我们离开微软家族,看看3款免费的称自己为OCR的软件…

SimpleOCR

我使用微软的工具进行手写体识别时遇到的困难,可以在SimpleOCR找到可能的解决方案。

不过这款软件对于手写体的识别只提供14天的免费试用,尽管机器打印的识别没有任何限制。

•这款软件可以设置直接从扫描仪读取或者通过添加页面(jpg、tiff、bmp格式)。

•SimpleOCR在转换过程提供一些控制,包括文本选择、图片选择和文本忽略等功能。

•转换到文本时提供一个

确认

阶段:用户可以使用一个内置的拼写检查工具对不符的地

方进行更正。

•转换后的文件可以保存为doc或txt格式。

SimpleOCR对于通常的文本工作良好,但处理多个列的布局时会有所衰落。据我看来,微软的

工具从精确度上来说要好于SimpleOCR。

SimpleOCR(v3.1)下载文件为9MB,兼容Windows系统。

TopOCR

我正在说的才刚刚开始呢!TopOCR,与典型的OCR软件有所不同,是专为数码相机(至少

300万像素)和带有摄像头的手机设计。就像SimpleOCR,它有两个窗口界面–原始

图像

口和

文本

窗口。

聊城大学业界精英

左侧窗口中从相机或扫描仪获取的图片转换为右侧窗口里面的文本格式。文本编辑器的功能很

像写字板程序,可以使用微软的

文本转换语音

引擎。

•这款软件支持JPEG、TIFF、GIF和BMP格式。

•对图片进行亮度、色彩、对比度、去斑点、锐化等设置,可以提高图片的可读性。

•可以配置相机过滤设置来增强图片。

•转换后的文件可以保存为多种格式–

PDF、RTF、HTML

TXT

•TopOCR对于简单文本运行良好,不过对于多列文本通常会失效。

•这款软件对于混合页面(文本加图片)识别良好,并且只处理文本部分。

•这款软件可以处理11种语言。

如何使相机读取取得最好的效果请阅读如何使用TopOCR获得最好的效果。

TopOCR(v3.1)下载大小8MB,兼容Windows系统(Vista未测试)。

FreeOCR

这款免费的OCR软件使用

TesseractOCR

引擎。TesseractOCR代码于1985到1995年间由惠普

实验室开发,现在输入Google。它被认为是最精确的开源OCR引擎之一。

FreeOCR是其底层代码的一个简单Windows界面。

聊城大学业界精英

•它支持多种图片格式和多页面TIFF文件。

•它可以处理PDF格式,并且兼容TWAIN设备比如扫描仪。

•FreeOCR也有熟悉额双窗口界面以及容易理解的设置项。

•在开始一键转换过程之前,可以调整图片的对比度增强可读性。

FreeOCR(v.2.03)需要.Net2.0framework支持。软件兼容WindowsXP/Vista,大小为4.38MB,

也可以从备选站点下载。

免费的OCR工具有它们自己的局限性。扫描图片也有清晰度、对比度以及字体清除的问题。

从一个普通用户的角度来看,100%OCR精确度仍然是白日做梦。

尽管这些免费的工具处理打印文本足够了,但却不能处理一般潦草的手写文本。我个人喜欢使

用上述两款微软的产品作为辅助的OCR工具。