2024年6月15日发(作者:)

OCR入门手册

[原创]OCR入门手册 拆书,扫描,软件选择,Ocr,

校对,排版

OCR入门手册教程教材 拆书,扫描,OCR软件选择,Ocr,校对,排版

转载随便,请著名原作!其实是不想变成 "作者:佚名")

发此教程纯粹是因为一个月前我为了给公司找一个新的ocr软件而开始的。

都什么年头了还用汉王尚书七号。。。。

为了测试下面说到的软件我在OCR 眩晕吐槽版简体以及《奇想、天恸》(异

想天开)的导读繁体时,我用每个ocr软件各了一次来比较。(我平时只用打印机

自带的清华)

部分说明引用了 老马 ,隼风,以及马飞涛兄的发言。

目录:

OCR是啥

OCR识别率决定因素+扫描仪设置

OCR软件的挑选+比较

推荐的排版软件

制作E书的注意事项

实际操作示范

OCR:光学字符识别Optical Character Recognition

通过检测扫描后的图片中其文字暗、亮的模式确定其形状,然后用字符识别

方法将形状翻译成计算机文字的过程;即,把图像转成txt文本。

OCR识别率决定因素+扫描仪设置

1.亮度值:一般用扫描仪默认的,别改

如果亮度值太大,文字线条会不光滑,有点凹凸不平,甚至有断线。

亮度值太小,文字线条条很黑很粗,跟周围挤成黑疙瘩。

2.对比度:一般用扫描仪默认的,别改

相对来说比度越大,图像上的文字越清晰醒目;而对比度太小,则会让文字周

围都灰蒙蒙的。

3.分辨率解析度 ,一般建议英文150dpi以上。象形字最好300dpi或以上太

高扫描速度会变慢。

4.颜色:有些人认为彩色更好,其实相反,黑白图片识别率更高。另推荐保持

成tif格式。 (能在保证质量的同时占较少的空间)

5.对齐:横的就是横的,竖的就是竖的。你扫斜了会减少识别率,所以扫描时

尽量扫好。必要时用ps的倾斜矫正。

6.字体:如果是手写识别率很低,软件若支持手写会特别写出。

7.文本密度:为达到最好的OCR 效果,把识别区域调的正好包围着文字连续

的文字,不包含大块的空白可以识别的更好.

8.辨识引擎/词库:目前大多OCR软件都有自定义的个人词库,但是大多数都

是靠厂家自带的,所以一般情况下,越大的越好(当然也有意外,下面引用老马的

话)。

引用

A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,