2024年6月15日发(作者:)
OCR入门手册
[原创]OCR入门手册 拆书,扫描,软件选择,Ocr,
校对,排版
OCR入门手册教程教材 拆书,扫描,OCR软件选择,Ocr,校对,排版
转载随便,请著名原作!其实是不想变成 "作者:佚名")
发此教程纯粹是因为一个月前我为了给公司找一个新的ocr软件而开始的。
都什么年头了还用汉王尚书七号。。。。
为了测试下面说到的软件我在OCR 眩晕吐槽版简体以及《奇想、天恸》(异
想天开)的导读繁体时,我用每个ocr软件各了一次来比较。(我平时只用打印机
自带的清华)
部分说明引用了 老马 ,隼风,以及马飞涛兄的发言。
目录:
OCR是啥
OCR识别率决定因素+扫描仪设置
OCR软件的挑选+比较
推荐的排版软件
制作E书的注意事项
实际操作示范
OCR:光学字符识别Optical Character Recognition
通过检测扫描后的图片中其文字暗、亮的模式确定其形状,然后用字符识别
方法将形状翻译成计算机文字的过程;即,把图像转成txt文本。
OCR识别率决定因素+扫描仪设置
1.亮度值:一般用扫描仪默认的,别改
如果亮度值太大,文字线条会不光滑,有点凹凸不平,甚至有断线。
亮度值太小,文字线条条很黑很粗,跟周围挤成黑疙瘩。
2.对比度:一般用扫描仪默认的,别改
相对来说比度越大,图像上的文字越清晰醒目;而对比度太小,则会让文字周
围都灰蒙蒙的。
3.分辨率解析度 ,一般建议英文150dpi以上。象形字最好300dpi或以上太
高扫描速度会变慢。
4.颜色:有些人认为彩色更好,其实相反,黑白图片识别率更高。另推荐保持
成tif格式。 (能在保证质量的同时占较少的空间)
5.对齐:横的就是横的,竖的就是竖的。你扫斜了会减少识别率,所以扫描时
尽量扫好。必要时用ps的倾斜矫正。
6.字体:如果是手写识别率很低,软件若支持手写会特别写出。
7.文本密度:为达到最好的OCR 效果,把识别区域调的正好包围着文字连续
的文字,不包含大块的空白可以识别的更好.
8.辨识引擎/词库:目前大多OCR软件都有自定义的个人词库,但是大多数都
是靠厂家自带的,所以一般情况下,越大的越好(当然也有意外,下面引用老马的
话)。
引用
A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,


发布评论