2024年1月31日发(作者:)
第四节 操作流程简介
单击开始打开“汉王orc 6.0”软件
一、获取图像:
有两种方式获取图像,扫描图像或打开计算机中已经存在的图像文件。本系统支持24位彩色、256级灰度和二值黑白图像。
扫描图像之前应设置好保存扫描图像文件的路径、图像文件名、图像文件名后缀。设置图像路径,可以直接在
名,或单击 按钮,在浏览路径窗口中选定路径。
窗口中键入路径图像名的命名规则为: 若干位字母前缀+3位数字,3位数字的范围从000到999,每扫描一幅图像后系统会自动在数字尾数加1,如图像名前缀取“hw”,图像名数字尾数取“003”,图像名后缀取tif,则当前图像名为,下一幅图像名自动改为;如果当前图像名尾数达到最大值,如,则下一幅图像名自动改回为,所以相同路径下相同文件名前缀的文件数最多为1000幅。
如果扫描过程中弹出“此文件已经存在,是否替换该文件?”提示框,说明该路径下已经存在同名的旧图像文件,如果旧图像文件不再需要,择选择“是”,以新扫描的图像替换旧图像;如果还需要旧图像文件,则选择“否”,并在“另存到”窗口中重新设定路径或图像文件名。不同批次的扫描图像最好分别保存于不同的路径之下,或者在相同路径下而选取不同的图像名前缀,以防止相同路径下相同文件名前缀的文件数超过1000幅。
图像文件名后缀只能取bmp,tif,jpg 三种图像格式,一般情况下,黑白二值图像保存为tif格式,灰度彩色图像保存为jpg格式将占用较少的硬盘空间。例如,C:是一个完整合法的图像文件名。
单击工具栏上的按钮或单击“文件”菜单中的“扫描”命令,通过扫描按钮或单击“文件”菜单中的“打开仪开始批量扫描文件;单击工具栏上的图像”命令,打开计算机中已经扫描好的图像文件(注意:图像文件所在路径必须是可写的)。
二、图像处理:
为提高识别率,对图像进行图像反白,自动倾斜校正,调整边框,去噪音(如麻点、下划线等),表格画线等处理。
三、版面分析:
单击工具栏中的按钮,或单击“识别”菜单中的“版面分析”命令,自动对图像的版面布局、内容进行分析理解,切分图像页,判别图像框的版面属性(横栏、竖栏、表格、图像),并以不同颜色的线框标识图像框属性。对分析错误的版面可以手动调整,方法为,先以鼠标选中需要调整的版面块,再调整版面块的边框改变大小,或单击工具栏上的属性按钮(横栏、竖栏、表格、图像)改
变该版面块属性。
四、识别图像:
单击按钮或单击“识别”菜单中的“开始识别”命令,按照版面属性(横栏、竖栏、表格、图像),自动对图像文件管理器选择的图像进行批量识别。
五、校对:
通过对比识别结果文本和原图像,以发现识别错误的文字。用户可按Ctrl+Tab、Shift+Tab组合健直接查找系统用醒目的颜色标出的可信度不高的文字,进行校对。
六、版面还原:
单击“输出”菜单中的“到指定格式文件”命令,将识别并修改好的文本输出、还原成可供计算机阅读和查询检索的RTF、HTML、XLS、TXT 格式的电子文档。
选择输出为TXT格式,存储位置选在桌面
打开刚存的TXT格式文件,全部选择、复制
粘贴到word文档中即可
七、删除不再需要的数据文件:
系统在识别处理过程中生成一些数据文件,这些文件和相关的图像文件放在同一文件夹之下,这些文件以对应的图像文件名字命名而分别加上不同的后缀,包括 *.bki,*.pst,*.tmp。例如对于图像文件,对应生成的数据文件有(不一定存在该文件),,。当这些图像的识别结果不再需要时,用户可以使用Windows资源管理器删除这些文件。
发布评论