扫描版pdf转换成文字版的方法

系统教程980 更新时间：2026-04-09 19:53:58

2024年3月29日发(作者：)

扫描版pdf转换成文字版的方法

我经常在阅读扫描格式pdf的时候，把它们抓取为文字格式，当然得是好书。

可能有朋友不清楚ocr，它就是把文字从图像中识别抓取出来。文字版pdf的好

处就是便于传播、引用，视觉上清晰，具有更大的处理空间，乃至可以二次制作，

比如出于手机什么的阅读需要。但是，ocr过程中的文字识别率不会是100%，需

要进一步校对，所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价

值。我分享自己的一点ocr经验，也是想更多的朋友制作文字版好书，

也因为很多的朋友不熟悉ocr。 ocr软件很多，这里只根据自己的经验进

行推荐，而忽略其他。首先说单页pdf的ocr 这种单张图片式的文字抓

取我强烈推荐JOCR。JOCR的优点是免费绿色轻量（绿色就是不需要安装），体积

小到几乎不可思议的不到100kb。然后不可想象的是，这么小的软件其识别率还

非常高，而且可以抓取20多种语言，包括中文繁体，夫复何求。 JOCR

（原版、汉化版、使用说明、MODI及“繁体中文识别”文件）下

载： /s/uImX 网路上有汉化版，其实不必。它常用功能很简单，

一般就是第一步“CaptureRegion（选取需要ocr的区域）”，然后在语言框选

择语言，最后“Recognize（识别）”，于是就为你蹦出一个txt文本，接下去

你还可以就着这文本进行校对。注意： 1、要成功使用JOCR，首

先得保证在安装office时选择了“完整”安装选项，因为JOCR的运转是依托于

MicrosoftOfficeDocumentImaging（MODI，中文OCR辨识引擎）的。Office2003

的缺省安装是第一次使用MODI时安装，Office2007的缺省安装是不装，都需要

自己主动安装一下。如果你没有完整安装office，也可以只是再安装一下MODI，

微软官方有下载。 2、如果需要抓取繁体，而你使用的是简体windows

系统（即比如安装的是简体中文Office2003），那么请将下列“繁体中文识别”

文件复制到

C:ProgramFilesCommonFilesMicrosoftSharedMODI11.0 TCCO

TCSE

TW_ TW_UB.D

AT 然后双击reg文件导入注册表，ok。

注意，导入注册表时必须先关闭所有MODI窗口。此时，在MODI的OCR

选项卡里，“OCR语言”中即可看到“中文（繁体）”，也就是说依托MODI运

作的ocr软件具有了繁体识别功能。或许你要问，JOCR的使用特别是繁

体不免麻烦了一点点。我的回答是，推荐JOCR正是因为它要利用到MODI及其繁

体识别功能。一般的ocr软件往往对繁体无措或者效果不如意，而微软MODI的

效果非常的理想，我上一篇日记《马克思——披上科学外衣的诗人革命家》用的

就是它，几乎就没有改正几个字（原文是竖排的）。所以说磨刀不误砍柴工，而

且是微软自带的，省事省心。

然后说pdf批量ocr 一本pdf格式的书籍有很多页，自然要用批量

才行。一般认为最强大的专业ocr软件是ABBYYFineReader，“世界排名第一的

OCR文字识别工具”是也。ABBYYFineReader不依托MODI运作，不免费体积也很

庞大，不过微软免费的MODI才5M多一点点。一个好状况是，热心的网友已经制

作了中文绿色版，见“最好的OCR识别软件：ABBYYFineReader中文绿色

版” 如果你使用的是word2010，恭喜你，它已经能够直接另存为pdf

（2007弄个加载项SaveAsPDFandXPS也可以）。好久得去用用，看看能不能解决

上边遇到的两个问题，如果能，其他的pdf打印软件就要抛弃之。

最后，在具体的使用过程中你可能还会遇到别的什么问题，我就

是这样，比如在word“帮助”-“关于MicrosoftOfficeWord”-“禁用项目”中

发现WordtoPDFConverter是被禁用了。

本文发布于:2024-03-29，感谢您对本站的认可！

本文链接:https://www.fzithome.com/xitong/1711704923a393819.html

扫描版pdf转换成文字版的方法

发布评论取消回复

最近发表

相关推荐

标签列表

扫描版pdf转换成文字版的方法

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复