2024年3月12日发(作者:)
常见电子书格式及其反编译思路
电邮:stronghorse@tom.com
版本:1.01
发布日期:2004.05.30
最近更新:2009.02.08
声明:
1. 本文可能夹杂大量技术术语,如果您对此感到不快,请勿继续阅读。
2. 本文仅仅讨论一些思路,不会提供相关源代码,最多也只提供源代码网站的链接。如果您对此
有所不满,请勿继续阅读。
3. 本文仅仅从技术角度讨论电子书反编译问题,请勿将之用于侵犯版权等等非法目的,或损害他
人利益。如果您对此感到失望,请勿继续阅读。
4. 本文版权归作者所有,转载前请先征得作者书面同意。
1. 前言
2. 常见电子书格式及其反编译思路
2.1 PDF格式
2.2 基于IE内核的电子书
2.2.1 CHM格式
2.2.2 EXE格式
2.2.2.1 Web Compiler 1.67
2.2.2.2 Caislabs eBook Pack Express 1.6
2.2.2.3 通用反编译思路
2.3 HLP格式
2.4 小说网/小说世界(ebx/XReader)
3. 结论
/stronghorse/software/html/[2009/3/28 14:27:42]
常见电子书格式及其反编译思路
1. 前言
本文所描述的电子书,指的是将原始的、可编辑的HTML、TXT、RTF、图像文件等,打包成一个独立
的EXE,或其它只有专用浏览器才能读取的文件,打包后的文件通常不可用常规工具进行编辑、全文
检索。
本文所描述的电子书反编译,指的是将电子书中的内容提取出来,还原或转换成标准的、可编辑的
HTML、TXT、RTF及图像文件等。
就像世间其它事物一样,电子书编译器和反编译器的出现也都不是偶然的,都有其必然性。
在电子书编译器这一方来说,大概从有电子文档那天开始,就有人琢磨着要对电子文档打包了。我
个人认为这主要是从以下几个方面进行考虑:
1. 便于阅读、管理。当年在DOS下阅读文本文件,尤其是中文文件比较麻烦,因此出现了自带中
文字库、自带基本浏览(翻页、滚动)功能的DOS电子书;由于需要在不同OS平台上获得相同
的阅读效果,因此产生了跨平台的PDF格式电子书;随着互联网络的发展,大量信息以HTML格
式出现,但是面对一大堆HTML文件,并不是每个人都知道该去双击index.htm或default.htm
的,而且文件太多,管理也成问题,因此出现了CHM格式和各种基于IE内核的EXE格式电子书。
2. 便于保护知识产权、商业机密。这个问题的重要性相信大家现在都能理解了,不要说那些包含
核心商业机密的东西,就算是区区一本小说,都会有些卑鄙小人把原始的HTML、TXT文件拿去
加LOGO、打包,然后声称是自己“辛苦扫校的成果”,再堂而皇之地收取所谓“VIP费用”。
因此PDF一直将文档安全性作为卖点之一,国内的各种独门格式电子书也以防反编译、防内容
复制为首要目标。
而反对将通用格式打包成独门格式的人,当然也有自己的道理:
1. 便于全文检索。如前所述,电子书一般不可用通常的检索工具进行全文检索,这就为资料的有
效利用设置了障碍。我个人认为,藏书量在几十本、上百本的时候,手工建立摘要、索引可能
还可以接受;再多以后,我想要的就只是一个快速的全文检索工具,就好像在互联网环境下,
/stronghorse/software/html/[2009/3/28 14:27:42]


发布评论