2024年1月31日发(作者:)

pdf(Portable Document Format, 便携式文档结构)是一种很有用的文件格式,其最大的特点是

平台无关而且功能强大(支持文字图象音乐视频).今天先讲一下pdf的文件(物理)结构

PDF文件结构可分为以下几块:

:

pdf文件的第一行,格式如下:

%PDF-1.3

表示当前文件的版本是1.3(目前最高版本为1.5)

:

pdf文件中用到的所有对象,包括文本图象音乐视频字体超连接加密信息等等,格式如下:

2 0 obj

...

end obj

其中省略号部分是pdf规定的任意合法对象(一共8种)

reference table:

所有pdf对象的引用表,其格式如下:

xref

0 5

65535 f

00000 n

00000 n

00000 n

00000 n

其中,xref是开始标志,表示以下为引用表内容;0 5表示从对象号为0的开始,

连续有5个对象(0,1,2,3,4),分别用5行来表示.每行的前10个数字代表这个

这个对象相对文件头的偏移地址,后面5个数字只有当这个对象被删除的时

候才有用,表示这个对象被删除后又被重新生成后的对象号最后一位f或n表

示对象是否被使用(n表示使用,f表示被删除或没有用)

r:

整个pdf文件的入口点,形式如下:

trailer

<<

/Size 8

/Root 1 0 R

>>

startxref

553

%%EOF

/size :这个pdf中总共使用了多少个对象

/root :这个pdf文件的catalog对象的对象号,这是pdf中最顶层的对象

/startxref: 后面的数字表示cross reference table的开始位置

/%%EOF :文件结束符.

实际一个pdf文件是很复杂的,但是上面几个部分是确定的,只能多不能少.下一讲我说一下pdf里面8种类型.

m

用关键字true或false表示,可以是array对象的一个元素,或dictionary对象的一个条目.

c

包括整形和实型,不支持非十进制数字,不支持指数形式的数字.

例:

1)整数 123 4567 +111 -2

范围:正2的31次方-1到负的2的31次方

2)实数 12.3 0.8 +6.3 -4.01 -3. +.03

范围:±3.403 × 10的38次方 ±1.175 × 10的-38次方

注意:如果整数超过表示范围将转化成实数,如果实数超过范围就出错了

由一系列0-255之间的字节组成,一个string总长度不能超过有以下两种方式:

1)由()包含起来的一个字串,中间可以使用转义符"".

例:

(abc) 表示abc

(a) 表示a

2)由<>包含起来的一个16进制串,两位表示一个字符,不足两位用0补齐

例:

表示AA和BB两个字符

表示AA和B0两个字符

由一个前导/和后面一系列字符组成,最大长度为127.和string不同的是,name是不可分割的

和唯一的,不可分割就是说一个name对象就是一个原子,比如/name,不能说n就是这个name的

一个元素;唯一就是指两个相同的name一定代表同一个对象.从pdf1.2开始,除了ascii的0,别

的都可以用一个#加两个十六进制的数字表示.

例:

/name 表示name

/name#20is 表示name is

/name#200 表示name 0

用[]包含的一组对象,可以是任何pdf对象(包括array).虽然pdf只支持一维array,但可以通过

array的嵌套实现任意维数的array(但是一个array的元素不能超过8191)

例:

[549 3.14 false (Ralph) /SomeName]

nary

用"<<"和">>"包含的若干组条目,每组条目都由key和value组成,其中key必须是name对象,并且

一个dictionary内的key是唯一的;value可以是任何pdf的合法对象(包括dictionary对象).

例:

<< /IntegerItem 12

/StringItem (a string)

/Subdictionary << /Item1 0.4

/Item2 true

/LastItem (not!)

/VeryLastItem (OK)

>>

>>

由关键字stream和endstream包含一系列字节.内容和string很相似,但有区别:stream可以分几次

读取,分开使用不同的部分,string必须作为一个整体一次全部读取使用;string有长度限制,但

stream却没有这个限制.一般较大的数据都用stream表示.

例:(略)

用null表示,代表空.如果一个key的值为null,则这个key可以被忽略;如果引用一个不存在的

object则等价于引用一个空对象.

例:(略)

给大家说点有用的东西:为什么有的pdf不允许打印?

pdf有自己的加密措施,其中就有限制打印.

找到trailer,如果这个pdf是加密的话会有一个/Encrypt的name,他的值一般形式是n 0 R,表示这个pdf

文件的加密信息在n 0这个obj里面记录.找到这个obj,其下有一个/P的name,他的值是一个数字(32位)

其中第三位代表是否有打印权限:)

由于pdf的特殊文件结构,注定pdf的生成是一件很麻烦的事情。目前最常用的就是adobe公司提供的sdk了,但是由于其依赖与adobe的环境,所以使用起来不是很方便。在这里我给大家介绍另外一种方法——使用pdflib生成pdf。

pdflib也提供了一组sdk,但和adobe的sdk相比,pdflib很小,但功能却一点也不弱。所以对于开发者来说,pdflib是一个明智的选择。你可以从下面的网址得到到它:

/products/pdflib/download/。如果你没有得到序列号,那么生成的pdf将会加上水印,其他功能和商业版一样。

另外你还可以从下面网址得到pdflib-lite版:

/products/pdflib/

pdflib-lite使用协议:

/purchase/

和pdflib相比,pdflib-lite最大的特点就是你可以拥有完全的源代码,但功能不如pdflib全面,比如支持的字体要比pdflib少很多。但是,如果你对pdf文件本身很了解的话,你完全可以在pdflib-lite的基础上再做发挥,这就要看你的c语言功底如何了。如果要用做商业产品,请仔细阅读授权协议!

下载pdflib压缩包(大约6m)后,在pdflib文件夹下有,,pdflib.h,。对于我们来说,只要有前3个文件就可以了。

下面是一个生成pdf的完整代码:

#include

#include

#include "pdflib.h"

int

main(void)

{

PDF *p;

int font;

/* create a new PDFlib object */

if ((p = PDF_new()) == (PDF *) 0)

{

printf("Couldn't create PDFlib object (out of

memory)!n");

return(2);

}

PDF_TRY(p) {

if (PDF_begin_document(p, "", 0, "") == -1) {

printf("Error: %sn", PDF_get_errmsg(p));

return(2);

}

/* This line is required to avoid problems on Japanese systems

*/

PDF_set_parameter(p, "hypertextencoding", "host");

PDF_set_info(p, "Creator", "hello.c");

PDF_set_info(p, "Author", "Thomas Merz");

PDF_set_info(p, "Title", "Hello, world (C)!");

PDF_begin_page_ext(p, a4_width, a4_height, "");

/* Change "host" encoding to "winansi" or whatever you need!

*/

font = PDF_load_font(p, "Helvetica-Bold", 0, "host", "");

PDF_setfont(p, font, 24);

PDF_set_text_pos(p, 50, 700);

PDF_show(p, "Hello, world!");

PDF_continue_text(p, "(says C)");

PDF_end_page_ext(p, "");

PDF_end_document(p, "");

}

PDF_CATCH(p) {

printf("PDFlib exception occurred in hello sample:n");

printf("[%d] %s: %sn",

PDF_get_errnum(p), PDF_get_apiname(p), PDF_get_errmsg(p));

PDF_delete(p);

return(2);

}

PDF_delete(p);

return 0;

}

到现在,一个的pdf文件就生成了,你完全可以自己发挥,做出很复杂的pdf文件,这就看你的想象力了:)不过在发挥的时候要注意,pdf的坐标和我们通常理解的坐标是不一样的,屏幕坐标的原点在左上角,pdf文件的原点在左下脚。

本文来自CSDN博客,转载请标明出处:/bobob/archive/2006/05/23/