2024年4月26日发(作者:)

对我国古籍数字化相关问题的研究

牛惠萍 张琳

内容提要 本文论述古籍数字化的发展现状,并对古籍数字化的

各种格式和基本特征进行分析,对使用网络阅读古籍的问题、古籍的

版本问题、数字化文献的版权问题以及古籍数字化的发展趋势等提出

了建议和对策。

关键词 图书馆 古籍数字化

现在,人们已普遍认识到图书馆对建设知识网络的重要性,开始

研究图书馆建设中的新问题,古籍数字化就是其中的一个。对现在出

版的新书来说,使其数字化已较为方便,但对汉代发明造纸、雕版印

刷、活字印刷以来保存至今的价值连城的古籍来说,实现数字化则困

难很多。主要原因是,古籍数量大,文字繁杂,用词和语法均与今不

同,对许多人来说,看古籍犹如看“天书”。尽管从图书利用总量看,

古籍的利用率不高,但它们对研究中国古代历史、科技、文化却有着

重要的资料价值和文物价值。因此,古籍数字化已成为许多图书馆在

基本实现了现代文献数字化之后面临的新问题。所谓古籍数字化,就

是采用计算机技术,对古籍文献进行加工、处理,制成古籍全文数据

库,用以揭示古籍文献中所蕴含的极其丰富的信息资源,为古籍的深

度开发打下良好的基础。

一、古籍数字化现状

(一)数字化的主要格式

从文件格式上来看,目前的数字化古籍除常见的text、doc、html

格式外,还有exe、pdf、wdl、pdg、ebk、edb等。

格式。目前有秦昌荣(秦堤居士)的“家庭百宝箱”系列

(含诸子百家、二十五史、资治通鉴三种)(中华文史软件网http:

///)。另外,北京天安亿友公司(http:

///html/)出品的《二十五史》、《资治

通鉴》也包含了这种格式。

格式。所见有红旗出版社的“家庭藏书集锦”所包含的部

分古籍。博库(http:///)图书也

采用了这种格式。此种格式需要pdf格式文件专用浏览器,如Adobe

公司的Adobe Reader、北大方正的Apabi Reader。

格式。北京华康信息技术有限公司开发的电子读物文件格

式。所见的博库图书就采用了这种格式。它保留了原来的版面设计,

可以在线阅读,也可以下载到本地机阅读,需要该公司的专用阅读器

DynaDoc Free Reader

格式。所见有深圳百博电子商务网络技术有限公司的“百

博书城”(http:///gb/)使用。书籍可

在线阅读,也可下载到本地,需要百博专用的图书阅读器。

格式。北京天安亿友公司开发的图书格式(Eyousoft

Digital Book)。

格式(Open eBook)。所见有辽宁省出版集团开发的掌上

书房(http:///bottom/)使用,有

专用阅读器,也可使用北大方正的sep、ifr格式。由书生之家(http:

//www.21 /)开发的电子图书格式,需要其

专用的Apabi Reader阅读器阅读。

、ifr格式。由书生之家(http://www.21

/)开发的电子图书格式,需要其专用阅读

器来阅读。

格式。以oeb(Open eBook)为基础,以xml(eXtensible

Markup Language,可扩展标记语言)技术为核心的中文电子图书格

式。北大方正的Apabi Reader等浏览器支持阅读。

格式。超星公司(http:///)开发的

图书格式,需通过超星专用的图书浏览器阅读。

格式。中国数字图书馆采用这种图书格式,需要其专用

浏览器NLC Reader阅读。

11.基于unicode(通用多于8位编码字符集)、仓颉码、Big5

码或其他字符集,以html、xml、sgml等为核心的全方位电子文献全

文检索格式。这是目前势头最盛、也显然是更有发展前途、更具实用

价值的一种古籍数字化形式。台湾中央研究院的《汉籍电子文献资料

库》、香港迪志文化出版公司与上海人民出版社等合作开发的《四库

全书》标题检索版和全文检索版(http://anshucom/、

http://)、北京书同文数字化技术有限公司开发的《四

部丛刊》等全文检索版均属于这种形式。汉文化联盟开发的《汉文化

资料库》和目前北京大学正在开发的《中国古籍基本库》也应属于这

种形式。

此外,还有位图形式和多媒体格式的数字化古籍。前者如济南开

发区汇文科技开发中心研制、武汉大学出版社出版发行的《四库全书》

原文电子版。后者如方圆电子出版社出版的《中国古典文学精品书

库》,包含了《红楼梦》、《三国演义》、《西游记》、《初刻拍案

惊奇》、《二刻拍案惊奇》、《儒林外史》、《醒世名言》、《喻世

通言》及《警世恒言》10部古典名著全文,还包含由北京广播电台

播音员配音的唐诗三百首和中小学语文教材中的古诗文,带联机字典

及语音。

显而易见,如此众多的图书格式,显示出中国古籍数字化的途径

非常多样,而且也正是通过这些途径,数字化了的古籍才快速地进入

了人们的视野,并为广大爱好者和专业学术研究人员所注意。

(二)取得的成就简表

表 一

地区 名称

中国古籍善本查阅系统

北京大学图书馆“古籍数字特

http: //www. lib. pku. edu. cn

藏”

中华古籍 http: //www. oldbook.126. com

网络版 html/

《四库全书》、《四部丛刊》

网址

http: //dllib. sh. cn/index. htm

http: ///

“汉达古籍资料”光盘

《四库全书》原文电子版

中国医药古籍文献全文检索系

http: //www. chant. org/scripts/main

http: //www. zg169. net/skqs/

http: //www. tcmet. com. tw

中央研究院汉籍全文资料库 http: //www. sinica. edu. tw

http:

古典文献全文检索资料库

古文书数据检索系统

简帛金石资料库 ///wenwu/sear

ch. htm

http://

http:

///online/intro/ol

dbook. htm

http: ///

佛学数据库国际网络

misc/cbs/-cxp. htm

先秦两汉一切传世文献电脑化

资料库

魏晋南北朝一切传世文献电脑

化资料库

竹简帛书出土文献电脑资 料

《文渊阁四库全书》电子版 http: //skqs. unihan. com. cn/

org/scripts/

http: //www. chant.

通过我国各地数据库的研制和开发状况,我们可以看出古籍数字

化是我国数字图书馆的重要组成部分,鉴于古籍文献在馆藏文献中的

典型性,建立古籍全文数据库,实现古籍的数字化往往成为图书馆文

献数字化工作的首选,也是各图书馆文献工作的特色所在。

二、数字化古籍资源的基本特征

二十多年来,中国古籍数字化的道路基本上是通过两条路线来进

行的,一条是利用计算机对古籍进行揭示,建立古籍的书目数据库,

提供读者检索使用;另一条是利用计算机对古籍的内容进行数字化并

提供一些相关的知识工具,使读者不仅能通过计算机来阅读古籍,并

且能够通过磁盘、光盘和网络进行传播。但是,这并不能成为真正意

义上的数字化古籍产品,因为他们不具备数字化古籍的基本特征。

北京大学李国新教授提出:数字化古籍的基本特征,第一是必须

实现文本字符的数字化,第二是具有基于超链接的浏览阅读环境,第

三是具有强大的检索功能,第四是具有研究支持功能。

文献数字化就是把分散于不同载体(图书、文字、音像等)、不

同地理位置的信息资源以数字方式存储,并通过网络互相链接,实现

信息的即时即用,把来源于古文献自然文本的信息资源,集成虚拟的

数字化文献信息资源。文献数字化的特征是数字化存储、多媒体处理

和网络传输。文献数字化的实质是形成有序的信息空间,实现真正意

义的信息资源共享。

那么,数字化古籍资源的基本特征是什么呢?

首先,必须实现文本字符的数字化,即汉字以编码而不是以图形

的形式存储在计算机中。如果是通过扫描技术将古籍原文转化为数字

图形,则必须有一个进一步将数字图形映射为数字字符的环节,这就

是一般所说的OCR(光学字符识别)技术。只有实现了汉字由图形向

编码的转变,最终才能实现对汉字的编辑修改,对文本的深度加工才

有可能进行。

第二,具有基于超链接设计的浏览阅读环境。不论何种载体形式

的图书,能够浏览阅读都是最基本的要求,所以,仅仅是能够浏览阅

读,并不能显示出电子版图书比印刷版图书有什么优势,而且,若从

纯粹意义的浏览阅读的习惯和舒适、便携程度来看,电子版恐怕还不

如印刷版。就浏览速度来说,数字化以后的真正优势在于对典籍内容

的超链接设计,比如,正文相关内容之间的链接,正文与注释相关内

容之间的链接,不同注释之间的链接,正文与相关知识、资料之间的

链接,原文与在线词典之间的链接,甚至典籍内容与相关网站的链接

等等。有了这样一些超链接设计,人们在浏览阅读古籍时就可以改变

传统印刷版的线性顺序,就可以以语词点、知识点为中心,发散性的、

及时性的、有选择性的寻找需要的内容。对于现在利用古籍作品来说,

这种浏览阅读环境至关重要。

第三,具有强大的检索功能。所谓“强大的检索系统”,是指以

全文检索为基础构造的检索系统,主要包括关键词(主题词)检索、

条件检索、逻辑检索、模糊检索、组配检索、属性检索等,其中属性

检索对于古籍的利用与研究有特别的意义,如以“体裁”作为属性,

可以汇聚同体裁的作品;以“写作时间”作为属性,可以汇聚相同时

间的作品;以“事件”作为属性,可以汇聚古籍中记述的所有事件;

以“图像”作为属性,可以汇聚古籍中收载的所有图像资料等等。属

性检索是一种智能化检索,属性设置体现了原书的内容特点,往往可

以满足利用者特定的需要。因此,在数字化古籍的检索系统中,属性

检索应该是不可或缺的。

第四,具有研究支持功能。所谓“研究支持功能”,是指能够提

供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容

相关的参考资料、辅助工具。这些信息、资料或工具都是古籍内容的

增值或补充,比如古籍字数、字频、词频的统计数据,异体字的汇聚

显示,读音的自动标注和朗读,行文风格特点的概率统计,必要的背

景知识、参考资料的汇聚,在线标点断句工作的配备,不同版本之间

的校对,字典词典、历史年表、历史地图等研究工具的加载等等。有

了这些研究支持功能,不仅可以极大的改善研究者的研究条件,而且

还会带来研究思路、研究方法的变革。

上述四点,第一点是基础,没有古籍字符的数字化,其他一切犹

如无本之木。在文本字符数字化的基础上进行的超链接设计、检索功

能设计、研究支持功能设计,是充分利用计算机的优势对古籍资源所

作的深度揭示和开发。由此可以得出这样的结论:数字化古籍必须对

古籍原典做出具有计算机浏览、检索、利用特点的深度开发。强调这

一点,对目前中国正在进行的古籍数字化工作具有现实意义。古籍数

字化并不简单等于对古籍进行扫描而后在计算机上浏览,用“一扫而

就”的办法进行古籍数字化,不仅会造成资源的浪费,还会使古籍数

字化走向歧途。

三、古籍数字化建设存在的问题和对策

1.网络阅读古籍的问题和建议

(1)版式的古代性,使读者产生阅读的距离。特别是那些影印

的古籍,它们不是现代一页一版的格式,而是一页中含有原始的四页,

作上、下、右、左的排列,令不习惯阅读影印古籍的读者有眼花缭乱

的感觉。

建议设定特置的自动分页菜单,依据原页中缝字样,如“某书”

或“某书卷”进行自动分页。如《四库全书》可依据“钦定四库全书”

字样进行分页。由此,把影印的古籍还原为本始页式,这样就相对符

合现代的阅读习惯了。

(2)虽然现有的计算机技术使大量的古籍实现了网络化、数字

化,但是对于一些生僻字、古字却束手无策。中华文化博大精深、源

远流长,许多汉字在今人看来是古字、生僻字甚或是死字,但它们对

于历史和文明的考证却是不可或缺的,而且原始古籍均是用繁体字排

版,容易使接受简体字训练的现代读者产生较大的阅读障碍。现在虽

能通过某种解读器进行转换,但目前的转变技术,只是一种机械的转

变,缺乏特定文字原始意义上的修正,从而在转变时,会发生一些字

义上的混淆,例如“后”与“後”。“后”字的原始意义,在上古指

的是君王,在中古指的是皇帝或王的正妻,不具备与“前”相反的含

义;而“後”字,其字义始终与“前”相反,如午後、日後、後来等

等。

建议设定特置的简繁体字自动识别器,对“后”与“後”之类繁

简体有歧义的文字,作自动提示,以提醒读者注意。

(3)影印的古籍,多来源于线装本,而线装本由木版雕印而成,

其中隐含有不少异体字,给现代读者的阅读也带来了不少困难。

建议设定特置的异体字自动识别器,对木版雕印中的异体字作自

动提示,以便于读者识别。

2.古籍的版本问题

在历史长河中,由于诸多的原因,某本书常常形成不同的版本,

版本的选择不同,得出的结论可能完全相反。除内容外,文献的原始

特征,如版式、行款、牌记、题跋、藏书印等也是重要的信息。所以,

古籍的数字化首先必须选择好的版本,最好能提供文本和图形两套内

容,前者实现全文检索的功能,后者可以提供浏览古籍的原貌。电子

版校对可采用多文本交互的方法,对同一个版本的书籍,可以采用两

人或多人同时输入。第一阶段的校对就是比较两个人的输入。一般来

说,两个人同时在同一个地方犯错误的机会是比较少的,这样可以避

免一些低级的输入错误;然后,把核对后的文本交由两个不同专业人

士进行校对,最后再对比校对结果。这样,电子化古籍的内容就能有

较高的质量。

3.数字化文献的版权问题

各种数据库的建立多是利用原有的文献资料编辑而成,有的甚至

是全文献录入,这必然牵涉到版权问题,如对所采用资料的版权付费

问题,以及数据库本身的知识产权保护问题。从国际通行的做法来看,

数据库产品包含了开发人员的智慧投入和辛勤劳动,理应受到法律保

护;数据库中所收录的资料也应向在保护期内资料的原创人员支付版

权费用。

目前,我国有关数字化文献开发生产机构的版权观念还不强,主

要体现在向原创者支付版权费用的意识不强,不经允许即自接采用原

始资料,或以少量经济补偿的办法获得使用权。从结果上看,产生的

版权纠纷事件虽不算多,但已开始出现;随着公众版权意识的增强,

这个问题将有可能威胁到许多数字化文献开发生产机构的生存和发

展。

今后,我国在版权法的修改补充上,应注意在数据库的版权问题

上做出较为详细的规定;对于开发生产单位来说,也应提高版权意识,

避免版权纠纷的发生。

四、今后的发展趋势

具有全文检索等诸多功能的大型数据库的建设,以及投资商、技

术开发公司、图书馆和专业研究机构合作开发更多、更专门的数字化

产品,应该是古籍数字化发展的主要趋势。此外,随着汉语地位在世

界上的逐步提高,世界上首次汉语大会已经召开,并决定要在世界多

个城市建立约30所孔子学校。可以看出,数字化的古籍必将有着良

好的发展前途。所以,谋求同国外一此机构的合作,以多种方式将数

字化产品推广出去,借以传播中国优秀之文化,也应当在考虑的范围

之内。

[参考文献]

1李国新.中国古籍数字化的进展与任务.大学图书馆学报,2002

(2)

2李明杰,肖秋惠.中国古籍数字化资源调查与分析.图书馆杂

志,2002 (5)

3杨朝霞.古籍数字资源述略.大学图书馆学报,2000 (3)

4王桂平.我国古籍数字化的现状和展望.图书情报知识,2000

(4)

5乔红霞.关于古籍全文数据库建设工作的思考.河南图书馆学

刊,2001 (8)

6桂罗敏.网络阅读古籍的几个问题与建议.现代图书情报技术,

2001 (1)

7夏春田.提高新版古籍利用率促进古籍文献的保护.图书馆工

作与研究,2001 (6)

8吴格.近年来中国图书馆古籍修复工作的调查与回顾.国家图

书馆学刊,2002 (1)

9徐忆农.古籍开发与利用的标准化与规范化.图书馆杂志,

1997(增刊)

10李致忠.北京图书馆数据库建设的战略思考.北京图书馆馆

刊,1998 (1)

11吴宣德.古籍数字化:现状、问题与趋势——从一个使用者的

角度看 http:///gengyusuoji/

转自《当代图书馆》2006年3月第1期