2024年4月4日发(作者:)

图书数字化加工流程介绍

图书数字化加工流程的主要分为图书的整理,图书的扫描,图像处理及质检,OCR文

字处理,OCR文字质检,成品数据这五个主要的环节,下面将以神州图骥图书数字化项目

为例对加工流程进行介绍。

一、图书整理

1、图书类型

图书的主要类型为地方志和地名志 ,图书的出版日期跨度比较大,有70、80年代的

图书,以90年代以后的图书为主。

2、图书的拆卷

在神州图骥图书数字化加工项目中,图书是可以拆卷的,拆卷后不需要还原胶装,只

要保证图书完整即可。如图书不能拆卷,将对扫描的加工量产生很大的影响,项目初期有

少量图书是没有拆卷进行扫描的使用的是精益A380平板扫描仪,速度很慢。

二、图书的扫描

1、图书内容的分类

一本书分为四个部分正文、前言、图片和后记四个部分。

1)正文

从正文的第一页到正文的最后一页的所有图书页。

2)前言

正文第一页之前的所有文字页。

3)图片

书中不算页码的所有图片。

4)后记

正文最后一页到图书结束的所有文字页。

2、命名规则

正文命名为图书名-0001;

前言命名为图书名-0002;

图片命名为图书名-0003;

后记命名为图书名-0004;