2024年5月2日发(作者:)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.X

(22)申请日 2014.05.13

(71)申请人 浙江大学

地址 310058 浙江省杭州市西湖区余杭塘路866号

(72)发明人 胡志富 濮永革 张军

(74)专利代理机构 杭州中成专利事务所有限公司

代理人 朱莹莹

(51)

H04L29/06

H04L29/08

G06F3/12

(10)申请公布号 CN 103973692 A

(43)申请公布日 2014.08.06

权利要求说明书 说明书 幅图

(54)发明名称

基于虚拟打印的电子档案自动采集

系统及采集方法

(57)摘要

本发明涉及信息领域,具体是指一

种基于虚拟打印机的电子档案自动采集系

统及其使用方法。基于虚拟打印机的电子

档案自动采集系统,包括,客户端,用于

发出虚拟打印机打印指令并对经过身份认

证的客户指令打印生成通用格式的电子文

件,并将客户端的身份认证信息及电子文

件通过网络传输给服务器端;服务器端,

用于验证客户端用户的身份,接收客户端

传送过来的电子文件。基于虚拟打印的电

子档案自动化采集系统都将非常有效解决

上述存在的困境。既简化并缩短了从档案

归档到提供利用的操作复杂度及时间周

期,同时又归避了由对纸质档案数字化而

产生的所有可能产生的质量问题。

法律状态

法律状态公告日

法律状态信息

法律状态

权 利 要 求 说 明 书

1.基于虚拟打印机的电子档案自动采集系统,其特征在于:包括,

客户端,用于发出虚拟打印机打印指令,并将客户端的身份认证信息及请求打印的

服务器端,用于验证客户端用户的身份,接收客户端传送过来的请求打印的数据并

其中,

所述客户端将请求打印的数据经加密后通过网络传输;服务器端接收到请求打印的

数 据后进行解密、加工、数据分析,并生成通用格式的电子文件,

别码;

成电子文件;

据通过网络传输给服务器端;

每个电子文件带有一个识

所述服务器端生成的电子文件加密,并通过网络传输传送到客户端;客户端接收到

上 述电子文件后,则提示用户保存或者选择打印机打印成纸质文

电子文件相同的识别码。 件,所述纸质文件附带有和

2.根据权利要求1所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:

所述识别 码的形式为:一串文字、二维码图片、条形码图片,以

及其它可支持特定设备识别的形式。

3.根据权利要求1或2所述的基于虚拟打印机的电子档案自动采集系统,其特征在

于:

所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;

所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务

器 端进行认证用户输入的账号及密码是否正确,或使用用户的数

份认证平台; 字证书,或使用第三方身

所述通用格式的电子文件为PDF格式;

所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数

4.根据权利要求1-3任一所述的基于虚拟打印机的电子档案自动采集系统,其特征

在于: 所述加工、数据分析为系统针对档案归档业务需求提供

匹配功能、识别码生成功能

传送协议。

的以下处理功能:OCR识别与模式

和服务器端文件存储及管理功能。

5.根据权利要求4所述的基于虚拟打印机的电子档案自动采集系统,其特征在于:

服务器

(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;

端文件存储及管理功能包括:

(2)支持自定义电子文件自动生成名称;

(3)支持按元数据项进行检索与二次检索;

(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;

(5)支持文件压缩与加密存储;

(6)支持二维码检索;

(7)支持电子公章和电子签名章的应用;

(8)支持WS接口方式及XML方式电子文件批量导出;

(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;

(10)支持对特异性数据来源的元数据分析功能;

(11)支持管理与上传电子文件模板;

(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等

6.基于虚拟打印机的电子档案自动采集方法,其特征在于:包括如下步骤:

递到“预立卷系统”或“数档系统”。

1)用户在客户端使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格

或电

2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未认证,则

提示

证;

3)身份认证通过后,客户端将请求打印的数据经加密以及网络传输,传送到服务器

端;

4)服务器端接收到请求的数据后进行解密、加工、数据分析,并生成通用格式的电

子文

5)服务器端将上述电子文件加密以及网络传输,传送到客户端;

6)客户端接收到上述电子文件后,则提示用户保存或者选择实际的打印机进行打印

成带

7.根据权利要求6所述的基于虚拟打印机的电子档案自动采集方法,其特征在于:

所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它可支持特定

所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;

备识别的形式;

有识别码的纸质文件。

件,所述电子文件带有一个识别码;

用户首先将身份认证信息通过网络传输到服务器端进行身份认

子文件时,选择虚拟打印机进行打印;

所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络请求至服务

器 端进行认证用户输入的账号及密码是否正确,或使用用户的数

份认证平台; 字证书,或使用第三方身

所述通用格式的电子文件为PDF格式;

所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数

所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能:OCR识

别与

模式匹配功能、识别码生成功能和

传送协议;

服务器端文件存储及管理功能。

8.根据权利要求7所述的基于虚拟打印机的电子档案自动采集方法,其特征在于:

所述服

(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;

(2)支持自定义电子文件自动生成名称;

(3)支持按元数据项进行检索与二次检索;

(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;

(5)支持文件压缩与加密存储;

务器端文件存储及管理功能包括:

(6)支持二维码检索;

(7)支持电子公章和电子签名章的应用;

(8)支持WS接口方式及XML方式电子文件批量导出;

(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;

(10)支持对特异性数据来源的元数据分析功能;

(11)支持管理与上传电子文件模板;

(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息等

递到“预立卷系统”或“数档系统”。

说 明 书

技术领域

本发明涉及信息领域,具体是指一种基于虚拟打印机的电子档案自动采集

背景技术

随着学校信息化建设的不断发展,学校各部门电子文件的产生量日益巨大,

大量的电子文件从各个管理与职能部门的业务系统中产生。电子文件和纸质

的双套制管理模式,是档案工作的现行管理模式。比如说,教学是高

仅从教学这条线来讲,各层次学生基本信息及其在校其间的学

档案的重要组成部分。此类档案,在收集或采集时,均

究生院以及继续教育学院,通过自己的教务系统,

归档,但是其对应的电子文件,则都由档

形成电子文件,再对外提供利用。

时间和人力才能完成,而且

始纸质档案的清晰度

何一个环节出

系统及采集方法。

文件

校的主体,

籍信息,是教学类

是每年均由本科生院、研

向档案馆打印成纸质的来移交

案馆在纸质文件归档后进行扫描加工,

由于数量大,整个扫描加工过程需要花相当的

扫描过程中,对扫描质量的控制变得非常重要,对原

要求也高,这样扫描的结果才能符合利用的要求,其中的任

现问题,都会对整体扫描质量直至最后的利用环节产生影响。

可见在实际归档前的电子文件不能被有效利用,导致档案馆收集纸质文件又

须花费费用扫描成电子文件,成本高,效率低,而且扫描的质量又不能有效

把控。

发明内容

为了解决以上问题,本发明提供了一种可以电子化传输和管理的基于虚拟打

印机的电子档案自动采集系统及采集方法。

基于虚拟打印机的电子档案自动采集系统,包括,

客户端,用于发出虚拟打印机打印指令,并将客户端的身份认证信息及

服务器端,用于验证客户端用户的身份,接收客户端传送过来的请求打

其中,

所述客户端将请求打印的数据经加密后通过网络传输;服务器端接收到

所述服务器端生成的电子文件加密,并通过网络传输传送到客户端;客

优选的,所述识别码的形式为:一串文字、二维码图片、条形码图片,以及

优选的,所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文

件;所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络

至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的

或使用第三方身份认证平台;所述通用格式的电子文件为

/网络传输使用TCP/IP作为网络传输协议,同时

其它可支持特定设备识别的形式。

户端接收到上述电子文件后,则提示用户保存或者选择打印机打印成纸质文

件,所述纸质文件附带有和电子文件相同的识别码。

请求打印的数据后进行解密、加工、数据分析,并生成通用格式的电子文件,

每个电子文件带有一个识别码;

印的数据并生成电子文件。

请求打印的数据通过网络传输给服务器端;

请求

数字证书,

PDF格式;所述加解密

使用HTTP协议作为数据传送协

议。

优选的,所述加工、数据分析为系统针对档案归档业务需求提供的以下处理

功能:OCR识别与模式匹配功能、识别码生成功能和服务器端文件存储及

能。 管理功

优选的,服务器端文件存储及管理功能包括:

(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件

(2)支持自定义电子文件自动生成名称;

(3)支持按元数据项进行检索与二次检索;

(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;

(5)支持文件压缩与加密存储;

(6)支持二维码检索;

(7)支持电子公章和电子签名章的应用;

(8)支持WS接口方式及XML方式电子文件批量导出;

(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;

(10)支持对特异性数据来源的元数据分析功能;

夹下;

(11)支持管理与上传电子文件模板;

(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档

另外本发明还提供了一种电子档案采集方法。

基于虚拟打印机的电子档案自动采集方法,包括如下步骤:

1)用户在客户端使用学籍系统,或OA系统,或其它业务系统打印网页、电

2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未

3)身份认证通过后,客户端将请求打印的数据经加密以及网络传输,传送

4)服务器端接收到请求的数据后进行解密、加工、数据分析,并生成通用

5)服务器端将上述电子文件加密以及网络传输,传送到客户端;

6)客户端接收到上述电子文件后,则提示用户保存或者选择实际的打印机

其中,

进行打印成带有识别码的纸质文件。

格式的电子文件,所述电子文件带有一个识别码;

到服务器端;

认证,则提示用户首先将身份认证信息通过网络传输到服务器端进行身

份认证;

子表格或电子文件时,选择虚拟打印机进行打印;

附加信息等传递到“预立卷系统”或“数档系统”。

所述识别码的形式为:一串文字、二维码图片、条形码图片,以及其它

所述虚拟打印机是一种软件程式,模拟实现打印机的功能,打印文件;

所述身份认证采用的方式为:用户在客户端输入账号及密码,然后网络

所述通用格式的电子文件为PDF格式;

所述加解密/网络传输使用TCP/IP作为网络传输协议,同时使用HTTP

所述加工、数据分析为系统针对档案归档业务需求提供的以下处理功能:

OCR识别与模式匹配功能、识别码生成功能和服务器端文件存储及管理功

优选的,所述服务器端文件存储及管理功能包括:

协议作为数据传送协议;

请求至服务器端进行认证用户输入的账号及密码是否正确,或使用用户的数

字证书,或使用第三方身份认证平台;

可支持特定设备识别的形式;

能。

(1)支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件

(2)支持自定义电子文件自动生成名称;

(3)支持按元数据项进行检索与二次检索;

(4)支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;

(5)支持文件压缩与加密存储;

夹下;

(6)支持二维码检索;

(7)支持电子公章和电子签名章的应用;

(8)支持WS接口方式及XML方式电子文件批量导出;

(9)支持电子文件的全量备份、增量备份、异机备份等多种形式;

(10)支持对特异性数据来源的元数据分析功能;

(11)支持管理与上传电子文件模板;

(12)支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档

基于虚拟打印的电子档案自动化采集系统由两部分组成。

第一部分为,客户端程式。该程式关键实现虚拟打印机。用户在打印网页、

电子表格或电子文件时,可以选择该虚拟打印机进行打印。通过虚拟打印机

避对业务系统的技术介入,不存在考虑接口的问题,通用性强,做到

的无关性。

附加信息等传递到“预立卷系统”或“数档系统”。

可回

与业务系统

第二部分为,服务器端程式。该程式关键实现验证客户端用户的身份,以及

不论在学籍材料的双套制归档,还是在学校OA系统每年的来文,以及其它

学校业务系统中产生的归档电子文件归档,基于虚拟打印的电子档案自动化

系统都将非常有效解决上述存在的困境。既简化并缩短了从档案归档

的操作复杂度及时间周期,同时又归避了由对纸质档案数字化

接收客户端传送过来的电子文件。

采集

到提供利用

而产生的所有可能

附图说明

产生的质量问题。

图1是实施例1的流程示意图。

图2是实施例2的流程示意图。

图3是本发明实施例的应用模型示意图。

具体实施方式

下面结合具体实施例进一步阐述本发明,应理解,以下实施例仅用于说明本

实施例1

如图1所示,第一种解决方案如下:

(1)用户在使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格

(2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未

(3)身份认证通过后,客户端程式将请求打印的数据经加密以及网络传输,

(4)服务器端程式接收到请求的数据后进行解密、加工、数据分析,并生成

传送到服务器端程式;

认证,则提示用户首先进行身份认证。

或电子文件时,选择虚拟打印机进行打印。

发明而不用于限制本发明的保护范围。

通用格式的电子文件;

(5)服务器端程式将上述电子文件加密以及网络传输,传送到客户端程式;

(6)客户端程式接收到上述电子文件后,则提示用户保存或者选择实际的打

实施例2

如图2所示第二种解决方案如下:

(1)用户在使用学籍系统,或OA系统,或其它业务系统打印网页、电子表格

(2)虚拟打印机接收到打印请求后,判断当前用户身份是否已认证,如果未

(3)身份认证通过后,客户端程式将请求打印的数据进行加工、数据分析,

(4)客户端程式将上述电子文件以及分析后形成的数据经加密以及网络传

(5)服务器端程式接收到上述电子文件以及分析数据后进行解密,再处理;

(6)客户端程式提示用户保存上述电子文件,或者选择实际的打印机进行打

通过上述两种解决方法,用户非常方便的完成了实现电子文件的自动归档,以及

印上述电子文件成纸质文件;

输,传送到服务器端程式;

并生成通用格式的电子文件;

认证,则提示用户首先进行身份认证。

或电子文件时,选择虚拟打印机进行打印。

印机进行打印成纸质文件;

形成相应的纸质文件。

(1)识别码

为了档案管操作人员收集到纸质文件后,能够快速实现纸质文件与电子文件

的归档过程,因此通常在生成通用格式的电子文件时,自动为该电子文件加

个识别码。 入一

识别码的形式可以是:一串文字、二维码图片、条形码图片,以及其它可支

例如文字识别码,档案馆人员在归档纸质材料时直接输入这些文字即可快速

检索到相应的电子文件。二维码、条形码图片,档案馆人员在归档纸质材料

使用支持扫描二维码、条形码的设备快速检索到相应的电子文件。

持特定设备识别的形式。

时可

(2)虚拟打印机

虚拟打印机,就是虚拟的打印机,它是一种软件程式,模拟实现打印机的功

板”

能,打印文件。虚拟打印机同真实打印机一样,安装完毕后,打开“控制面

中的“打印机和传真”,就会看到所安装的虚拟打印机,可以像使用一

一样使用它们。鼠标双击将其打开,可以对其“打印首选项”和

改,从而设定是否共享、可使用时间、是否后台打印和优先级,

版式安排等。它们同样能截获所有Windows程序的打

或完成某一特殊功能。

台打印机

“属性”进行修

以及纸张大小、

印操作,或模拟打印效果,

(3)身份认证

身份认证通常采用以下几种方式:

i.用户输入账号及密码,然后网络请求至服务器端程式进行认证用户输入

ii.使用用户的数字证书;

iii.使用第三方身份认证平台;

iv.其它身份认证方法;

(4)通用格式的电子文件

系统默认使用PDF作为通用格式。PDF全称Portable Document Format,译

为"便携文档格式",是一种电子文件格式。这种文件格式与操作系统平台无

也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的

统中都是通用的。这一性能使它成为在Internet上进行

信息传播的理想文档格式。同时PDF文件是以

无论在哪种打印机上都可保证精确的颜色

现原稿

的账号及密码是否正确;

关,

Mac OS操作系

电子文档发行和数字化

PostScript语言图象模型为基础,

和准确的打印效果,即PDF会忠实地再

的每一个字符、颜色以及图象。

(5)加解密/网络传输

使用TCP/IP作为网络传输协议,同时使用HTTP协议作为数据传送协议,而

且使用HTTP协议可以有效解决绕开防火墙。HTTPS是在HTTP之上的安

传输协议。HTTPS应用了Netscape的完全套接字层(SSL)作为

子层。SSL使用40位关键字作为RC4流加密算法。同

用X.509数字认证。

全超文本

HTTP应用层的

时HTTPS和SSL也支持使

SSL协议位于TCP/IP协议与各种应用层协议之间,为数据通讯提供安全支

持。SSL协议可分为两层:SSL记录协议(SSL Record Protocol):它建立在

靠的传输协议(如TCP)之上,为高层协议提供数据封装、压缩、加密

能的支持。SSL握手协议(SSL Handshake Protocol):它建立在

之上,用于在实际的数据传输开始前,通讯双方进行身份认证、

交换加密密钥等。

等基本功

SSL记录协议

协商加密算法、

因此,使用HTTPS为客户端与服务器端之间的网络传输起到如下作用:

I认证用户和服务器,确保数据发送到正确的客户机和服务器;

Ii加密数据以防止数据中途被窃取;

Iii维护数据的完整性,确保数据在传输过程中不被改变。

(6)加工、数据分析

系统针对档案归档业务需求提供以下几个主要的处理功能。

识别与模式匹配

通过虚拟打印机接管请求打印的电子原件,如果为图像,则经过OCR识

OCR识别可以使用Tesseract的OCR引擎。Tesseract的OCR引擎最先由

别技术自动识别出中文,同时结合模式库对这些中文进行抽取元数据。如果

为其它格式的文档,则结合模式库对这些文档进行抽取元数据。

HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三

识别引擎之一。Tesseract目前已作为开源项目发布在Google Project。

模式库主要有几种类型。一种类型是在识别出中文的基础上,根据出现

的前后顺序建立的模板。另一种类型是基于元数据出现的XY位置而建立的

模板。另外就是根据特定文档通过外挂程式进行

模板对电子原件进行元数据分析,抽取元

文的主题、发文单位、文号、日期

班级、学号、学期等。还有

准确抽取元数据。通过这些

数据信息。如发文,则元数据有发

等。如成绩信息,则有学生姓名、年级、

一种类型是基于语义进行识别。

B.生成识别码

在生成通用格式的电子文件时,自动为该电子文件加入一个识别码。识

C.服务器端文件存储及管理

支持按部门定义文件夹,使得电子文件自动归属到相应的部门文件夹下;

支持自定义电子文件自动生成名称;

支持按元数据项进行检索与二次检索;

支持根据电子文件匹配的模板进行自动分类,如发文、学籍卡等;

支持文件压缩与加密存储;

支持二维码检索;

别码的形式支持文字、二维码、条形码等。

支持电子公章和电子签名章的应用;

支持WS接口方式及XML方式电子文件批量导出;

支持电子文件的全量备份、增量备份、异机备份等多种形式;

支持对特异性数据来源的元数据分析功能;

支持管理与上传电子文件模板(即为模式库);

支持扩展数据接口,使与纸质材料二维码相对应的电子文件、归档附加信息

D.其它功能模块

如图3所示描述了实际兼职档案员操作的应用模型。兼职档案员针对需打印

生成的纸质归档原件,通过系统上述步骤形成相应的电子文件及纸质材料。

另外针对对于已存在的纸质归档实体与对应电子文件,通过适度改进

统,使系统能够获取相应目录数据信息及其电子文件,这些作

料,同时业务办理过程形成的过程信息与过程文件,仍

步骤,打印生成业务过程纸质原件与电子文件。

等传递到“预立卷系统”或“数档系统”。

业务系

为主体归档材

然可以通过系统上述