2024年3月24日发(作者:)

国家森林资源连续清查信息数据采集系统基于IPAD的构建

和应用

【摘 要】国家森林资源信息数据基于ipad2是为林业考察做

出了很多贡献,用处是“林天时用规划”。因为ipad2是由于“轻

巧,好携带,而且待机时光长,在野外用来传输数据,本文就是基

于ipad森林资源数据的分析。

【关键字】森林资源;信息数据;ipad 网络;应用

前言

国家森林资源连续清查的系统从目的任务要求、技术标准、固

定样地调查、固定样地调查质量管理、样地调查内业工作、遥感图

像目视判读等层面都有严格的要求,其中就包含gps和软件使用、

下面主要论述了国家森林资源连续清查信息数据采集系统基于

ipad的应用。运用此技术既是完成国家森林资源清查任务的需要,

也是掌握我区森林资源状况。它对正确评价我区林业发展和生态建

设成果,把握全区生态环境承载能力和林产品供应能力,推动生态

新区建设都具有重要意义。

一、ipad系统体系结构

森林资源信息多数据源信息检索系统分为数据采集层和信息检

索层两层体系架构,数据采集层以oracle全局数据库为核心向下

通过odi集成各异构数据库数据,并通过网络爬虫和非结构化文本

数据解析来实现多数据源数据采集,向上通过数据库接口为上层应

用提供数据:信息检索层采用以lueene为基础的nutch搜索引擎

实现信息索引和检索。系统共包括异构数据库集成、异构文档解析、

信息分类模块、信息索引模块、信息检索模块和系统管理模块六部

分。

森林资源信息数据基于ipad的应用信息检索技术并不是简单地

将开源搜索引擎技术应用于ipad,而是针对森林资源信息数据内部

数据特点设计相应的解决方案。异构数据库集成模块从系统底层做

好结构化数据库数据的高效获取和有效组织。森林资源信内信息发

布以web网站为主要方式,对其进行信息检索一是采用网络爬虫方

式进行数据采集:二是通过lucene数据库接口与各异构数据库相

连采集数据,第一种方式虽然操作简单,但在数据采集质量和深度

上都有所不足,并没有充分利用森林信息数据存储的特点:第二种

方式虽然在数据来源上有所改进,但在系统的稳定性、耦合程度和

可扩展性上都存在不足,从各异构数据库中获取的数据无法进一步

加工处理,从而导致对上层应用的支持有限。通过获取对各业务异

构数据库的查询管理权限,,通过插件机制提取各种格式化文档的

文本信息进行处理。信息分类模块按照信息来源的部门、发布时间

等提供分类信息检索,实现信息的高级检索功能。信息索引模块对

多种数据源数据建立索引,并进行索引优化以减少索引文件的数

量,可以快速定位用户所需资源,及时有效地获取信息。系统管理

模块针对不同资源,设置不同的访问权限,按照用户权限决定可以

访问的资源。

二、基于ipad系统主要功能模块

odi(oracle data integrator)是oracle公司采用elt理念进

行数据抽取、加载、转换的数据集成中间件工具,其最大特点是提

出了知识模块的概念。odi将一些场景(如文件加载到数据库,从

mysql数据库抓取数据到oracle数据库等)的详细实现步骤使用

jvthon脚本语言结合数据库sql语句录制成详细的步骤记录下来,

形成知识模块,odi中共有超过100种主流数据库引擎和应用系统

的知识模块,森林资源信息数据基于ipad的应用基本上包含了普

通应用所涉及的所有场景,因此odi可以实现对森林资源信息数据

内多种异构数据库的支持。在一个数据集成任务中,odi通过声明

设计运用接口和关系图等概念声明数据集成规则,使集成的逻辑和

技术层面分离,底层的技术方面由知识模块描述和定义,系统只需

要把森林资源信息数据重点放在集成任务规则的制定上面。

三、森林资源信息数据基于ipad的信息索引与检索

ipad的应用为满足用户全网检索和分类分部门检索信息的需

要,并提高检索效率,信息索引模块首先对每个数据源建立索引文

件提供给分类检索森林资源数据,然后通过优化索引提供给全网检

索用户。优化索引就是将多个索引文件合并成单个文件的过程,目

的是为了减少索引文件的数量,并且能在搜索时减少读取索引文件

的时间。nutch中的indexwrite类提供了optimize方法实现该优

化操作。利用nutch中的multisearcher类可实现对优化后索引的

全网检索功能,检索结果会以一种指定的顺序合并起来。

针对森林资源信息数据信息检索的特点。综合考虑信息相关度、

时效性和访问量等因素后,系统采用了自定义的排序机制,系统通

过lucene的激励因子boost值来改变文档得分,从而调整文档的

出现顺序。系统为森林资源信息数据用户提供了通用检索和高级检

索功能,通用检索在用户输入检索信息的关键字后可检索出所需信

息:高级检索功能为用户提供了更为详细的检索条件,用户可根据

需要对信息进行更加精细的检索。系统管理功能除对用户权限进行

管理外还对信息检索结果进行屏蔽和进一步处理。

四、ipad的系统运行环境

考虑到开发调试和维护的方便性,系统在测试运行期间采用了

windows平台。上层在开源nutch搜索引擎的基础上进行开发,采

用myeclipse作为开发平台,用java语言实现,因此具有跨平台

特性。但由于运行nutch自带的脚本命令需要linux环境,所以必

须首先安装cygwin来模拟这种环境。为了确保nutch1.0版本能够

正确运行,java虚拟机需采用jdk1.6以上的版本,运用

websphere6.0作为检索平台的容器。系统底层采用oracle 10g作

为全局数据库。数据集成工具odi版本为10.1.3,与数据库安装在

同一台服务器上。

五、信息采集系统的构建

ipad的信息采集是网络信息价值体现的主要方法之一。主要功

能为:根据森林的自定义的任务配置,批量而精确地抽取因特网目

标网页中的半结构化与非结构化数据,转化为结构化的记录,保存

在本地森林资源的数据库中,用于内部使用或外网发布,快速实现

外部信息的获取。 ipad信息采集系统除了可以处理远程网页外,

还可以处理本地网页,远程的文本文件或者本地的文本文件。

六、信息采集系统的应用

ipad的信息采集系统应用是根据林业资源调查因子自定义采集

任务,需要的林业资源调查因子信息都可以通过任务定制的方式将

其采集到你本地的数据库中,支持的森林数据库包括mysql,

access,oracle,ms sql等等。还可以将采集好的森林资源的相关

信息发布到其他的网站系统中,也适用于其他数据的采集。可见数

据采集系统在ipad中发挥重要作用。

七、结束语

森林资源信息数据基于ipad的应用,实现了对森林资源内各信

息发布系统后台异构数据库的有效整合与集成,改变了以往主要通

过网络爬虫获取数据的方式,提高了数据来源的精度与质量,又通

过nutch插件机制实现了对非结构化文本的解析。从而为信息索引

与检索打下了良好的基础。信息检索模块基于nutch搜索引擎技术

并充分利用lucene接口实现了灵活高效的全网信息检索系统

参考文献:

[1]胡昌平.现代信息管理机制研究.武汉:武汉大学出版社,

2004

[2]杨元庆.构建新型互联网应用模式 推进中国信息化建设.

现代电信技术,2002(3):18-20

[3]王雪松lucene+nutch搜索引擎[m]北京:人民邮电出版社,

2008

[4]黄少林,王华,张玉红,蒋一峰,基于lucene的索引系统

的设计与实现,现代情报,2009,29(7):169-171

[5]刘期勇,基于lucene的多数据源全文检索系统的设计与实

现,重庆:重庆大学,2008