2024年8月10日发(作者:)

维普资讯

42 福建电脑 2008年第3期 

基于P2P技术的网络信息检索的探讨 

达列雄 

(陕西理工学院计算机系陕西汉中723000) 

【摘要J:基于P2P方式的信息检索系统相对集中式信息检索系统具有成本低、可扩展性好、客错性强等优点,可充分 

挖掘网络边缘资源,并可提供个性化的信息服务。本文从P2P技术的基本原理入手,围绕P2P技术的基本概念、应用范围和 

存在的问题进行了讨论,并着重阐述了P2P信息检索技术的原理、一般结构以及P2P模式的主要信息检索方式。并介绍了当 

前主流的P2P信息检索技术的研究方向和发展动态,对其未来的发展趋势和前景进行了展望。 

【关键词l:P2P,信息检索. 

1.引言 

. 

作为服务器。并且它们与相邻的peer有相同的能力。 

伴随着网络技术的发展.计算模型也相应的从传统的单机 混合P2P模式结合了集中式和分布式P2P形式的优点. 

计算模型转变为网络计算模型.目前的网络计算模型主要是C, 在设计思想和处理能力上都得到近一步优化。 

S、B/S计算模型.这两种计算模型在海量信息的组织、访问等方 

3,P2P信息检索的原理 

面都不同程度存在着如单点服务瓶颈、无法抵抗Dos攻击等问 

在P2P网络中,每个参与的节点既是服务器又是客户端, 

题。Peer-To-Peer(P2P)计算模型正是在此情况下为了解决海嚣 既是信息的提供者又是信息的消费者。P2P信息检索的目的就 

计算单元及其信息资源的合理利用问题而提出的分布式计算模 是网络中的任意节点都可以提交检索的请求。然后这些检索通 

型。 

过某种路由机制被路由到和检索相关的节点上去.存储有和该 

基于对等网络(P2P)的内容存储和检索相对于集中式存储 

检索相关信息的节点将会回应请求。把本地相关的内容以对等 

和检索有着可扩展性强、实时性好、有一定自组织能力、适合动 的形式直接传送到请求节点上.示意图见图1。 

态网络等优点。同时还可以充分挖掘分布在边缘网络的各类异 

构信息。早期的P2P大型应用采用的是集中式索引方式。不是纯 

的P2P网络。目前。纯P2P网络包括两类:非结构化网络、结构 

化网络。非结构化P2P网络的资源定位采用的是广播方法,大部 

分情况下效率较低,定位稀疏资源困难。结构化p2p网络目前需 

要建立在分布式Hash表之上。在给定资源的索引情况下.能够 

在0(1即)跳之内定位到索引对应的节点。 

2.P2P的概念和结构模式 

2.1 P2P的概念 

P2P是p ̄r-to—peer的缩写。目前P2P技术在加强网络上 

交流、文件交换、分布计算、协同、深度检索等方面应用十分广 

泛。一般来说.P2P有两个层面的基本含义: 

P2P通信模式。这种模式区别于传统的客户机,服务器或 

者主,从(Mastm/Slave)模式,每个通信方都具有相同的能力。并 

且每个通信方都可以发起一个通信过程. 

P2P网络。P2P网络是运行在互联网上的动态变化的逻 

辑网络。这个网络是由一些运行同一个网络程序的客户端彼此 

互连而构成的.客户端彼此间可以直接访问存储在对方驱动器 

上的文件。 

’P2P使得网络上的沟通变得更容易、用户可以直接共享和 

交互而不必借助中间商.不用像过去那样必须连接到服务器才 

能浏览与下载。P2P另一个重要特点是改变了互联网以太网站 

图中的检索过程分为以下几个阶段: 

每个节点在加入网络的时候.会对存储在本节点上的内 

容进行索引.以满足本地内容检索的目的。然后按某种预定的规 

则选择一些节点作为自己的邻居.加入到P2P网络当中。 

发起者P提出检索请求q,并将q发送给自己的邻居 

P的邻居收到q后。再按照某种策略转发绐它在网络中 

的其它邻居节点。这样,q就在整个网络中传播开来。 

收到请求q的节点如果存储有相应内容信息,则将对应 

的内容返回 

为中心的格局、重返”非中心化”。并把权力交还给用户。 

4,P2P信息检索的优势 

2,2 P2P的结构模式 

万维网fWWW—Wodd Wide Web)从二十世纪八十年代开 

P2P模式的主要结构形式有三种:集中式P2P、分布式P2P 

始出现,一直发展到现在,Web规模每年都在发生爆炸性的增 

和混合式P2P.现简述如下: 

长。以Google、Yahoo!、Inktomi、新浪、天网为典型代表的集中式 

集中式P2P模式有一个中心服务器来负责记录共享信息 

搜索引擎技术为人们提供了一种方便快捷的网上冲浪形式。人 

以及回答对这些信息的查询。每一个对等实体对它将要共享的 

们越来越依赖搜索的理念去定位所需要的资源。但这种集中式 

信息以及进行的通信负责.根据需要下载它所需要的其它对等 

实体上的信息 

分布式P2P模式.是一种纯P2P模式。这种形式不需要有 

中心服务器和中心路由器,其上的每一个peer都作为对等实 

体,地位是完全平等的。每一个peer既可以作为客户机又可以 

的搜索引擎远远无法涵盖所有互联网内的共享内容.而P2P的 

信息检索正好是这种集中式检索的一种良性互补。发展P2P信 

息检索的优势有以下几个方面: 

1.充分利用以大规模分布形式存在的信息。互联网络内除 

了那些可以被搜索引擎检索到的静态页面外.还有分布在边缘 

维普资讯

2008年第3期 福建 电脑 43 

网络内的海量信息值得去采集和挖掘。这些分布存储在各个主 

frecall—rate1.需要覆盖较多的节点。牺牲较大的通信代价和主机 

机里面的信息具有潜在的巨大价值.是互联网络中和用户密切 计 算代价。对于稀疏资源的定位更是如此。 

相关的”精华”。这种类型信息具有动态变化周期短的特征,传统 5.2.2结构化P2P网络中的搜索技术 

结构化中.每个节点都有固定的编址。整个网络其有褶对稳 

的集中式引擎无法胜任这种实时性强的海量信息检索。P2P信 

息检索是一个自然的选择。在P2P网络中.所有的主机自组织 

定而规则的拓扑结构。依赖拓扑结构,可以给网络的每个节点指 

地{旬成一个P2P网络。在网络中,可以很便捷地检索到所有主 定一个逻辑的地址.并把地址和节点的位置对应起来。给定某个 

机中所存储的相关信息 

2.弥补传统搜索引辇无力深度挖掘网站信息的弱点。根据 

参考文献fBergman20041,互联网上共享的文档总量超过5500 

亿.目前Coogle所能检索到的80亿只是其中很小的一部分。还 

有相当大部分的信息是存储在网站的数据库中以动态网页的形 

地址.拓扑结构保证只需要通过O(1og n)跳就能路由到具有相应 

地址的节点上去fn是网络中的节点数)。结构化网络可以用来有 

效地存储分布的信息,网络中存储的信息可以用<kev,ut-l>这个 

二元组来唯一定位.其中key是信息的索引,url是存储该信息 

的节点。<kev,url>分布地存储在结构化网络中。每个节点存储 

式来提供的.这些信息无法用传统搜索引擎通过对静态网页上 

那些kev和自己的地址相近的二元组。这样。要查找某个索引为 

的链接进行爬行采集来获取.唯一可行的方法是通过网站主动 

kev的信息.只需要路由到地址和kev相近的节点就可以获得< 

提供信息索引以备检索之用 P2P检索提供了一条可行之径:各 

key.url>的二元组,从而定位目标信息,就像我们平常在哈希表 

个信息提供者作为一个节点加入P2P共享网络.各个节点各自 中杏找数据一样。所以称为分布式的哈希表fDistributed Hash 

对自己本机上存储的信息制作索引.所有的信息提供者一起构 

Table,DHT)。 

成一个庞大的分布式数据库以供检索。 

给定存储信息的索引key.DHT能高效率定位到对应该索 

3.挖掘移动终端的信息。随着3G的到来.智能手机、智能 引的信息。但要作全文信息检索,必须要像搜索引擎一样能按内 

终端的功能不断加强。这些移动的终端存储的数据具有分布面 

容中包含的字段来进行检索。因此。这些内容字段必须能够转化 

广、地域性强、存储信息和用户终端密切相关的特点,这些特点 

成为相应的索引key。这就要求key必须体现内容信息。同时 

在互联网的P2P共享网络中也同样存在.可以看成是P2P共享 

DHT类的方法面临本身固有的问题一负载均衡不易、网络拓扑 

网络的一个自然延伸。充分挖掘这些分布的信息.并使得信息在 

维护代价大、key的同步维护困难等。这些问题在设计DHT文 

各个用户群体内部流通顺畅.具有相当大的实用价值和研究意 

件共享系统的时候都是无法避免的。 

义。 

5.2.3基于兴趣局部性优化的P2P搜索 

4.构建人性化的信息终端 在P2P弼络中分布于各个终端 这类方法基于这样的原则:每个节点都表现出某些可以捕 

的数据非常直接而深刻地反映了用户的兴趣 在对这些兴趣进 捉到的兴趣.相近兴趣的节点保存的内容和提交的查询也相近。 

行挖掘的基础上.可以很方便地对产品和业务进行个性化推送. 

通过挖掘每个节点的兴趣,把节点按照兴趣关系组成网络。使得 

组织协作.研究和开发更加富有人性化的信息终端。综上所述. 兴趣相近的节点在网络中比较近。目前主要的研究是按照用户 

P2P信息检索蕴涵着巨大的商用前景和研究价值,是未来若干 提交的检索的行为来划分用户的兴趣的 

年互联网发展的重要趋势。 

6.结论 . 

5.P2P搜索 

本文主要从P2P技术的基本概念人手.讨论了P2P技术的 

在P2P的环境下进行资源定位是P2P相关研究中的热点 应用范围和存在的问题.介绍了P2P技术在信息检索方面应用 

也是核心的问题。P2P信息检索是这个问题里面的一个子问题, 

情况。主要包括:基于P2P的信息检索的基本原理、一般结构以 

主要偏重于对全文信息的检索 目前已有的对P2P资源的定位 

及信息检索的主要方式。 

的研究总结如下: 

在最近几年。P2P技术发展势头强劲。在技术背后反映更多 

5.2.1非结构化P2P网络中的搜索技术 

的是创新、自由、以人为本的理念。在给万千网民带来的便利的 

非结构化的网络指的是这样一类网络:节点采用随机的方 

同时.P2P正促使互连网的运营方式发生静悄悄的演变,新的格 

法或采用启发策略加入网络.网络拓扑随着节点的变迁和网络 

局正在形成。P2P信息检索将会是通往这个未来格局的关键技 

通信的进行而发生演变。Gnutella、kazaa、freenet等属于这类网 

术。正如以Coogle为首的Web信息搜索引擎对人们冲浪方式 

络。在非结构化P2P网络内进行搜索的技术分为两类: 带来深刻变化一样.P2P信息检索带给未来的互联网也将会是 

(11不利用任何文档分布信息的盲搜索(blind search) 

场革命 

这类研究都可以抽象为如何从一个随机图中的任一个点出 

发定位目标点。使得整个过程遍历的点的个数最少。其中最具有 

参考文献: . 

典型代表意义的是gnutella的宽度优先遍历搜索(Br'S3) 

1.Gudivada V N.Information Ketrieval 3n the Wodd Wide Web.IEEE 

f21利用网络中文档分布信息的搜索(informed search). 

]ntemet Computing,1997,1(5):58—68.. 

对BFS的改进的共同特点是各个节点记录以前接受过的 

2.图书馆数字资源采集机制初撂。黄建年,《信息研究)NO.3 2005 29-33 

请求和应答.并根据这种对应的关系作为对后来的路由过程的 

3.p2p技术及其在信息检索中的应用,何丰如《广东广播电视大学学报》 

启发。通过记录邻居的文档信息来尽量将查询路由到相关的节 

No.2 2005 2o^ 6 

点。而减少不必要的通信量。 

4.基于对等网络的全文信息检索。程学旗,吕建明,用昭涛《计算机研究 

上述方法都是对原有的在非结构化网络上检索的改进.对 

与发展)No.12.2004 2148-2156 

5.网络信息检索的发展方向,高凡,《情报理论与实践)NO.2VOL 27 

现有的Gnlltella等基于文件名检索的P2P文件共享网络比较适 

2004生202-205 

用。但无法胜任全文信息检索。为了保证较高的文本的召回率