2024年4月21日发(作者:)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.X

(22)申请日 2013.06.26

(71)申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司

地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

(72)发明人 陈夺

(74)专利代理机构 北京国昊天诚知识产权代理有限公司

代理人 许志勇

(51)

H04L29/08

G06F17/30

(10)申请公布号 CN 103391312 A

(43)申请公布日 2013.11.13

权利要求说明书 说明书 幅图

(54)发明名称

资源离线下载方法及装置

(57)摘要

本发明涉及一种资源离线下载方法

及装置。该方法包括:根据需要离线下载

的资源的网络属性确定所述资源所归属的

网络运营商;根据设定的任务调控策略,

从网络运营商的离线下载服务器集群中选

择离线下载服务器,离线下载服务器用于

对资源进行离线下载;将所述资源的离线

下载任务分配给所选择的离线下载服务器

以进行离线下载。本发明通过分析离线下

载资源的网络属性并确定资源归属的网络

运营商,根据任务调控策略将任务分配到

不同网络属性集群中的离线下载服务器进

行处理,提高了离线下载速度和服务器处

理能力、降低了离线下载服务器压力、并

实现了资源的最大利用。

法律状态

法律状态公告日

法律状态信息

专利权的转移IPC(主分

类):H04L29/08专利

号:ZL2X登记生效

日:20220727变更事项:专利权人

变更前权利人:北京奇虎科技有限

公司变更后权利人:三六零科技集

2022-08-09

团有限公司变更事项:地址变更前

权利人:100088 北京市西城区新

街口外大街28号D座112室(德

胜园区)变更后权利人:300450 天

津市滨海新区滨海科技园高新六

路39号9-3-401号变更事项:专

利权人变更前权利人:奇智软件

(北京)有限公司变更后权利人:

2023-07-28

专利权的转移IPC(主分

类):H04L29/08专利

法律状态

专利申请权、专利权

的转移

专利申请权、专利权

的转移

号:ZL2X登记生效

日:20230714变更事项:专利权人

变更前权利人:三六零科技集团有

限公司变更后权利人:北京鸿享技

术服务有限公司变更事项:地址变

更前权利人:300450 天津市滨海

新区滨海科技园高新六路39号

9-3-401号变更后权利人:100015

北京市朝阳区酒仙桥路甲10号3

号楼15层17层1765

权 利 要 求 说 明 书

1.一种资源离线下载方法,其包括:

根据需要离线下载的资源的网络属性确定所述资源所归属的网络运营

根据设定的任务调控策略,从所述网络运营商的离线下载服务器集群中

将所述资源的离线下载任务分配给所选择的离线下载服务器以进行离线

2.如权利要求1所述的方法,其中,所述根据需要离线下载的资源的网

获取与所述资源的统一资源定位符URL对应的域名信息,并解析出与所

根据与所述域名信息对应的IP地址查询数据库以获取与所述IP地址对

3.如权利要求1或2所述的方法,其中,所述任务调控策略为将所述资

源的离线下载任务分配给当前负载权值最小的离线下载服务器。

述域名信息对应的IP地址;

络属性确定所述资源所归属的网络运营商,进一步包括:

下载。

商;

选择离线下载服务器,其中,所述离线下载服务器用于对资源进行离线下载;

应的网络运营商并将其确定为所述资源所归属的网络运营商,所述数据库存

储有网络运营商及其IP地址。

4.如权利要求3所述的方法,其中,所述负载权值为:k1*cpu使用量

所述k1为cpu使用量对应的权值,所述k2为磁盘余量对应的权值,所

5.如权利要求1至4任一项所述的方法,其中,在所述根据需要离线下

获取所述需要离线下载的资源的消重特征,所述消重特征是指所述资源

判断所述需要离线下载的资源的消重特征是否与全局消重表中存储的已

的身份标识且其根据所述资源的URL、大小和内容片段生成;

述k3为内存余量对应的权值,所述k4为带宽资源对应的权值。

+k2*磁盘余量+k3*内存余量+k4*带宽资源,其中,

载的资源的网络属性确定所述资源所归属的网络运营商之前,还包括:

经离线下载的资源的消重特征相同,以及所述需

经离线下载的资源之间的时间间隔

储有已经离线下载的

要离线下载的资源和所述已

是否小于设定时间值,所述全局消重表存

资源的消重特征;

如果消重特征相同且时间间隔小于设定时间值,则不下载所述需要离线

下载的资源;否则,建立所述需要离线下载的资源的离线下载任务。

6.如权利要求5所述的方法,其中,所述消重特征通过下列步骤生成:

提取所述资源的头100k内容、中间随机位置100k内容、尾部100k内容

将所述资源的URL、资源大小与所述内容片断拼接成字符串;

对所述字符串进行MD5计算以得到所述消重特征。

7.一种资源离线下载装置,其包括:

网络运营商确定模块,适于根据需要离线下载的资源的网络属性确定所

离线下载服务器选择模块,适于根据设定的任务调控策略,从所述网络

任务执行模块,适于将所述资源的离线下载任务分配给所选择的离线下

载服务器以进行离线下载。

述资源所归属的网络运营商;

作为资源的内容片断;

运营商的离线下载服务器集群中选择离线下载服务器,其中,所述离线下载

服务器用于对资源进行离线下载;

8.如权利要求7所述装置,其中,所述网络运营商确定模块进一步包括:

第一获取模块,适于获取与所述资源的统一资源定位符URL对应的域名

第二获取模块,适于根据与所述域名信息对应的IP地址查询数据库以获

9.如权利要求7或8所述的装置,其中,所述任务调控策略为将所述资

10.如权利要求9所述的装置,其中,所述负载权值为:k1*cpu使用

所述k1为cpu使用量对应的权值,所述k2为磁盘余量对应的权值,所

信息,并解析出与所述域名信息对应的IP地址;

取与所述IP地址对应的网络运营商并将其确定为所述资源所归属的网络运

营商,所述数据库存储有网络运营商及其IP地址。

源的离线下载任务分配给当前负载权值最小的离线下载服务器。

量+k2*磁盘余量+k3*内存余量+k4*带宽资源,其中,

述k3为内存余量对应的权值,所述k4为带宽资源对应的权值。

说 明 书

技术领域

本发明涉及网络资源管理领域,尤其是关于资源离线下载方法及装置,

背景技术

离线下载就是下载工具的服务器代替用户先行下载。用户发出离线下载

命令后,离线下载服务器就可以在用户不在线的状态下,把用户需要的资源

下载到离线下载服务器提供的共享存储空间。然后用户可以从该共享

间高速地把需要的资源下载到本地。离线下载可以省却用户的

间,最重要的是能够腾出网络带宽做其他的事情。

以进行网络资源的离线下载管理。

存储空

挂机等待的时

离线下载主要有三大优势:

1.高速:

利用离线下载服务器的强大带宽,相比于用户端网络离线下载服务器能

够更快的将资源/文件下载到用户端的云端存储(云端存储的各个用户可以上

传文件到该云端存储或利用离线下载将资源保存到该云端存储,等等)。下

载完成后,用户可以把资源/文件从该云端存储高速稳定的下载到你的机器

(即根据用户的需求随时将资源、文件等同步至用户本地)。由于离线

服务器带宽远大于用户端的网络,离线下载服务器能够提供高速下载

下载

速度。

2.稳定:

离线下载服务器可以为用户提供稳定的下载速度。而如果用户直接下载

时,受限于网络环境的影响,如,A运营商下属的用户从B运营商处下载

源,则下载速度可能处于一个波动的状态,不可预期。而离线下载能

稳定的速度。 够提供

3.省时:

离线下载服务器可以节省挂机时间,提供高速的下载,使下载时间利用

现有的离线下载技术方案,如图1所示为现有技术中离线下载服务器的

率更高。

工作原理图,用户向Linux虚拟服务器(LVS)11发出离

虚拟服务器11中的负载调度器将用户的下载请求发送

器12-1,12-2,12-3,从中选择一个离线下载服

采用IP负载均衡技术和基于内容请求分

别下载用户所需的资源。负载调度

转移到不同的离线下载服务

载服务器的故障,从

虚拟服务器集

户端和

线下载指令,Linux

到一组离线下载服务

务器执行离线下载任务。LVS

发技术,使用多个离线下载服务器分

器具有很好的吞吐率,可以将请求均衡地

器上执行,且负载调度器可以自动屏蔽掉离线下

而将一组离线下载服务器构成一个高性能的、高可用的

群。整个服务器集群的结构对客户是透明的,而且无需修改客

服务器端的程序。

由于资源存在的网络环境(网络运营商)具有不确定性,可能在网通网

下,也可能在电信网络环境下。完全使用双线的离线下载服务器成本

络环境

又过高,而使用固定的离线下载服务器就有可能导致跨运营商下载资源,例

如使用网通的离线下载服务器下载电信网络环境的资源,速度就会很

响离线下载服务的质量。普通的LVS调度策略是只要离线下慢,影

载服务器没有停 止工作,就会向其发送任务,无法实时的根据离线下载

况进行调度。所以,此方案只适合于离线下载服

服务器的各项负载情

务器负载无压力的场景。

并且,由于相同的统一资源定位符(URL)对应的资源中大部分都是重

而且现有的离线下载服务器不能判断同一URL对应的资源是否发生变

发明内容

针对上述现有技术的缺陷,本发明的技术方案主要解决的技术问题是提

复的,

化(如不对URL的网络资源做消重处理),会导致重复下载,进而造成很多

额外的开销。

供一种资源离线下载方法及装置,根据资源的网络属性来分配离线下载任务,

以解决现有技术存在的跨网络环境资源下载和重复资源下载而引起的

载服务器下载效率低的问题。 离线下

依本发明的一个方面,提供了一种资源离线下载方法,其包括:根据需

要离线下载的资源的网络属性确定资源所归属的网络运营商;根据设定的任

务调控策略,从网络运营商的离线下载服

该离线下载服务器用于对资源进行

给所选择的离线下载服务器

务器集群中选择离线下载服务器,

离线下载;将该资源的离线下载任务分配

以进行离线下载。

其中,根据需要离线下载的资源的网络属性确定所述资源所归属的网络

运营商包括:获取与所述资源的统一资源定位符URL对应的域名信息,并

析出与所述域名信息对应的IP地址;根据与所述域名信息对应的IP

询数据库以获取与所述IP地址对应的网络运营商并将其确定

归属的网络运营商,所述数据库存储有网络运营商及其

地址查

为所述资源所

IP地址。

其中,任务调控策略为将所述资源的离线下载任务分配给当前负载权值

其中,负载权值为:k1*cpu使用量+k2*磁盘余量+k3*内存余量+ k4*带

最小的离线下载服务器。

宽资源,该k1为cpu使用量对应的权值,k2为磁盘余量对应的权值,

其中,根据需要离线下载的资源的网络属性确定所述资源所归属的网络

运营商之前,还包括:获取所述需要离线下载的资源的消重特征,所述消重

特征是指所述资源的身份标识且其根据所述资源的URL、大小和内

成;判断所述需要离线下载的资源的消重特征是否与全局消重

经离线下载的资源的消重特征相同,以及所述需要离线

经离线下载的资源之间的时间间隔是否小于设定

储有已经离线下载的资源的消重特征;如

定时间值,则不下载所述需要离线

载的资源的离线下载任务。

k3为内存余量对应的权值,所述k4为带宽资源对应的权值。

容片段生

表中存储的已

下载的资源和所述已

时间值,所述全局消重表存

果消重特征相同且时间间隔小于设

下载的资源;否则,建立所述需要离线下

其中,所述消重特征通过下列步骤生成:提取所述资源的头100k内容、

依本发明的一个方面,提供了一种资源离线下载装置,其包括:网络运

营商确定模块,适于根据需要离线下载的资源的网络属性确定所述资源所归

属的网络运营商;离线下载服务器选择模

中间随机位置100k内容、尾部100k内容作为资源的内容片断;将所述资源

的URL、资源大小与所述内容片断拼接成字符串;对所述字符串进行MD5

计算以得到所述消重特征。

块,适于根据设定的任务调控策略, 从所述网络运营商的离线下载服务

述离线下载服务器用于对资

源的离线下载任务分

器集群中选择离线下载服务器,其中,所

源进行离线下载;任务执行模块,适于将所述资

配给所选择的离线下载服务器以进行离线下载。

其中,所述网络运营商确定模块包括:第一获取模块,适于获取与所述

资源的统一资源定位符URL对应的域名信息,并解析出与所述域名信息对

的IP地址;第二获取模块,适于根据与所述域名信息对应的IP地址

据库以获取与所述IP地址对应的网络运营商并将其确定为所

的网络运营商,所述数据库存储有网络运营商及其IP

查询数

述资源所归属

地址。

其中,所述任务调控策略为将所述资源的离线下载任务分配给当前负载

其中,负载权值为:k1*cpu使用量+k2*磁盘余量+k3*内存余量+ k4*带

权值最小的离线下载服务器。

宽资源,该k1为cpu使用量对应的权值,k2为磁盘余量对应的权值,

其中,消重处理模块,适于获取所述需要离线下载的资源的消重特征,

所述消重特征指所述资源的身份标识且其根据所述资源的URL、大小和内

片段生成;判断所述需要离线下载的资源的消重特征是否与全局消重

储的已经离线下载的资源的消重特征相同,以及所述需要离线

所述已经离线下载的资源之间的时间间隔是否小于设定

重表存储有已经离线下载的资源的消重特征;如

小于设定时间值,则不下载所述需要离线

离线下载的资源的离线下载任务。

k3为内存余量对应的权值,k4为带宽资源对应的权值。

表中存

下载的资源和

时间值,所述全局消

果消重特征相同且时间间隔

下载的资源;否则,建立所述需要

其中,该装置还包括消重特征生成模块,其包括:提取单元,适于提取

所述资源的头100k内容、中间随机位置100k内容、尾部100k内容作为资

的内容片断;拼接单元,适于将所述资源的URL、资源大小与所述

拼接成字符串;计算单元,适于对所述字符串进行MD5计算。内容片断

由本发明的解决方案,具有以下有益效果:

本发明通过分析离线下载资源的网络属性并确定资源归属的网络运营

商,并根据任务调控策略,将任务分配到不同网络属性集群中的离线下载服

务器进行处理,避免了跨运行商下载速度慢的缺陷,显著提高了离线

度、降低离线下载服务器压力,提高了服务器处理能力。并且,

略依据负载调控技术,将任务发送到负载最小的机器上处理,

源的最大利用率。

下载速

任务调控策

从而达到了资

本发明还基于资源特征的消重策略,对同一网络地址url的资源进行消

重,即一个url被下载保存到服务器后则其他相同的url的请求将会直接成

不必再重新下载保存一次,避免了相同资源的重复下载,降低了服务

提高了服务器有效响应能力。

功,

器压力,

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所

需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发

明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳

提下,还可以根据这些附图获得其他的附图: 动的前

图1为现有技术中离线下载服务器的工作原理图;

图2为依据本发明一个实施例的资源离线下载方法的流程图;

图3为依据本发明一个实施例的资源离线下载方法的流程图;

图4为依据本发明一个实施例的资源离线下载装置的结构示意图;

图5为依据本发明一个实施例的资源离线下载装置的结构示意图;

图6为依据本发明一个实施例的资源离线下载装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示

了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不

应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更

理解本发明,并且能够将本发明的范围完整的传达给本领域的

透彻地

技术人员。

图2为依据本发明一个实施例的资源离线下载方法的流程图,其包括:

步骤21:根据需要离线下载的资源的网络属性确定所

营商;步骤22:根据设定的任务调控策略,从

务器集群中选择离线下载服务器,其中,

行离线下载;步骤23:将所述资

服务器以进行离线下载。

述资源所归属的网络运

所述网络运营商的离线下载服

所述离线下载服务器用于对资源进

源的离线下载任务分配给所选择的离线下载

由此可知,依据此实施例的技术方案进行资源离线下载时,首先根据需

要离线下载的资源的网络属性确定其所归属的网络运营商,也就是确定要离

线下载的资源属于哪个网络运营商。在确定好网络运营商之后,根据

任务调控策略,从所确定的网络运营商的离线下载服务器集群

载服务器。选择好离线下载服务器之后,就可以将该资

配给该离线下载服务器,由该离线下载服务器对

本方案中所确定的网络运营商正是需要离

商,所以避免了跨网络运营商进行下载的

运行商下载该资源可以显著提高离

力。

设定的

中选择离线下

源的离线下载任务分

该资源进行离线下载。由于

线下载的资源所归属的网络运营

问题。而且,从资源所归属的网络

线下载的速度,降低离线下载服务器的压

依据本发明的一个实施例,根据需要离线下载的资源的网络属性确定所

获取与所述资源的统一资源定位符URL对应的域名信息,并解析出与所

根据与所述域名信息对应的IP地址查询数据库以获取与所述IP地址对

在本实施例中,是根据资源的URL获取与该URL对应的域名信息,根

据域名信息可以解析出与该域名信息对应的IP地址。由于在数据库中存储

网络运营商及其IP地址的信息,因此,根据IP地址就可以在数据库

到与该IP地址对应的网络运营商,从而可以得到该资源所对

商。当然,对于网络运营商的确定还可以采用本领域现

的任何方式。

应的网络运营商并将其确定为所述资源所归属的网络运营商,所述数据库存

储有网络运营商及其IP地址。

述域名信息对应的IP地址;

述资源所归属的网络运营商可以进一步包括:

中查找

应的网络运营

在已知或者将来已知

对于任务调控策略而言,也就是如何对离线下载任务进行分配,分配给

哪个离线下载服务器。依据本发明的一个实施例,任务调控策略是将所述资

源的离线下载任务分配给当前负载权值最小的离线下载服务器。

其中,所述负载权值可以采用下列公式来计算:

负载权值=k1*cpu使用量+k2*磁盘余量+k3*内存余量+k4* 带宽资源,其

k3为中,k1为cpu使用量对应的权值,k2为磁盘余量对应的权值,

内存余量对应的权值,k4为带宽资源对应的权值。

依据本发明的一个实施例,在所述根据需要离线下载的资源的网络属性

获取所述需要离线下载的资源的消重特征,所述消重特征是指所述资源

判断所述需要离线下载的资源的消重特征是否与全局消重表中存储的已

经离线下载的资源的消重特征相同,以及所述需要离线下载的资源和所述已

经离线下载的资源之间的时间间隔是否小于设定时间值,所述全局消

储有已经离线下载的资源的消重特征;

的身份标识且其根据所述资源的URL、大小和内容片段生成;

确定所述资源所归属的网络运营商之前,该实施例还包括:

重表存

如果消重特征相同且时间间隔小于设定时间值,则不下载所述需要离线

简言之,该实施例是对需要离线下载的资源进行消重处理,避免重复下

消重处理涉及全局消重和局部消重两方面。

载的问题。

下载的资源;否则,建立所述需要离线下载的资源的离线下载任务。

全局消重:对所有用户可见,可以避免下载其他用户已经下载过的资源

(即用以确定请求下载的资源是否已经被下载而避免重复下载增加服务器压

力)。具体而言,如果一个资源已被某个人下载完,则该资源的消重特征可

以记录到一个全局可见的表,如全局消重表,之后所有其他人在下载资源时,

都可以使用所要下载的资源的消重特征去查询该全局可见的表(如,

重表),若发现资源已存在,则不必重复下载。 全局消

其中,消重特征可以指该资源的身份标识。可以认为,消重特征相同的

多个资源,其内容是相同的。可以在未获取资源全部内

具有相同的资源。例如本地保存了文件A,并且

络下载一个文件资源,但是不知道是否就

来才发现和本地文件A相同,这样就消

重特征,就不必下载完该文件资源

同文件,从而能够防止重复

容时,查看本地是否

文件比较大,这时又要从网

是文件A,如果把文件全部下载下

耗了较大的资源。通过比对资源的消

的所有内容,就能够知道本地是否存在相

下载。

具体而言,全局消重表是一个key-value结构。其中,key即消重特征,

可以包括资源地址(URL),资源大小与资源特征(如资源内容片段)。而

value值固定为1,用于表示此key在全局消重表中存在,且该资源已经被

载并存在。当用户提交一个离线下载任务(用户提交的任务可以用离

请求来体现)时,会由该任务对应的资源的资源地址,资源大

拼接成一个字符串,以此字符串做为key,并在全局消

匹配的资源是否存在,如果存在,则进行消重,即不真

源,直接提示用户下载成功,并使用之前已经离

源来满足用户的需求;如果不存在,则全

这时可以真实下载用户所需的资源,

新全局消重表,在全局消重表中添

线下载

小与资源特征

重表中查找与该key

实下载用户所需的资

线下载的与该资源相同的资

局消重失败(或者说无需全局消重),

并在下载完成时,基于该下载的资源更

加该资源的消重特征,后续若需要离线下 载与该消重特征相匹配的资

完成后才添加到全局

不受另一个用

在下载

源时则无需真实下载。消重特征在资源实际下载

消重表,这样保证了一个用户对一个资源的下载任务,

户对该同一个资源的下载任务的失败的影响。例如:第一用户

一资源时,就将消重特征放入全局消重表,第二用户也请求下载该同

(第

一资源则会因为在全局消重表中已经存在该资源,不为第二用户真实下载

二用户本地获取)。一旦第一用户下载失败,则第二用户必然会下载

失败。

例如,根据用户请求的一个用户下载资源A的离线下载任务,根据该离

线下载任务获取该资源A的URL、大小和内容片段,并根据该资源A的

大小和内容片段生成消重特征key(字符串),基于该消重特征

消重表中查询与该key相匹配的资源,如,查询与该key相同

全局消重表中查询到该key’,则表示资源A已经被下

源A,若未查询到该key’,则表示资源A未被

以供用户使用。

URL、

key在全局

的key’,若在

载过,无需再次下载资

下载过,则需要下载资源A,

局部消重:只对个人可见,可以避免个人反复提交任务造成重复下载。

在有全局消重的情况下,还需要局部消重的原因是只有在该资源的下载任务

成功完成后,才会将相应的信息(消重特征)存在于全局消重表中,即

源被完全下载完成之后,该资源的消重特征才会被添加到全局消重表

以,在文件未下载完成之前,一旦同一用户反复提交一个相同

用以下载相同的资源(即反复提交多个相同的请求同一

如果没有局部消重,也会导致资源被多次下载,

率。局部消重不使用资源的消重特征进行

消重,如果同一用户提交相同的

一资

中。所

的URL地址,

个资源的下载任务),

加大服务器压力影响下载效

消重,而是直接使用URL地址进行

URL地址,则进行消重。

一种方式,可以在进行全局消重之前进行局部消重。具体而言,可以预

先为每个用户分配一个唯一用户标识,利用用户标识和资源地址(URL)来

限定一个用户的下载任务,并根据用户标识和资源地址查找该用户是否具有

相同的下载任务,也即是说,可以在接收用户离线下载任务的服务器

任务服务器)中查询用户任务表,使用该用户标识和资源的URL作为

在用户任务表中查找该用户是否已经提交了相同的下载任务,

对于该用户存在相同的任务),表示该用户对此资源的

则返回任务存在信息给用户,否则(即该任务不

(如,

关键字,

如果找到(即,

下载任务已经存在,

存在)再进行全局消重。

例如,第一用户和第二用户同时离线下载/资源,这

时第一用户和第二用户都有一个对应此该资源的下载任务,在下载任务未完

成之前,即(资源被离线下载到离线服务器之前),全局消重表中不会

资源的消重特征,当然,这样第二用户的下载任务失败不会影响第一

此资源的下载。没有局部消重时,若第一用户多次提交下载该

务,那么在用户任务表中会出现多个相同的对应于该用

用户多次的提交此下载任务,就会造成第一用户

相同资源的任务。而一旦进行局部消重,

资源的问题,防止增加服务器压力。

有此

用户对

资源的下载任

户的下载任务,第一

在用户任务表中有很多请求

则可以避免同一用户多次下载同一

另一种方式,也可以在全局消重之后,执行局部消重。

对于消重特征的生成,依据本发明的一个实施例,可以包括:提取所述

资源的头100k内容、中间随机位置100k内容、尾部100k内容作为资源的

容片断;将所述资源的URL、资源大小与所述内容片断拼接成字符

述字符串进行MD5计算以得到所述消重特征。例如:URL为 串;对所

/,可以获取该URL对应的资源大小5000,资源

(100k字节数据)、中间(100k字节数据)及尾部ccc(100k字

对应的三个资源片段,则消重特征为MD5为:

头部

节数据)

/.”。

图3是依据本发明的一个实施例的资源离线下载方法的流程图。

在此实施例中,进一步会包括对下载请求进行消重处理等,该消重处理

在该实施例中,首先,根据来自用户的下载请求,对要下载的资源进行

步骤S001,接收用户发送的离线下载请求。

步骤S002,对要下载的资源进行URL解析和验证,获取所述资源的统

一资源定位符URL对应的域名信息,通过域名系统DNS解析出所述域名信

息对应的IP地址,并发出验证请求(如验证是否有该IP、是否该IP正确等)。

如果步骤S002中的该验证失败,则发出验证失败消息,通知用户,

S004。

解析验证,从而确定归属的网络运营商,而在最后确定之前还采用消重处理,

避免相同资源的重复下载以降低服务器压力、提高服务器响应能力。

包括全局消重和局部消重。其中请求下载的资源可以是请求下载的网络资源,

或者说网络上能下载的内容,诸如:游戏、软件、音乐、文本等等。

如步骤

如果步骤S002中的验证通过,则返回所述资源文件名,资源大小以及

目标域名,并进入下一步,即步骤S003。

在步骤S003处,可以对用户进行验证,如用户身份的验证等,如果用

户验证失败,则发出验证失败消息,通知用户,如到步骤S004。如果用户

证通过,则可以对URL进行全局消重和局部消重(在一个实施例中,

可以先进行全局消重再进行局部消重),进一步地,若用户验

入步骤S005。

对URL

证通过,则进

步骤S005,判断是否对URL进行全局消重。如果判断为“是”,意味

URL的网络资源已经被其他用户下载过即已经存在,则取消下载请求,

步骤S006,判断是否需要进行局部消重。如果判断需要局部消重(该用

步骤S007创建的任务,将发送到相应的离线下载服务器集群去,即找

(资

所述

如步骤S011。如果不需要进行全局消重,即判断为“否”,则进入到步骤

S006。

户提交重复的请求),即“是”,则进入步骤S011,取消下载请求,并通知

用户任务已经进行中。如果判断所述的URL不需要进行局部消重(当然也不

需要全局消重),即步骤S006的判断也为“否”,则对于该下载请求,任

务服务器创建任务,如步骤S007。创建任务的初始状态为“任务排队中”。

到资源归属的网络运营商。如步骤S008,就是去确定离线下载服务器集群

源归属的网络运营商)。各网络运营商及其对应的IP地址可以预先存

据库中(如IP库)。而在前述步骤S002,对下载请求进行所述

资源定位符URL解析所获得的该URL对应的域名信息DNS、

该DNS解析得到的该DNS对应的IP地址。则在步骤

名信息DNS对应的该IP地址查询所述数据库预

运营商),获取与所述IP地址对应的网络运营商,

述资源所归属的网络运营商(比如网通,电信,

获取该网络运营商对应的离线下载服务器集群号,

储到数

资源的统一

并进而通过对

S008,能根据所述域

先存储的信息(IP与对应的

将该网络运营商确定为所

教育网,移动等等),进而

并确定离线下载服务器集

而言,可以预先设置一个离

群中的一个离线下载服务器执行下载任务。具体

线下载服务器集群与网络运营商的对应表。

服务器集群,网通对应2,4号离线下载

信时,从电信对应的离线下载服务

务器执行离线下载任务,也

个离线下载服务器。

例如,电信对应3,5号离线下载

服务器集群,当资源的网络属性为电

器集群号中可以随机选出一个离线下载服

可以按照一定的规则(如,最小负载等)选择一

在根据需要离线下载的资源的网络属性来确定所述资源所归属的网络运

这样,在步骤S005中,获取所述用户请求的、需要离线下载的资源的

营商之前,还可以获取已经离线下载的资源的消重特征,将所述已经离线下

载的资源的消重特征存储在全局消重表中。

消重特征,进行是否进行全局消重的判断时,判断所述

的消重特征是否和所述全局消重表中存储的已经

相同,当然,还可以同时在此判断所述需

下载的资源之间的时间间隔是否小

消重特征的时效性进行说明)。如

线下载的资源的请求即步骤S011。

线下载任务即步骤S007。

需要离线下载的资源

离线下载的资源的消重特征

要离线下载的资源和所述已经离线

于设定的时间值(时间值将在下面描述的

果判断为“是”,则取消下载所述需要离

否则,建立所述需要离线下载的资源的离

利用该全局资源消重的处理(称为全局消重策略),避免重复下载对服

成的压力,其主要利用前述的消重特征实现。消重特征可以根据所述

务器造

资源的URL、大小和内容片段生成。比如:可以提取资源的头100k内容,

中间随机位置100k内容,尾部100k内容作为资源内容的片段,结合资源

以及资源大小拼接成一个字符串,再将该字符串生成一个MD5特征

一个例子:用户需要下载的资源所对应的URL为

URL

值。举

/,可以

中间及尾部对应的三个资源片段,

获取该URL对应的资源大小,资源头部、

如,资源大小为5000,片段头部:

字节数据),尾部:ccc(100k字节(100k字节数据),中间:(100k

数据),则消重特征为

md5(“/.”),进一步地,可以通

header请求获取URL对应的资源大小,可以通过http的range

的部分内容。当MD5特征值已经存在于全局消重表中,

重而不必再重复下载。

过http的

协议获取资源

则对其进行全局消

在对资源进行消重时,可以只对属于类型白名单中的资源类型的资源进

行消重。进一步地,资源类型可以是被请求资源的文件类型。该文件类型还

可以根据扩展名判断,例如,图片类型,扩展名可以为.jpg,gif等。

白名单中的资源类型,可以是很少被修改的资源的类型,比如

软件程序等。

处于类型

图片、视频、

在一个实施例中,消重特征可以有时效性,例如其有效期可以设为一周

(此处仅举例说明,并非对本发明进行限制),过期后,消重的资源需要重

新下载。对于消重特征的有效性,可以通过全局消重表来实现,具体而言,

当获取了已经离线下载的资源的消重特征,就可将所述已经离线下载

的消重特征存储在全局消重表中,

期后,可以释放全局消重表

局消重的判断时,除了对消

线下载的资源和所述

间值,该时间

重的处

的资源

并对全局消重表进行更新,当消重特征过

中的该消重特征。而在前述在步骤S005进行全

重特征进行对比判断,若还同时判断所述需要离

已经离线下载的资源之间的时间间隔是否小于设定的时

值即有效周期,就能更快、更有效地确定,是否需要做全局消

理。

步骤S009,可以基于所述离线下载服务器集群中离线下载服务器的负载

进行动态任务调控,并选择所指定的离线下载服务器,即能确定分配该任务

的离线下载服务器。

在通过步骤S009选择集群中的离线下载服务器时,可以将离线下载异

动态任务调控以确定要将任务分配给集群中的哪个离线下载服务器,例

负载权值=k1*cpu使用量+k2*磁盘余量+k3*内存余量+k4*

权运算;

其中K为各项计算机资源所占权值,离线下载服务主要依赖磁盘资源,

离线下载任务被分配给所述指定的离线下载服务器后,由该离线下载服

务器(如其离线下载工作进程worker)执行离线下载。具体而言,离线下载

任务首先进入任务队列等待阶段,离线下载服务器的离线下载工作进程

worker依次获得任务队列中的任务,进而可以根据获得的任务,通知相应

用户集群(如,通知发送离线下载请求的用户),并修改任务状态为

中”。

所以采用的权值可以为k2=5;k1=k3=k4=1。

带宽资源做加

如:任务可以被提交到如图4所示的某一离线下载服务器集群44或45后,

离线下载服务器集群44或45中的任务调度器(未图示出)会将任务分配到

当前负载权值最小的线上机器上去处理。负载权值的计算公式为:

步消息发送到对应的离线下载服务器集群,进而,离线下载任务可以进入相

应的任务队列,等待任务的执行。

“下载

步骤S010,离线下载的任务分配到了上述步骤S009确定的离线下载服

务器之后,所述指定的离线下载服务器接收到分配过来的任务,则开始执行

离线下载任务。此后,如果下载成功则将

下载的内容(如“图片”等)保存

保存成功后,将下载结果参数

到数据库中(如非关系型数据库cassandra),

设置为“成功”并发送离线下载反馈异步消

面元信息(meta信息),可以更新任务状态

败或者保存失败,则将下载结果参数设置

离线下载反馈异步消息到对应的用户集群,

可以更新任务状态为“下载失败”。

息到对应的用户集群,并修改页

为“下载完成”;而如果下载失

为“失败”并记录失败原因后发送

并修改页面元信息(meta信息),

图4为本发明一具体实施方式的资源离线下载装置的结构图。

图4的装置中包括任务服务器41、消息服务器42、全局消重装置43、

任务服务器41可以根据需要离线下载的资源的网络属性,确定所述资源

所归属的网络运营商。其接收用户的请求,查询全局消重表用以判断是否进

行全局消重,如果资源未消重则会向消息服务器42发送一条下载消

内容可以包括资源URL地址、步骤S008确定的目标离线下载

等。该任务服务器41主要用来处理用户请求,解析资

息和离线下载服务器集群号,以便确定离线下载

离线下载服务器集群44、45,以及离线下载服务器集群44、45中的任务调

度器(未示出)、离线下载服务器(未示出)、离线下载服务器中的Storm

分布式计算平台(未示出)、云存储(未示出)等。

息,消息

服务器集群号

源URL,获得任务信

集群。

具体而言,任务服务器41先会将各种网络运营商和各网络运营商分别对

应的IP地址进行关联存储。该任务服务器41首先解析出资源URL对应的

名信息、并通过DNS解析获得域名对应的IP信息。而后能利用该IP

IP信息库中查询对应的网络运营商(网通、电信、教育网、移

计算出具有相同运营商的离线下载集群号。该任务服务器41

骤S001-S003中的操作,接收到用户发送的下载请求、

信息在

动等)。并且

可执行图3中步

URL解析和验证、用

如步骤S004的操作。当

户验证,其中,任一验证未通过则表明验证失败,

验证都通过时,那么判断是否进行URL消重,

当确定资源可以消重则执行步骤S011,

载,则

全局资

创建离

如步骤S005、S006的操作,

即取消下载请求,对该资源不进行下

利用该系统中的全局消重表43进行消重操作(消重策略如上述介绍的

源消重策略)。而若不需要消重,即步骤S005、S006都为否时,则

线下载资源的任务,如步骤S007,并将该离线下载资源的任务发到系

全局消重装置43,执行全局资源消重策略,如上述图3描述的方法所述。

统中的消息服务器42。

在根据需要离线下载的资源的网络属性来确定所述资源所归属的网络运营商

之前,还可以获取已经离线下载的资源的消重特征,将所述已经离线

资源的消重特征存储在全局消重表中。还可以获取所述需要离

的消重特征。判断所述需要离线下载的资源的消重特征

表中存储的已经离线下载的资源的消重特征相同,

载的资源和所述已经离线下载的资源之间的时间

值,如果是,则不下载所述需要离线下载的资源

述需要离线下载的资源的离线下载任务即

特征根据所述资源的URL、大小

以根据获取的下载后的资源

以位于该全局消重装

应的实施步骤。

下载的

线下载的资源

是否和所述全局消重

并且判断所述需要离线下

间隔是否小于设定的时间

即步骤S011。否则,建立所

步骤S007。其中,所述资源的消重

和内容片段而生成。并且在后面下载完后可

的消重特征来更新该全局消重表。全局消重表可

置43中,由该消重装置执行上述全局资源消重策略及相

该消息服务器42,可以接收来自所述任务服务器的信息、离线下载任务

并处理相应的信息,以及发送所述信息、离线下载任务以及所述信息到相应

的离线下载服务器集群。也就是将接收的各种消息、信息和各个任务

相应的离线下载服务器集群(如按集群号分发),实现转发消息分发到

的操作,其

如转发到目标

接收来自任务服务器41的消息、再将其发送到正确的目的地,

离线下载集群。

图4中示出了两个离线下载服务器集群(例如网通对应的离线下载服务

器集群44和电信对应的离线下载服务器集群45),本领域技术人员应该可

以推断出,本发明离线下载服务器集群的数据可以不限于此,即离线下载服

务器集群可以包含多个离线下载服务器,进一步地,每个离线下载服

以包括Storm平台、云存储,该Storm平台可以用于下载目标

可以用于存储资源信息。离线下载服务器集群44、45,

策略,从所述确定的

务器,并将所

务器可

资源,云存储

根据设定的任务调控

网络运营商的离线下载服务器集群中,选择离线下载服

述资源的离线下载任务分配给所述离线下载服务器。

其中,消息服务器42根据离线下载服务器集群号将创建的任务发送至相

应的离线下载服务器集群,如步骤S008的操作。各离线下载服务器集群中

的每一个离线下载服务器还可以包括一个Storm分布式计算平台(未示出)。

Storm分布式计算平台是分布式的、容错的实时计算系统。为分布式实时计

算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据

库。Storm也可被用于“连续计算”(continuous computation),对数据流做连

续查询,在计算时就将结果以流的形式输出给用户。云存储可以存储离线下

载的网络资源,用户可以通过访问云存储空间访问离线下载的网络资

源。

任务调控策略包括一个或多个任务调度策略,离线下载服务器集群根据

所述一个或多个任务调度策略,将所述资源的离线下载任务分配给到当前负

载最小的离线下载服务器。离线下载服务器集群中,具有任务调度器,

所述网络运营商的离线下载服务器集群中设置进行离线下载任务分配。

而言,所述资源的离线下载任务被发送给所述任务调度器,该任务调

其在

具体

度器, 根据所述任务调度策略,计算各个离线下载服务器的负载权值,

权值最小的离线下载服务器指定为所述任务的离线下载服务器。将当前负载

将分配到该离线下载集群中的离线下载任务分配给任务调度器。该任务

调度器根据该集群中的各个离线下载服务器的资源使用情况,再将任务分配

到当前负载权值最小的线上机器(离线下载服务器)上处理,以便如步

执行下载任务。负载权值的计算公式为: 骤S010

负载权值=k1*cpu使用量+k2*磁盘余量+k3*内存余量+k4*

权运算;

带宽资源做加

其中K为各项计算机资源所占权值,离线下载服务主要依赖磁盘资源,

图5为依据本发明一实施例的资源离线下载装置的结构图。该装置可以

包括网络运营商确定模块51,用于根据需要离线下载的资源的网络属性确

所述资源所归属的网络运营商;离线下载

的任务调控策略,从所述网络运营

线下载服务器;任务执行模

选择的离线下载服务

的处理步骤的

所以采用的权值可以为k2=5;k1=k3=k4=1。

服务器选择模块52,用于根据设定

商的离线下载服务器集群中选择指定的离

块53,用于将所述资源的离线下载任务分配给所

器以进行离线下载。上述模块是对应于图2、3所示方法

功能模块。

进一步地,网络运营商确定模块51可以将各种网络运营商和各种网络运

营商分别对应的IP地址进行关联存储,获取所述资源的统一资源定位符

对应的域名信息,通过域名系统DNS解析出所述域名信息对应的IP

一获取模块);根据所述域名信息对应的IP地址查询所述关联

URL

地址(第

存储的信息, 获取所述域名信息对应的IP地址对应的网络运营商,

所述资源所归属的网络运营商(第二获取模块)。

包括第一、第二获取模块(未示出)。

将该网络运营商确定为

网络运营商确定模块51

离线下载服务器选择模块52可以根据一个或多个任务调度策略,将所述

资源的离线下载任务分配给到当前负载最小的离线下载服务器,即选择离线

下载服务器集群中当前负载最小的离线下载服务器。进一步地,可以

所述网络运营商的离线下载服务器集群中设置进行离线下载任

调度器(如图4中提到的Storm分布式计算平台中的调

的离线下载任务分配给所述任务调度器,通过所述任务

络运营商的离线下载服务器集群中的各个离线下

计算得到各个离线下载服务器的负载权值,

最小的离线下载服务器确定为所述指定的

选择模块52,具体用于通过所述

权值的公式如下:

用于在

务分配的任务

度器),将所述资源

调度器,根据所述网

载服务器的资源使用情况,

通过所述任务调度器将负载权值

离线下载服务器。离线下载服务器

任务调度器计算各个离线下载服务器的负载

负载权值=k1*cpu使用量+k2*磁盘余量+k3*内存余量+k4*

带宽资源;

所述k1为cpu使用量对应的权值,所述k2为磁盘余量对应的权值,所

图6是依据本发明的一个实施例的资源离线下载装置的结构图。在该装

各个模块也是对应图2、3所示方法的执行步骤的功能模块。

置中可以包括消重处理的模块61、网络运营商确定模块62、离线下载服务

选择模块63、任务执行模块64。

述k3为内存余量对应的权值,所述k4为带宽资源对应的权值。

如图6所示。此装置可以对应上述方法中关于消重处理策略的功能及实

施。其包括:消重处理模块61,可以用于获取将要离线下载的资源的消重

征,并判断所述离线下载的资源是否需要进行消重(在进行网络运营

之前,即网络运营商确定模块62的处理之前进行处理的模块)。商确定

网络运营商确定模块62,可以用于根据需要离线下载的资源的网络属性

离线下载服务器选择模块63,用于根据设定的任务调控策略,从所述网

任务执行模块64,用于将所述资源的离线下载任务分配给所选择的离线

进一步,消重处理模块61将所述已经离线下载的资源的消重特征存储在

全局消重表中,所述资源的消重特征可以根据所述资源的URL、大小和内

片段而生成。消重处理模块61获取所述需要离线下载的资源的消重

判断所述需要离线下载的资源的消重特征是否和所述全局消重

经离线下载的资源的消重特征相同,并且所述需要离线

经离线下载的资源之间的时间间隔小于设定的时

述需要离线下载的资源;否则,建立所述

务。

下载服务器以进行离线下载。

络运营商的离线下载服务器集群中选择指定的离线下载服务器。

确定所述资源所归属的网络运营商。

特征;并

表中存储的已

下载的资源和所述已

间值,如果是,则不下载所

需要离线下载的资源的离线下载任

进一步,全局消重表中的消重特征可以是提取所述资源的头部100k内容,

中间随机位置100k内容,尾部100k内容作为资源的内容片断,将所述资源

的URL、资源大小与资源内容片断拼接成一个字符串,对所述字符串做消

摘要算法第五版(MD5)计算得到。

该全局资源消重策略,依赖于上述完整的查重规则,保证消重的url对

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固

有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,

构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任

编程语言。应当明白,可以利用各种编程语言实现在此描述的

并且上面对特定语言所做的描述是为了披露本发明的最

应的资源是一致的或不一致的概率在可容忍的范围内。

何特定

本发明的内容,

佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个

或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时

被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将

的方法解释成反映如下意图:即所要求保护的本发明要求比在

中所明确记载的特征更多的特征。更确切地说,如下面

的那样,发明方面在于少于前面公开的单个实施

具体实施方式的权利要求书由此明确地并

要求本身都作为本发明的单独实施

发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未

详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

该公开

每个权利要求

的权利要求书所反映

例的所有特征。因此,遵循

入该具体实施方式,其中每个权利

例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自

适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以

把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及

以把它们分成多个子模块或子单元或子组件。除了这样的特征

单元中的至少一些是相互排斥之外,可以采用任何组合

随的权利要求、摘要和附图)中公开的所有特征以及如

者设备的所有过程或单元进行组合。除非另外明

随的权利要求、摘要和附图)中公开的每个特征

似目的的替代特征来代替。

此外可

和/或过程或者

对本说明书(包括伴

此公开的任何方法或

确陈述,本说明书(包括伴

可以由提供相同、等同或相

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其

它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组

合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下

利要求书中,所要求保护的实施例

用。

面的权

的任意之一都可以以任意的组合方式来使

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理

器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当

理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现

本发明实施例的设备中的一些或者全部部件的一些或者全部功能。本

可以实现为用于执行这里所描述的方法的一部分或者全部的设

程序(例如,计算机程序和计算机程序产品)。这样的实现本发

以存储在计算机可读介质上,或者可以具有一个或者多个信号

的信号可以从因特网网站上下载得到,或者在载体信号

其他形式提供。

根据

发明还

备或者装置

明的程序可

的形式。这样

上提供,或者以任何

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,

并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换

实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利

要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。

于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明

以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来

在列举了若干装置的单元权利要求中,这些装置中的若干个可

个硬件项来具体体现。单词第一、第二、以及第三等的

可将这些单词解释为名称。

实现。

以是通过同一

使用不表示任何顺序。

本发明公开了A1、一种资源离线下载方法,其包括:根据需要离线下载

的资源的网络属性确定所述资源所归属的网络运营商;根据设定的任务调控

策略,从所述网络运营商的离线下载服务器集群中选择离线下载服务

中,所述离线下载服务器用于对资源进行离线下载;将所述资

任务分配给所选择的离线下载服务器以进行离线下载。

法,其中,所述根据需要离线下载的资源的网络属性确

网络运营商,进一步包括:获取与所述资源的统

名信息,并解析出与所述域名信息对应的

的IP地址查询数据库以获取与所

器,其

源的离线下载

A2、如A1所述的方

定所述资源所归属的

一资源定位符URL对应的域

IP地址;根据与所述域名信息对应

述IP地址对应的网络运营商并将其确定为

所述资源所归属的网络运营商,所述数据库存储有网络运营商及其IP地址。

A3、如A1或A2所述的方法,其中,所述任务调控策略为将所述资

线下载任务分配给当前负载权值最小的离线下载服务器。A4、

方法,其中,所述负载权值为:k1*cpu使用量+k2*磁盘余量

存余量+k4*带宽资源,其中,所述k1为cpu使用量对应的权

为磁盘余量对应的权值,所述k3为内存余量对应的权值,所

源对应的权值。A5、如A1至A4任一项所述的方法,

要离线下载的资源的网络属性确定所述资源所归

括:获取所述需要离线下载的资源的消重

的身份标识且其根据所述资源的

离线下载的资源的消重特征

的消重特征相同,以

源的离

如A3所述的

+k3*内

值,所述k2

述k4为带宽资

其中,在所述根据需

属的网络运营商之前,还包

特征,所述消重特征是指所述资源

URL、大小和内容片段生成;判断所述需要

是否与全局消重表中存储的已经离线下载的资源

及所述需要离线下载的资源和所述已经离线下载的资源 之间的时间间

的资源隔是否小于设定时间值,所述全局消重表存储有已经离线下载

的消重特征;如果消重特征相同且时间间隔小于设定时间值,则不下

载所述需要离线下载的资源;否则,建立所述需要离线下载的资源的离线下

载任务。A6、如A5所述的方法,其中,所述消重特征通过下列步骤

提取所述资源的头100k内容、中间随机位置100k内容、尾部

资源的内容片断;将所述资源的URL、资源大小与所

串;对所述字符串进行MD5计算以得到所述消

生成:

100k内容作为

述内容片断拼接成字符

重特征。

本发明还公开了B7、一种资源离线下载装置,其包括:网络运营商确定

模块,适于根据需要离线下载的资源的网络属性确定所述资源所归属的网络

运营商;离线下载服务器选择模块,适于根据设定的任务调控策略,

网络运营商的离线下载服务器集群中选择离线下载服务器,其

下载服务器用于对资源进行离线下载;任务执行模块,

线下载任务分配给所选择的离线下载服务器以进

述装置,其中,所述网络运营商确定模块进一步

获取与所述资源的统一资源定位符URL

名信息对应的IP地址;第二获取

地址查询数据库以获取与所

从所述

中,所述离线

适于将所述资源的离

行离线下载。B8、如B7所

包括:第一获取模块,适于

对应的域名信息,并解析出与所述域

模块,适于根据与所述域名信息对应的IP

述IP地址对应的网络运营商并将其确定为所述

资源所归属的网络运营商,所述数据库存储有网络运营商及其IP地址。B9、

如B7或B8所述的装置,其中,所述任务调控策略为将所述资源的

任务分配给当前负载权值最小的离线下载服务器。B10、如

其中,所述负载权值为:k1*cpu使用量+k2*磁盘余量

k4*带宽资源,其中,所述k1为cpu使用量对应的权值,

量对应的权值,所述k3为内存余量对应的权值,所述

权值。B11、如B7至B10任一项所述的装置,

离线下载

B9所述的装置,

+k3*内存余量+

所述k2为磁盘余

k4为带宽资源对应的

其中,还包括:消重处理模块,

重特征,所述消重特征指所述资源

适于:获取所述需要离线下载的资源的消

的身份标识且其根据所述资源的

离线下载的资源的消重特征

的消重特征相同,以

之间的时间间

的资源

URL、大小和内容片段生成;判断所述需要

是否与全局消重表中存储的已经离线下载的资源

及所述需要离线下载的资源和所述已经离线下载的资源

隔是否小于设定时间值,所述全局消重表存储有已经离线下载

的消重特征;如果消重特征相同且时间间隔小于设定时间值,则不下

载所述需要离线下载的资源;否则,建立所述需要离线下载的资源的离线下

载任务。B12、如B11所述的装置,还包括消重特征生成模块,其包

取单元,适于提取所述资源的头100k内容、中间随机位置

100k内容作为资源的内容片断;拼接单元,适于将所

小与所述内容片断拼接成字符串;计算单元,适

计算。

括:提

100k内容、尾部

述资源的URL、资源大

于对所述字符串进行MD5