2024年4月23日发(作者:)

第29卷第5期 

2012年5月 

计算机应用研究 

Application Research of Computers 

Vol_29 No.5 

Mav 2012 

互联网五种典型应用的平均包长概率分布研究术 

杜锡寿 ,陈庶樵 ,张建辉 ,马润华 

(1.国家数字交换系统工程技术研究中心,郑州450002;2.海军92564部队,广东汕头515064) 

摘要:作为流量识别的一个重要手段,深度流检测使用的统计特征中屡屡包含包长信息。从互联网五种典型 

应用的平均包长入手,利用滑动窗口模型探索五种应用在平均包长概率分布上的差异。对FTP、Foxmail、www、 

迅雷、Emule五种应用的实验表明:设置相同的滑动窗口,五种应用平均包长的均值有明显区别;设置不断增大 

的滑动窗口,五种应用平均包长的均值稳定,标准差逐渐减小。仅用包长信息可识别该五种应用。 

关键词:流量识别;平均包长;概率分布;滑动窗口;离散随机过程 

中图分类号:TP393.0 文献标志码:A 文章编号:1001—3695(2012)05—1884—03 

doi:10.3969/j.issn.1001—3695.2012.05.076 

Research on probability distribution of mean packet size for five 

representative applications in lnternet 

DU Xi—shou ,CHEN Shu-qiao .ZHANG Jian—hui ,MA Run—hua2 

(1.National口igital Switching S ̄tem Engineering&Technological Research Center,Zhengzhou 450002,China;2.92564th Navy Unit,Shan— 

tou Guangdong 515064,China) 

Abstract:As a important method of traffic identiifcation,DFI(deep flow inspection)employs statistical features which con— 

tains packet size information.This paper started with packet size belonging to five representative applications,utilized sliding 

window model to explore difference on probability distributution of mean packet size of different applications.The experiments 

on FTP,Foxmail,WWW,Thunder and Emule show:with the sanle size of sliding window,they behave diferent expectation of 

the mean packet size;with being greater size of sliding window,they behave stable expectation and gradually decreasing vari— 

ance of the mean packet size.It is feasible to identify the five applications only based on packet size information. 

Key words:trafifc identiicatifon;mean packet size;probability distributution;sliding window;discrete stochastic process 

此建议始终将包长作为流量分类的统计特征之一。Dedinski等 

0引言 

近年来,随着互联网的高速蓬勃发展,互联网内容得到极 

人 对包到达的时间间隔和包长分布使用小波分析,并分别 

对比了eDonkey和m数据流包长和控制流包长在频率分布 

上的区别。Bernaille等人 明确指出不同应用的控制流的包 

长分布是有区别的。Bernaille等人 另辟思路,提出一种通过 

分析包长和建立TCP链接时的前四个数据包的方向的流量识 

别方法,该方法对已知应用的识别准确率超过90%,对未知应 

大的丰富和发展,网络媒体、互联网信息检索、网络通信、网络 

娱乐等各种新应用层出不穷;应用模式上从邮件服务、Web应 

用等传统应用扩展到流媒体、迅雷等基于P2P(peer—to—peer)的 

新应用,但由于P2P应用极具吞噬带宽的特性,极易造成网络 

拥塞,对传统应用的服务质量造成巨大的威胁。因此,对互联 

用进行识别的准确率为60%。在对单向应用流的识别中也屡 

屡出现使用包长的相关统计量的识别方法。Ennan等人 在 

网的典型应用,尤其是对P2P应用进行识别研究不仅可确保 

各应用的服务质量,也是网络带宽精细管理的前提条件。当前 

P2P流量识别的主要方法之一是深度流检测(deep lfow inspec— 

tion。DFI)技术,而DFI的关键之一在于使用合适的流统计特 

使用聚类的方法对互联网流量进行识别时,采用的统计特征中 

有平均包长(mean packet size),并在对流量识别时,对双向应 

用流和单向应用流都进行了详细的识别分析,且在两种情况下 

都获得了不错的识别结果。Li等人 仅仅使用短时间窗内的 

包长分布作为特征对P2P-TV应用识别,文中采用基于SVM的 

分类方法,对PPLive、PPStream、QQLive、SopCast、UUSee五种基 

征作为识别标准。目前,只有少数学者对各应用的平均包长分 

布进行了初步的研究,但已有众多学者直接将包长的相关统计 

量(如平均包长、包长度等)用于流量识别中,并达到了满意的 

于P2P的流媒体应用进行识别,并在3 S内获得了超过99%的 

识别准确率。因此,对互联网典型应用的平均包长进行系统的 

分析不仅可以探索DFI采用包长作为流统计特征的内在本质 

原因,也可为今后的流量识别作出有意义的研究。 

本文首先描述了滑动窗口模型的相关原理,进而给出了平 

识别效果。Este等人 基于信息论中互信息的相关理论对网 

络数据包分析后认为,包长对互联网应用识别具有重要的意 

义,特别是TCP流的前几个数据包的包长,并且包长在各种环 

境下含有的信息量相对稳定,适用于对各种应用进行识别,因 

收稿日期:2011-09-05;修回日期:2011-10.09 基金项目:国家“863”计划资助项目(2009AA01A346) 

作者简介:杜锡寿(1988一),男,安徽来安人,硕士,主要研究方向为互联网流量识别(dxshardwork@126.corn);陈庶樵(1973.),男,黑龙江肇县 

人,教授,博士,主要研究方向为宽带信息网络;张建辉(1977一),男,讲师,博士,主要研究方向为网络测量;马润华(1987.),女,湖北宜昌人,主要研 

究方向为通信信号分析与处理. 

第5期 杜锡寿,等:互联网五种典型应用的平均包长概率分布研究 

随机过程{ ,n=1,2,…}的方差为 

・1885・ 

均包长的计算方法,并根据实验情况将不同滑动窗口大小下的 

平均包长概率分布抽象为离散随机过程,给出了离散随机过程 

的均值和标准差的计算方法,最后对互联网上典型应用的平均 

包长的概率分布进行系统的实验研究。本文的贡献在于从统 

计学的角度总结分析了两种现象:a)五种应用在相同的滑动 

窗口大小下,其平均包长的概率分布不同,且均值差别较大; 

b)随着滑动窗口大小不断增大,互联网典型业务平均包长概 

2.1 数据来源 

E[E]: ‘ 

∞ 

( , )d 一 

n 

(3) 

其中: 称为标准差。 

2 实验仿真及结果分析 

率分布的均值保持稳定,其标准差逐渐减小。 

1 研究基础 

1.1 滑动窗口模型 

众多学者在发表的论文中并没有对包长进行明确的定义, 

但是无论是从链路层还是从网络层定义分析的数据包长度,对 

研究平均包长的概率分布并无影响。本文的包长指的是从链 

路层算起解析出的数据包长度的简称。 

互联网的典型应用在进行数据传输前,多数需要建立TCP 

链接,在数据传输时由于链路抖动、链路拥塞等原因会造成 

TCP链接的消亡,从而又需重新建立链接。因此,在抓取的应 

用数据中可能夹杂TCP控制报文,由于TCP控制报文和内容 

报文在包长大小上存在较大的差异,需要对控制报文的包长进 

行平滑处理减少计算误差。因此,本文在对包长度处理时使用 

滑动窗El模型‘ 。窗口大小71 可白定义,滑动步幅为1。使 

用滑动窗口的优点是能够平滑突发数据包,并统计出更多的平 

均包长值,更加真实地反映出平均包长的慨率分布,因此本文 

在计算平均包长时是基于滑动窗口的平均包长。 

如图1所示,在互联网某典型应用接收包的个数为Ⅳ的 

前提下,滑动窗口大小为5,记为 ,在第一次对平均包长进行 

计算时,使用序号为1~5的数据包计算。在第二次计算平均 

包长时,使用序号为2~6的数据包计算。 

,………………………、 

[1

、…

 1

 

2 I

 

3 I

.…

 4[5

……

 I

.., 

 6 I 7 I 8 I... IN I 

窗l=_=]初始位置 

,…………………~…、 

~…

一一………….…..

J 

窗口第一次滑动后的位置 

图1滑动窗口示意图 

1.2基于滑动窗口的平均包长研究 

有集合 =(W。,W 一, ), (0≤i≤m)是互联网中某 

典型应用,对该典型应用抓取包的个数为£,每个包的包长 

大小为P,(1≤ ≤ ),单位为字节。在滑动窗口为T =N的条 

件下,第k个平均包长为 

Ⅳ+ 

∑P 

寺 ≤ ≤,J—N (1) 

平均包长P 的编号最多到M—N是由于在最后Ⅳ个数据 

包时,滑动窗口已经移动到末尾。 

1.3离散随机过程 

若以 代表某一应用平均包长在滑动窗口大小T :/Z 

的条件下的概率分布,则{X ,n=1,2,…}是一个离散随机过 

程。设 ( ,n)为滑动窗口大小T =n的条件下的平均包长 

概率分布,则随机过程{X ,n=1,2,…}的均值为 

m =E[X, ]=』 ( ,n)dx (2) 

Moore在文献[8]中将网络流量分为Bulk、Database、Intera— 

ctive、Mail、Serviees、WWW、P2P、Attack、Games、Muhimedia九 

类,但是从用户使用的角度出发,Database、Interactive、Attack应 

用互联网终端用户较少,Games应用多种多样,这里不予采集 

分析。因此本文从剩余的五类中选择了五种目前互联网使用 

较为广泛的典型应用,数据采集点位于校园网出口处,分为四 

个时间点基于Wireshark进行采集,数据量大小如表1所示。 

表1 五种典型应用的采集时问点和数据大小 /GB 

2.2实验平台 

由于处理的数据量较大,本文在实验中采用的机器配置为 

4.12 GHz的Pentium4 CPU,3.87 GB的内存,500 GB硬盘。数 

据处理软件使用的是Eclipse 3.5和MATLAB 7.9。 

2.3实验内容与结果分析 

1)不同应用的平均包长概率分布 

实验中,将各应用数据分别用Eclipse和MATLAB处理后, 

设置的滑动窗口大小window size=30 Byte,得到图2(a)~ 

(e),图中横坐标单位为Byte。 

0.35 

茸0.3 

O・25 

0.25 

量。 

0.1 

0.05 l 

l - 

O.O5 

0 400 800 1200 l600 

mean packet size 

[ 

(a)FTP 

0.16 

0.14 

O.12 

0 1 

0.O8 

0.06 

0.04 

O.O2 

0 400 800 12001400 

mean packet size 

mean packet size 

(c)v,v 

(d)迅雷 

(e)Emule 

图2五种典型应用的平均包长在 =30时的概率分布 

从图2中可以看出,(a)FrP平均包长的峰值出现在1050 

左右,但在100时有明显概率分布,这是由于无论是fTrP服务 

器还是客户端,它们的进程都可分为控制进程和数据传送进 

程,控制进程产生的数据包长集中分布在100左右,而数据传 

1886・ 计算机应用研究 

1 N N+1 L 

第29卷 

送进程产生的包长集中分布在1050左右;(b)Foxmail平均包 

长的峰值出现在100左右,且平均包长落入区间[200,1000]的 

概率分布基本一致,这是由于Foxmail是在邮件服务器和用户 

代理之间基于TCP的可靠传输,因而TCP控制报文较多;(c) 

青( p一 邑p 一+ +。p ) 

L一Ⅳ+l 

古(P1+2 ・+峨+ ㈨ ・+ⅣP£ml+(Ⅳ一1)PL一 +PL) 

寺(P1+2P2+. .+(Ⅳ一1)PN一1+(N一1)PL一Ⅳ+2+._‘+PL) 

——————————■『二 

www的平均包长的峰值出现在1000的位置,其他点的概率 

分布基本为0,这是由于www应用的请求报文较短,而响应 

报文较长,分布集中在1000左右,且响应报文的数量要远远多 

于请求报文;(d)迅雷平均包长的概率分布在[500,900],较集 

中且概率值较大,而其他值概率较小;(e)Emule平均包长的概 

广————————一 

(4) 

、 Ⅳ+ 

1 

率分布具有双峰值的特性,在区间[100,800]的概率分布较为 

平稳,且概率分布最大值为0.09。 

在T =30的条件下,各应用平均包长分布的均值和标准 

差如表2所示。 

表2五种应用在T =30下的均值和标准差 

由于第i个包长与第 个包长相差在有限的范围内,即 

0<IP 一 I<1500,因此可将式(4)写为 

2(Pl+P2+…+P )+6 

E[XⅣ]=——— T。L

一 

+ 

(51 

L一Ⅳ+1 

其中:6是将— ( +2 +…+(Ⅳ一1) 一 +(Ⅳ一1) — +z 

+…+P )合并为2(P +尸2+…+P )时的有限的误差值。 

2)窗口大小 变化下的包长概率分布 

由于滑动窗口的尺寸越大,在计算一个平均包长值时使用 

的数据包会越多,平滑作用更加明显,分布越能刻画典型应用 

之间的本质区别。因此,实验2针对当前互联网上较为流行的 

由于在抓取数据包时数据量巨大的情况下(大于1 GB),有 

(如[0,100]),有 

2(Pt+P2+…+P )+6 

—— 

£一o。,可不考虑6的影响。因此当Ⅳ值在较小范围内变化时 

迅雷应用,在不同的 下观测其平均包长的概率分布情况, 

同时计算在每个 下平均包长分布的均值和标准差,结果如 

图3、4所示。 

16 

14 

12 

0.1 

。 ( ) 

此时式(5)可改写为 

E[ ] ! ::: 

L 

= 

(7) 

由于窗口大小Ⅳ值不同造成在取不同的Ⅳ值时,P + 

O8 

O6 

04 

02 

J 

mean packet size 

JlI 

mean packet size 

P + +…+ 

一 

+ 

有微小差别,因此E[ ]有微小差别,但由 

于数据量巨大,平均包长的均值分布总体保持稳定,所以出现 

图4所示的曲线。 

(a) =20 

鲁 

(b) =30 

喘 

2 

windows size 

图4不同 下的平均包长的均值和标准差 

从式(4)~(7)的数学分析中可以看出,在分析过程中没 

— 

lII L 

有指定互联网应用类型,因此,对于任何一种互联网典型应用 

平均包长的均值是稳定的。 

来说,只要获取的数据量足够大,在不同的滑动窗口大小下,其 

0 200 400 600 800 1000 

(e)rw=8o 

图3相同 下的平均包长分布 

3结束语 

从图3和4中可以看出,随着滑动窗口尺寸增大,概率分 

布趋于平滑,分布中心值两端的概率逐渐减小,总体分布趋于 

稳定,因此,标准差随着 的增加而逐渐减小。但在图3中, 

本文从实际网络数据出发,通过分析对比FTP、Foxmail、 

www、迅雷、Emule这五种典型应用的平均包长,为在流量识 

在不同的窗口大小下,均值的分布一直保持稳定,仅有细微差 

别,可依赖这一特性对互联网的应用进行流量识别。下面对均 

值保持稳定的原因加以数学分析。 

在T =N、抓取的包个数为L的条件下,由式(2)知,平均 

包长的均值为 

. .

别中将平均包长作为流统计特征提供了实验依据。研究发现, 

在相同的滑动窗口下,不同应用具有不同的均值和概率分布; 

在不同的滑动窗口,对于迅雷应用,随着窗口大小的增加,其均 

值大小稳定,标准差逐渐减小。但是,由于本文采集的采集点单 

数据量还不够,导致在平均包长的分布上可能会出现细微偏 

差。下一步将通过在不同的数据集中加大数据采集量以进一步 

+ 

]:互 : 

验证分析平均包长的概率分布情况,同时研究快速有效的基于 

平均包长分布的互联网流量识别算法。 (下转第1900页) 

1900・ 计算机应用研究 

参考文献: 

第29卷 

内的驻留时间服从Gamma分布,LAAA与MAP之间、LAAA与 

AR之间、HAAA与HA之间的距离设为1跳。结果是十次运 

行后得到的平均值。记LAAA与HAAA—MR之间的距离为 

d。R,LAAA与HAAA—VMN之间的距离为d HAAA—MR与 

HAAA

[1]DEVARAPALLI V,WAKIKAWA R,PETRESCU A,et a1.RFC 

3963,network moblity(NEMO)basic suppo ̄protocol[s].[s. 

1.]:IETF,2005. 

VMN之间的距离为dRv。 

[2]CHUANG M C,LEE J F.A lightweight mutual authentication mecha— 

图8给出了AMLSA、LE—HMIPv6 、DNA 、LR—AKE、LIM 

nism for network mobility in IEEE 802 16e wireless networks[J]. 

Computer Networks,2011,55(16):3796—3809. 

五种机制下MR的切换时延。其中:AMLSA—H表示域内切换, 

AMLSA—I表示域间切换,虚线表示的是用数学计算得出的切换 

时延。实验仿真得出的结果和数学计算得出的数据基本一致。 

AMLSA域内切换时延不随d 的增加而增大,但比LE—HMIPv6 

[3]LIM H J,KIM M,LEE J H,et a1.Reducing communication over— 

head for nested NEMO networks:roaming authentication and access 

control structure[J].IEEE Trans on Vehicular Technology, 

201 l,60(7):3408—3423. 

稍大,需要说明的是LE—HMIPv6要求数据链路层提供切换触 

发子以实现预切换,而AMLSA不需要。 

[4]FATHI H,SHIN S,KOBARA K.R-AKE—based AAA for network 

mobility(NEMO)over wireless links[J].IEEE Journal on Selec- 

ted Areasin Communications,2006,24(9):1725—1737. 

图9给出了AMLSA、DNA、LR—AKE、LIM四种机制下VMN 

的切换时延(LE—HMIPv6不支持VMN的切换)。其中AMLSA 

[5]AHN Y,LEE T J,CHOO H,et a1.DNA Diameter NEMO applica- 

机制下VMN的切换时延最小,且不随dLv和d 增加而增大。 

tions based on binding update integration[C]//Proc of Frontiers of 

High Performance Computing and Networking.Berlin・Springer—Ver- 

lag,2006:1-6. 

在MR数量较多的环境下,VMN在MR之间切换的次数较多, 

AMLSA的性能优势更为明显。 

1100 

l000 

1 

[6]SOLIMAN H,CASTELLUCCIA C,ELMALKI K,et a1.RFC 5380, 

hierarchical mobile IPv6(HMIPv6)mobility management[S].[S. 

1.]:IETF,2008. 

誊1 

1 

茗 

尽 

萎3 

嬲 

300 

[7]JAYARAMAN P,LOPEZ R,OHBA Y,et a1.RFC 5193,protocol 

for carrying authentication for network access(PANA)framework 

200 

10O 

[s].[s.1_]:IETF,2008. 

[8]KORHONEN J,BOURNELLE J,TSCHOFENIG H,et a1.RFC 

5447,Diameter mobile IPv6:support for network access server to 

LAAA与HAAA—MR之间距离/hop 

图8 MR切换时延随d 的变化 

4结束语 

本文提出了基于本地移动性管理的NEMO AAA网络,设 

计了一种基于本地安全关联的NEMO认证机制,给出了网络 

diameter server interaction[S].[S.L]:IETF,2009. 

[9] NIST.Department of Commerce.Federal Information Processing 

Standard(FIPS),secure hash standard[s].2002. 

[10]PETRESCU A,OLIVEREAU A,JANNETEAU C,et a1.Draft—pe. 

trescn—nemo-threats—O1.threats for basic network mobility support 

实体间的交互流程、身份认证以及接人权限的授权方法。该机 

制整合身份认证和地址注册过程,利用本地移动性管理策略和 

本地安全关联,实现了MN域内切换时认证一注册过程的本地 

化,避免了VMN数据包嵌套封装。性能分析表明,该机制能 

够实现用户和网络之间的双向认证、抗重放攻击等,保护了地 

址注册信息,提升了NEMO的安全性;与其他方案相比,该机 

制在计算开销和切换时延方面更优。 

(NEMO threats)[s].[s.1.]:IETF,2004. 

[11]葛国栋,汤红波,王晓雷.嵌套移动网络中基于代价函数的自适 

应路由优化机制[J].电子与信息学报,2011,33(8):2018—1022. 

[12]周华春,张宏科,秦雅娟.一种代理移动IPv6认证协议[J].电 

子学报,2008,36(10):1873-1880. 

[13]杨君,郭伟,刘军.基于可信区域的移动IPv6切换优化[J].计 

算机应用研究,2010,27(3):1106一l109. 

(上接第1886页) 

Conferenee.New York:ACM Press,2006:1-12. 

参考文献: 

[1]ESTE A,GRINGOLI F,SALGARELLI L.On the stability of the in— 

formation carried by traffic flow features at the packet level[J].ACM 

SIGCOMM Computer Communication Review,2009,39(3):13— 

18. 

ERMAN J,ARLITT M,ANIRBAN M.Traffic classiifcation using clus— 

tering algorithms[C]//Proc of SIGCOMM Workshop on Mining Net— 

work Data.New York:ACM Press,2006:281—286.  .

LI Jin,ZHANG Xin,ZUO Xiao-liang,et a1.Using packet size disti—r 

bution to identify P2P—TV traffic[C]//Proc of Intenrational Confe— 

renee Oil Cyber—-enabled Distibutred Computing and Knowledge Discov・- 

cry.Washington DC:IEEE Computer Society,2010:150—155. 

[2]DEDINSKI I,De MEER H,HAN L,et a1.Cross—layer peer—to-peer 

traffic identiicatfion and optimization based on active networking 

[C]//Proc of International Working Conference on Active and Pro— 

grammable Networks.[S.1.]:Springer,2005:13—27. 

[3]BERNAILLE L,TEIXEIRA R,AKODKENOU I,et a1.Traffic classi— 

U Hun—fu.LEE S Y,Mining frequent item sets over data streams using 

efficient window sliding techniques[J].Expe ̄Systems with Appli— 

cations,2009,36(2):1466—1477. 

MOORE A,ZUEV D.Interact traffic classification using Bayesian 

ifcation Oil the lfy[J].ACM SIGCOMM Computer Oommunica— 

tion Review,2006,36(2):23—26. 

analysis techniques[C]//Proc of ACM SIGMETRICS International 

Conference on Measurement mid Modeling of Computer Systems.New 

York:ACM Press.2005:50—60. 

[4]BERNAILLE L,TEIXEIRA R,SALAMATIAN K.Early application 

identiifcation[C]//Proc of the 2nd ADETTI/ISCTE CoNEXT