内容简介
《冗余流量测量及特性分析》针对冗余流量导致的网络服务质量低效问题,提出冗余流量测量及特性分析方法,试图通过对真实网络冗余流量的识别、测量和分析来深入了解冗余流量生成和演化过程,从而优化网络资源、提高网络共享效率。《冗余流量测量及特性分析》共7章,系统地介绍冗余流量从流量测量、跟踪识别、特性分析到冗余流量消除各个环节的相关技术和方法。第1章介绍冗余流量的发现和研究现状。第2和3章介绍冗余流量的测量方法和动态跟踪识别方法。第4和5章分别从自相似性和时间序列角度出发,介绍冗余流量的特性。第6章介绍冗余流量演化模型及演化机制。第7章介绍冗余流量消除系统模型和相关方法。
目录
目录
“信息科学技术学术著作丛书”序
前言
第1章 冗余流量概述 1
1.1 冗余流量的发现 1
1.2 冗余流量测量研究现状 2
1.3 冗余流量特性分析研究现状 4
1.3.1 流量特性的自相似性研究 4
1.3.2 流量特性的复杂性研究 6
1.3.3 流量特性的时序性研究 7
1.4 冗余流量消除技术研究现状 8
1.4.1 传统的冗余流量消除技术 9
1.4.2 协议无关的冗余流量消除技术 10
参考文献 11
第2章 冗余流量测量方法 18
2.1 冗余流量测量系统结构 18
2.2 基于PF_RING的高速数据包采集方法 18
2.2.1 PF_RING数据包捕获方法 19
2.2.2 内存映射文件方法 20
2.2.3 双线程协同方法 21
2.3 基于测量粒度的冗余流量测量方法 22
2.3.1 面向对象的冗余流量测量 22
2.3.2 面向数据包字节分组的冗余流量测量 23
2.3.3 面向数据包字节分块的冗余流量测量 23
2.4 数据包字节分块算法 23
2.4.1 定长分块算法 24
2.4.2 变长分块算法 24
2.4.3 滑动分块算法 25
2.5 特征指纹采样方法 26
2.5.1 MODP特征指纹采样方法 26
2.5.2 MAXP特征指纹采样方法 27
2.5.3 SAMPLEBYTE特征指纹采样方法 28
2.5.4 DYNABYTE特征指纹采样方法 29
参考文献 30
第3章 基于均匀采样的冗余流量动态跟踪识别方法 33
3.1 分块指纹计算方法 33
3.2 贪婪内容匹配识别方法 36
3.3 均匀采样方法 37
3.4 动态跟踪方法 38
3.5 识别方法的实现 39
3.6 实验与结果分析 41
3.6.1 冗余流量测量效率 41
3.6.2 数据宏观分析 42
3.6.3 数据微观分析 50
参考文献 57
第4章 基于自相似性的冗余流量特性分析 59
4.1 冗余流量的R/S分析 59
4.1.1 R/S分析法 60
4.1.2 Hurst指数的显著性检验 60
4.1.3 实验仿真 61
4.2 冗余流量的重尾分布分析 63
4.2.1 Alpha稳定分布的基本特性 63
4.2.2 Alpha稳定分布的概率密度 64
4.2.3 Alpha稳定分布的参数估计 66
4.2.4 实验仿真 67
4.3 冗余流量的多分形模型 70
4.3.1 多分形理论的定义及性质 70
4.3.2 多分形小波模型 72
4.3.3 柯西-拉普拉斯小波模型 73
4.3.4 实验仿真 75
参考文献 79
第5章 基于时间序列的冗余流量特性分析 81
5.1 周期性 81
5.1.1 冗余流量信号的周期分析 81
5.1.2 冗余流量时间序列的周期分析 82
5.1.3 实验分析 86
5.2 长程相关性 91
5.2.1 度量方法 91
5.2.2 实验分析 93
5.3 多重分形性 96
5.3.1 基于统计矩的多重分形分析法 96
5.3.2 实验分析 98
5.4 自组织临界性 102
5.4.1 功率谱分析方法 103
5.4.2 实验分析 103
参考文献 105
第6章 基于复杂网络的冗余流量演化模型 108
6.1 复杂网络基本参数 108
6.2 无权网络模型 110
6.3 加权网络模型 114
6.3.1 加权网络基本概念 114
6.3.2 BBV加权网络演化模型 115
6.4 二分网络模型 117
6.4.1 二分网络基本参数 117
6.4.2 二分网络基本分类 118
6.5 基于加权二分网络的冗余流量演化模型 118
6.5.1 模型概述 119
6.5.2 模型构建 120
6.5.3 模型统计特性分析 123
6.5.4 演化模型分析 129
6.5.5 仿真分析 132
6.6 基于冗余负载路由的网络相变 137
6.6.1 网络相变基本概念 137
6.6.2 冗余负载路由算法 138
6.6.3 仿真分析 139
参考文献 147
第7章 冗余流量消除方法 149
7.1 冗余流量消除系统架构 149
7.2 冗余流量消除过程分析 150
7.2.1 指纹选择算法 151
7.2.2 匹配算法 154
7.2.3 冗余流量缓存策略 154
7.2.4 解码错误恢复 155
7.3 基于滑动窗口分块的冗余流量检测 156
7.3.1 数据信息捕获 156
7.3.2 基于滑动窗口分块的数据包分块 159
7.3.3 检测性能参数分析 163
7.3.4 校园网冗余流量分布分析 164
7.4 基于分组特性的冗余流量消除 166
7.4.1 网络数据采集和分析 166
7.4.2 分组特性分析 167
7.4.3 冗余流量消除系统模型 172
7.4.4 关键算法描述 173
参考文献 174
试读
第1章 冗余流量概述
随着互联网技术和应用的高速发展,文件共享、视频分发、娱乐游戏、网页浏览等网络应用呈现持续高速增长的趋势。中国互联网络信息中心(China Internet Network Information Center,CNNIC)的第53次《中国互联网络发展状况统计报告》显示,截至2023年12月,全国网民规模达到10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%[1]。随着网络用户逐渐增加,网络流量大幅增加。当信息共享用户与共享内容达到网络所能承载的峰值数量时,单一的信息交换机制必然给网络带来冗余流量。此外,互联网用户行为的大规模聚集特性致使网络流量严重失衡,同样导致海量冗余流量大规模生成。因此,网络冗余流量的测量和特性研究成为十分重要的科学问题。
1.1 冗余流量的发现
网络冗余流量源于互联网的无尺度特性,又称为无标度特性。无尺度网络(scale-free network,SFN)作为一类广泛存在于自然和社会系统中的网络模型,由Barabási等[2]在1999年提出:随着网络应用的广泛普及,互联网社交与信息交互改变了网络的数学模型。其核心特征在于网络节点的连接度服从幂律分布(power law distribution,PLD),幂律分布数学表达式为,其中,k是节点连接度,是节点连接度为k的概率。幂律分布广泛存在于物理学、生物学、社会学、经济学等众多学科领域中,也存在于互联网、社交网络等复杂网络中。在这种结构下,大部分节点仅维持少量连接(普通节点),而少数中心节点(枢纽节点)拥有超常规的连接数量。这种度分布的拓扑特性使互联网演化出新的行为模式:海量网络信息通过枢纽节点进行集中传输,导致热门网站在每个时间段面临巨量访问请求,当信息传输规模达到临界值时,单一交换机制必然产生重复数据传递。这种因特定链路重复传输相同数据而造成的带宽消耗现象,即为网络冗余流量[3]。
威斯康星大学的Anand等[4]研究企业网络主干链路流量组成时,发现平均冗余流量比例上升至20%,而在输出方向,平均冗余流量比例达到50%。这种低效传输主要源于网络访问的双重局部性特征。①时间局部性:用户以前访问过的网络对象被再次访问的概率较高,即如果网络对象距离用户上一次访问的时间间隔越短,那么它越有可能在不久的将来被再一次访问。也就是说,一旦存储器位置或网络资源在程序执行或网络通信中被访问过一次,那么它在未来可能会被频繁访问。②空间局部性:在用户访问过程中,与当前被访问的网络对象物理位置越接近的对象,越有可能被再次访问。网络用户访问过程中通常会涉及一些紧密相关的用户或者资源。因此,如果一个网络对象被访问,那么附近的位置或相关对象也有很大可能在将来的某段时间内被访问。
1.2 冗余流量测量研究现状
随着网络应用的发展越来越多样化,用户对网络使用体验和带宽需求的要求也不断提高,这导致互联网运营商和用户之间的带宽资源供需矛盾逐渐显现。同时,随着对网络拓扑结构研究的不断深入,人们逐渐认识到特定链路上相同数据资源的重复传输会给网络带宽的有效利用带来负面影响。虽然早期尚未明确提出冗余流量的概念,但是在某些特定的网络应用协议范围内对网络通信过程进行优化,提高自身对网络带宽资源的利用率已经成为网络流量工程研究中的普遍实践。例如,一种低带宽网络文件系统利用不同文件间或同一文件不同版本间的相似性,避免重复传输相同的字节内容,达到节省带宽资源的目的[5]。另外,在超文本传送协议(hypertext transfer protocol,?HTTP)中,应用Web缓存技术[6]和Gzip(GNU zip,一种文件压缩程序)技术[7],能够实现在不影响用户体验效果的前提下,降低网络冗余流量的重复传输。
Spring等[8]指出,尽管Web缓存技术得到了广泛应用,但仍然可以在生成的业务流量中检测到大量冗余信息。在测量过程中,文献[9]提出的识别方法借鉴了Manber在文件相似性分析中选择部分信息指纹集来标识文件属性的思想。在此基础上,文献[10]使用了Rabin多项式指纹技术,以32bit为块大小来计算连续分块的信息指纹。文献[11]对这些信息指纹集执行模运算,提取余数为0的指纹,作为采样特征指纹,也称为模幂运算(modular exponentiation,MODP)识别方法。随后,文献[12]将IP主机的数量作为划分标准,进一步研究了小规模、中规模和大规模网络流量来证实冗余流量存在的真实性。然而,MODP识别方法在采样过程中对全局属性有较强的依赖性,可能存在零采样的缺陷。为了解决这一问题,基于文献[13]关于文件指纹采样的Winnow算法思想,以及文献[14]提出的一种块压缩技术,该技术采用本地*大值选择法对特征指纹进行采样,提出了优化数据传输和存储的方法,确保了特征指纹采样结果能够均匀分布在采样窗口内。文献[15]提出了一种基于拟态安全技术的异构冗余流量检测系统,建立了若干种数据安全检测方式对各个数据源的流量进行审核,采用多个异构单元处理审核的数据流量。文献[16]基于蚁群算法设计了一种全新的通信网络流