买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东南大学
摘要:本发明提供了一种面向高速网络的VPN流量快速识别方法,方法的具体步骤分为模型训练和模型使用两个场景。模型训练时,在可控的网络环境中进行流量抽样采集,选择能够用于抽样后VPN流量识别分类的相关特征,构建小规模的流量数据训练集进行模型训练。使用该模型时,在高速网络中进行流量抽样,通过CountBloomFilter算法过滤出长流流量,使用链接法散列表存储统计信息,并根据记录的统计信息提取特征值,得到流量特征记录,用于流量检测。本发明能够快速精确地识别出高速网络中存在的VPN流量,并对VPN流量使用的代理工具进行分类,有效提高了网络流量的检测能力。
主权项:1.一种面向高速网络的VPN流量快速识别方法,其特征在于,包括如下步骤:1采集用于模型训练的VPN流量数据和普通流量数据并保存;2从原始数据中选择可用于抽样后VPN流量识别分类的特征,进行机器学习的模型训练;3在高速网络中进行流量数据抽样,然后使用CountBloomFilter算法和链接法散列表对抽样数据包进行处理,获得流量的统计记录;4根据步骤3中获得的统计记录提取特征值,使用步骤2中训练完成的模型,进行流量检测;所述步骤1具体包括如下子步骤:1.1在主机端安装VPN代理工具;1.2启动应用开始进行VPN流量数据采集;1.3使用VPN代理工具进行网络访问;1.4网络访问结束后停止采集,存储当前采集的主机端与VPS之间的VPN流量数据文件;1.5启动应用开始进行普通流量数据采集;1.6关闭VPN代理工具,使用常见应用进行操作;1.7操作完成后停止采集,存储当前采集的普通流量数据文件;1.8重复1.2~1.7操作,直到采集到足够多数量的流量数据;所述步骤2具体包括如下子步骤:2.1对步骤1中采集的完整流量数据进行抽样处理;2.2对抽样流量进行特征选择,选择合适的可用特征;2.3将步骤1中采集的流量数据作为原始数据,经过步骤2.1的抽样处理,提取出步骤2.2选择的可用特征,构建小规模的流量数据训练集;2.4针对特定的检测场景对训练集中的流量数据进行标签设置,用于机器学习的模型训练,最终建立流量检测模型;所述步骤2.2中合适的可用特征如下:F1的含义:客户端初始接收窗口,F2的含义:客户端最终接收窗口,F3的含义:客户端接收窗口的增长率,F4的含义:客户端接收的数据包平均报文长度,F5的含义:客户端接收的负载不为0的包与客户端发出的负载为0的包的比值,F6的含义:客户端接收的数据包平均传输速率,F7的含义:是否具有时间戳,所述步骤3具体包括如下子步骤:3.1在高速网络中设置数据包抽样比λ进行抽样;3.2使用CountBloomFilter算法进行长流过滤;3.3使用链接法散列表存储流量统计信息并获得统计记录;所述步骤3.2具体包括如下子步骤:3.2.1对于抽样后的每个数据包,将数据包的五元组作为哈希函数的输入,映射到k个相应的CBF向量中,其中k是哈希函数的个数;3.2.2判断相应的k个CBF向量中计数器的值是否小于长流阈值,若CBF向量中计数器的值小于长流阈值,则在计数器中执行加1操作,否则计数器的值保持不变;3.2.3找到相应的k个CBF向量中所有计数器的最小值,当最小值达到长流阈值时,该数据包作为长流数据包通过过滤,否则直接丢弃;所述步骤3.3具体包括如下子步骤:3.3.1对于过滤得到的长流数据包,将数据包的五元组作为哈希函数的输入,映射到散列表相应的位置中;3.3.2若相应的位置内容为空,则直接添加该数据包的统计信息;3.3.3若相应的位置已存在流量统计信息,则通过五元组判断该数据包是否属于已存在的流,若属于同一流则直接更新已存在的流量统计信息,否则在链表尾部添加节点并存储新的流量统计信息;3.3.4当某个流的数据包个数达到设定的记录阈值θ时,提取存储的统计信息得到统计记录;所述步骤3.3.2和3.3.3中所需存储的流量统计信息如下:C1的含义:客户端初始接收窗口的大小,C2的含义:客户端最终接收窗口的大小,C3的含义:客户端发送的负载为0的数据包的数量,C4的含义:客户端接收的数据包的数量,C5的含义:客户端接收的负载为0的数据包的数量,C6的含义:客户端接收的数据包长度,C7的含义:流开始时间,C8的含义:流结束时间,C9的含义:是否具有时间戳,其中,由于存储的流信息是基于抽样数据包得到的,C1记录的值实际是抽样后第一个客户端发送的数据包的接收窗口大小,C2记录的值实际是抽样后最后一个客户端发送的数据包的接收窗口大小,C7和C8记录的值也是根据第一个抽样数据包和最后一个抽样数据包得到的;所述步骤4具体包括如下子步骤:4.1对步骤3中得到的统计记录进行计算,提取流量特征,得到流量特征记录;4.2将流量特征记录输入步骤2中训练完成的模型,分别进行VPN流量的识别和VPN代理工具的区分,得到流量检测结果;所述步骤4.1中流量统计记录与特征值的对应关系如下:F1对应关系C1,F2对应关系C2,F3对应关系C2C1,F4对应关系C6C4-C5,F5对应关系C4-C5C3,F6对应关系C4-C5*λC8-C7,F7对应关系C9。
全文数据:
权利要求:
百度查询: 东南大学 一种面向高速网络的VPN流量快速识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。