恭喜西安电子科技大学杨超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安电子科技大学申请的专利一种基于机器学习的SSR流量识别系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114091602B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111370935.5,技术领域涉及:G06F18/2431;该发明授权一种基于机器学习的SSR流量识别系统及方法是由杨超;陈明哲;张伦玮;李玥;郑昱设计研发完成,并于2021-11-18向国家知识产权局提交的专利申请。
本一种基于机器学习的SSR流量识别系统及方法在说明书摘要公布了:本发明一种基于机器学习的SSR流量识别系统及方法,主要解决现有技术面对复杂多变的实际网络环境无法有效识别SSR流量的问题。系统包括:数据包捕获模块、处理模块、分析模块、识别模块,识别信息存储模块,识别结果分析模块和web界面。方法的步骤为:数据包捕获模块获取网络数据流量,数据包处理模块从该流量中提取数据包的基础信息,数据包分析模块根据信息对数据包进行预处理,再由数据包识别模块进行识别,将结果存入识别信息存储模块,识别结果分析模块对结果进行实时分析,并将分析结果通过web界面展示。本发明不仅保证了较高的SSR识别准确率,且通过优化系统中的运算过程,使其可以在较大规模网关下做到实时采集与识别。
本发明授权一种基于机器学习的SSR流量识别系统及方法在权利要求书中公布了:1.一种使用基于机器学习的SSR流量识别系统进行流量识别的方法,其特征在于,包括如下步骤:1根据设备网卡流量到达情况对数据流量进行捕获:1.1对网关流量规模进行预估,根据评估结果设置单次捕获数量级与初始排队时间,保证单轮捕获数据时间在30-45秒范围内;1.2设计实时系统冗余机制,即设定动态停等时间,该时间根据系统内部内存占用比例、处理器计算任务量、处理捕获文件队列数量经过实时计算得到;1.3按照流水线方式,循环调用数据包捕获模块,获取网络数据流量;2通过数据包处理模块从网络数据流量中提取数据包的基础信息,得到包括荷载特征、长度、时间的数据流量荷载信息;3利用数据流量荷载信息对数据包进行预处理:3.1数据包分析模块根据数据流量的荷载特征对数据包进行过滤,滤掉除TCP协议外的其它所有协议的数据包,仅保留TCP数据包,且滤掉其中因网络连接异常导致重传的数据包,得到数据包集合R:R={pkg1,pkg2,...,pkgi,...,pkgr},其中,pkgi表示集合R中的第i个数据包,i=1,2,...,r,r表示过滤后数据包的总数;3.2数据包分析模块按照如下规则对数据包进行分组:3.2.1提取数据包pkgi的源IP地址IPsrc-i、源端口Portsrc-i、目的IP地址IPdst-i、目的端口Portdst-i和传输层协议protoi五类信息,并将其组成数据包pkgi的头部hi:hi=IPsrc-i,Portsrc-i,IPdst-i,Portdst-i,protoi,pkgi={hi,Lenpkgi,stimei};其中,Lenpkgi表示数据包pkgi的长度,stimei表示数据包pkgi的到达时间;3.2.2在数据包集合R中,对于与数据包pkgi相同或相反的数据包,将其头部与pkgi构成一个分组数据流;3.2.3取i=1,2,...,r按照步骤3.2.1-3.2.2得到数据包集合R中每个数据包对应的分组数据流,所有分组数据流共同组成分组后的数据流集合D,即预处理后流量信息:D={flow1,flow2,...,flowk,...,flowd},其中,flowk表示第k个分组数据流,k=1,2,...,d,d表示分组数据流的总数目;4数据包识别模块对数据流集合D中的分组数据流提取特征并进行筛选,利用机器学习进行识别:4.1统计分组数据流flowk内所有数据包的数量,记为totalflowk,将所有数据包中与第一个数据包发送方向相同的数据包记为输出包、其余数据包记为输入包;4.2分别计算flowk内所有输入包、所有输出包以及所有数据包长度的统计值:平均值、最小值、最大值、绝对差、绝对中位差、标准差、方差、偏斜、峰度、10%-90%百分位数;4.3将步骤4.2得到的统计值组成flowk的统计特征向量PLSk,所有分组数据流对应的统计特征向量共同组成包长度统计特征矩阵PLS;4.4对包长度统计特征矩阵PLS中的特征进行前向搜索组合特征筛选,将特征分为积极特征和消极特征两类,再次进行前向搜索,直到结果最优,获取到优化后包长度统计特征矩阵PLS';4.5将矩阵PLS'输入基于随机森林算法训练的模型进行识别,得到识别结果,并将结果存于识别信息存储模块中;5识别信息存储模块按照识别结果将其分为SSR类结果和所有结果两类,以数据流开始时间为索引,存储到特定数据库mysql中;6识别结果分析模块对数据库mysql中记录信息进行实时分析,并输出分析结果:6.1针对数据库mysql中一段时间内的识别结果,对其进行统计并计算得分score: 其中,Numssr表示识别SSR流量的数量,Numall表示数据流总数,Numdst表示通信目的地址数量;6.2根据得分score对不同设备使用的SSR流量进行排名,同时对不同的置信度进行动态设定,得到单个用户多维度的流量分析结果;6.3将分析结果在web界面上进行展示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。