恭喜南京邮电大学肖甫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京邮电大学申请的专利一种基于强化学习的自动化Windows域渗透方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114444086B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210108140.5,技术领域涉及:G06F21/57;该发明授权一种基于强化学习的自动化Windows域渗透方法是由肖甫;占力戈;沙乐天;周剑;董建阔;张品昌;桂林卿设计研发完成,并于2022-01-28向国家知识产权局提交的专利申请。
本一种基于强化学习的自动化Windows域渗透方法在说明书摘要公布了:一种基于强化学习的自动化Windows域渗透方法,引入渗透测试的强化学习模型概念,通过强化学习与Windows域环境的真实交互自动发现攻击路径并做出攻击动作,能随时、高效的对目标域环境进行安全评估,减少时间和资源的浪费;对域环境策略的分析,基于主机对渗透过程的贡献差异定义冗余主机,减少强化学习中非必要的状态与攻击动作,增加强化学习的训练效率;将域渗透中基于用户凭据的渗透方法与传统渗透方法相结合,解决现有研究完全依赖主机漏洞进行路径发现的问题,提高在域环境内的适用性与攻击效果。
本发明授权一种基于强化学习的自动化Windows域渗透方法在权利要求书中公布了:1.一种基于强化学习的自动化Windows域渗透方法,特征在于:所述方法包括如下步骤:步骤1,以信息搜集工具、漏洞扫描工具和漏洞框架为基础,以对应工具的扩展模块为补充,利用python语言作为工具与工具、工具与环境间的连接脚本,构建渗透测试平台;步骤2,使用渗透测试平台对目标环境进行信息搜集、漏洞扫描,并依据结果匹配每台主机使用的漏洞攻击模块;步骤3,使用渗透测试平台自动进行强化学习建模;在步骤3中细分了如下的分步骤:步骤3-1,以MDP四元组S,A,R,P的形式表示强化学习,通过其在环境中不断探索试错得到正向、反向的奖励reward,并依据奖励判断动作的优先级,强化学习在不同状态s下的不同动作选择a称为策略,学习目标是优化策略π以最大化累积奖励,使用Q学习算法求解强化学习策略,该算法使用动作、值函数Qs,a表示策略,并依据Qs,a的函数期望大小进行动作选择;步骤3-2,依据步骤3-1中对强化学习的描述,构建四元组S,A,R,P,并由Q学习算法求解针对目标环境的最优策略;在步骤3-2中细分了如下的分步骤:步骤3-2-1,构造状态空间S:使用主机信息及当前获得目标主机的权限规定状态空间,根据步骤2-1中收集的信息,每台主机的状态表示为“IP-操作系统-端口:服务-存在漏洞-已获得的权限”的形式,其中,仅权限随着渗透过程的变化而发生改变,使用“状态编号-已获得的权限”的形式枚举状态空间S,此外,将成功渗透域控制器的状态设为目标状态G,若主机n为域控制器,则状态空间枚举为“1:x-2:x-3:x-4:x-5:x……n-1:x-n:y”的集合,其中x取N、L、U;y取Null或G,其中,N、L、U分别代表主机处于的未取得权限、本地管理员权限、域普通用户权限三种状态,G代表当前达到最终状态,Null则代表未达到最终状态;步骤3-2-2,构造动作空间A:动作空间代表攻击者使用的漏洞利用动作,其来源于渗透测试平台中;将漏洞利用模块细分为凭据利用模块及常规漏洞模块;自动化渗透时,除了利用传统漏洞进行渗透外,还通过域用户凭据进行横向移动;步骤3-2-3,构造奖励函数R:强化学习依赖与环境交互后的奖励做出决策;执行任意动作后,智能体依据奖励函数得到该动作的即时奖励,并预测累积奖励期望;奖励来源于正向的权限提升ΔR与负面的漏洞损耗rcost;若每次权限获取动作都产生权限增益RPA,根据每台主机的不同权限状态,其得分r分别为:未获得目标主机权限:r=0;获得目标主机的普通用户权限:r=8;获得目标主机的本地管理员权限:r=10;获得域管理员权限:r=100+rextra;若某主机在漏洞利用动作前后的权限得分为r1、r2,则该动作的正向奖励为其权限增益:ΔR=r2-r1,r2>r1,由于域管理员权限等同于域内所有机器的最高权限,因此到达目标状态获得额外得分补偿rextra,其值等于将该域环境中所有主机提升为本地管理员权限获取的得分之和;rcost由漏洞等级Vrank、漏洞可用性Vexploitble、漏洞暴露的时间Tvuln三个因素组成,其值分别来自通用漏洞评分系统CVSS的基础得分、可用性得分以及发布漏洞的时长,rcost由如下公式表示:rcost=10sigmoidTvuln-VexploitbleVrank10其中rcost最小值为0;权限获取动作的奖励为权限增益ΔR与漏洞消耗rcost之差:RPA=ΔR-rcost步骤3-2-4,构造状态转移P:基于实际渗透测试工具与真实环境进行交互,通过实验环境的交互探索状态转移;当强化学习选取某个动作,通过渗透测试平台执行后,平台将收到环境反馈的状态变化信息,并由此探索状态转移;步骤4,使用渗透测试平台自动调用攻击模块进行攻击,并依据返回结果进行强化学习训练、状态简化,不断优化最优攻击路径。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:224008 江苏省盐城市盐南高新区大数据产业园创新大厦南楼15层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。