首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于人工智能的零信任动态身份验证和授权方法 

申请/专利权人:江苏泓鑫科技有限公司;泰兴市港口集团有限公司;南京邮电大学

申请日:2023-11-22

公开(公告)日:2024-06-28

公开(公告)号:CN117692174B

主分类号:H04L9/40

分类号:H04L9/40;H04L67/1396;G06N3/0442;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明涉及网络安全领域,公开了一种基于人工智能的零信任动态身份验证和授权方法,包括以下步骤:步骤S1:采集所有用户行为和系统状态的相关数据,包括基础的登录信息、用户行为数据及系统状态信息;步骤S2:建立基于深度学习的用户行为模型,采用长短期记忆网络和自编码器结合的方式,捕捉用户行为的时间模式并检测用户的可能异常行为;步骤S3:根据步骤S2的结果,使用双重深度Q网络作为策略决策机制进行动态用户身份验证和授权,控制用户对系统资源的访问;步骤S4:监控和记录系统的行为和用户对系统行为的反应,收集各类反馈信息,并根据反馈信息对用户行为模型、动态身份验证和授权模型进行持续优化。

主权项:1.一种基于人工智能的零信任动态身份验证和授权方法,其特征在于,包括以下步骤:步骤S1:采集所有用户行为和系统状态的相关数据,包括基础的登录信息、用户行为数据及系统状态信息;步骤S2:建立基于深度学习的用户行为模型,采用长短期记忆网络和自编码器结合的方式,捕捉用户行为的时间模式并检测用户的可能异常行为;步骤S3:根据步骤S2的结果,使用双重深度Q网络作为策略决策机制进行动态用户身份验证和授权,控制用户对系统资源的访问;步骤S4:监控和记录系统的行为和用户对系统行为的反应,收集各类反馈信息,并根据反馈信息对用户行为模型、动态身份验证和授权模型进行持续优化;所述步骤S3中的双重深度Q网络包括两个深度Q网络,每个深度Q网络包括:状态表示层,用于将系统状态映射到一个实数向量,该向量可以精确捕获状态的关键特征;Q值估计层,用于接收状态表示层的输出,并为每个可能的动作估计一个Q值,采用多层感知机来进行Q值的估计,并且使用双重DQN算法来优化Q值的估计过程;策略选择层,用于根据Q值估计层的输出,选择最优策略;基于双重深度Q网络的策略决策网络根据用户行为检测的结果,结合当前网络环境的状态进行实时决策,以对用户身份进行验证和授权,确定用户对资源的访问权限的具体步骤为:步骤S31:初始化环境状态和两个深度Q网络,评估网络用于选择最优动作,目标网络用于估计这个动作的Q值;两个网络结构相同但参数独立,使用小随机值初始化网络参数;设定训练参数,折扣因子γ,学习率v;步骤S32:网络训练,使用评估网络根据当前环境状态选择并执行一个动作,通过经验回放技术存储历史经验并在训练中随机抽样打破数据之间的时间相关性,使用目标网络求目标Q值,计算TD误差并更新网络参数;步骤S33:将用户行为和系统状态输入到策略决策网络中,根据Q值选择最优动作,验证身份并决定授权和拒绝的内容;所述步骤S32使用目标网络求目标Q值,计算TD误差并更新网络参数,具体步骤如下:步骤S321:观测收集,在每一步中,根据当前状态s,利用Q网络进行行为选择结合ε-greedy策略进行探索和利用的折衷;然后执行选择的行为α,并观测回报r和新的状态s',将观测的转移s,α,r,s'存入回放记忆库;步骤S322:经验回放,从回放记忆库中随机采样一批转移,这一批转移即为训练样本;步骤S323:Q网络更新,对于每个采样的转移s,α,r,s',计算目标Q值:;计算Q网络对当前行为α的预测Q值:Q=Qs,α;θ;计算二者的平方误差,并使用梯度下降法来最小化这个误差,即更新Q网络的参数:;步骤S324:目标网络更新,在设定步数后将Q网络的参数复制给目标网络θ'=θ;步骤S325:策略改进,通过Q网络,在每个状态下找到使Q值最大的最优行为;步骤S326:循环训练,重复步骤S322至S326,直到满足终止条件。

全文数据:

权利要求:

百度查询: 江苏泓鑫科技有限公司;泰兴市港口集团有限公司;南京邮电大学 一种基于人工智能的零信任动态身份验证和授权方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。