买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明提供一种针对模型窃取攻击的综合防御方法,包括对抗训练步骤、恶意查询检测步骤、自适应回复步骤和所有权验证步骤;在训练阶段施加对抗训练以获得更鲁棒的模型,并削弱模型窃取攻击的效果,导致攻击者需要提交更多的恶意查询才能达到预期的攻击目标。在这之后,恶意查询检测用来检测和识别恶意查询并标记恶意用户。然后,针对恶意用户,防御者采用自适应回复策略,用添加了扰动的结果回复恶意用户。这些扰动的结果不仅可以减弱模型窃取攻击的效果,还可以为后续的模型所有权验证步骤做准备。最后,模型所有权验证可以通过扰动结果集进行验证。本发明能提高模型窃取攻击的检测精度,且多个阶段的防御措施相互促进达到最佳的整体防御。
主权项:1.一种针对模型窃取攻击的综合防御方法,其特征在于,包括步骤:对抗训练步骤:在训练阶段将现有的训练样本中靠近原始决策边界的正常样本生成的对抗样本放入正常样本训练集中进行被保护模型的训练;恶意查询检测步骤:在接收到查询时,先计算各查询经过温度缩放的最大置信度TMSP,判断TMSP与预设查询阈值比较区分各查询是恶意查询或良性查询;再利用各用户提交的恶意查询数与总查询次数之比得到该用户的可疑程度值;最后,通过该用户的可疑程度值与预设嫌疑度阈值比较来检测出恶意用户,为每个恶意用户建立并维护该恶意用户的一个扰动结果集后进入自适应回复步骤;自适应回复步骤:按照预设概率向恶意用户返回扰动过的预测结果并将该恶意用户的查询以及扰动过的预测结果存储至所述扰动结果集;所述扰动的方式为基于最优停止理论的标签翻转方法;所有权验证步骤:使用恶意用户的扰动结果集对被保护模型之外的其他模型进行是否窃取被保护模型的验证,先发送恶意用户的扰动结果集的查询至待验证模型,接收验证模型返回的预测结果并与查询对应的扰动过的预测结果进行比较,如一致,则认为该查询被验证;当存在一个恶意用户的扰动结果集中被验证的查询与该恶意用户的扰动结果集中查询总数之比大于预设比例阈值时,则判断待验证模型为通过模型窃取而得的非法模型。
全文数据:
权利要求:
百度查询: 电子科技大学 一种针对模型窃取攻击的综合防御方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。