首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本后门攻击方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学

摘要:本发明提供一种文本后门攻击方法和装置,其中,方法包括:获取测试样本;将所述测试样本输入注入后门的受害模型中,得到所述测试样本的判断结果;其中,所述插入后门的受害模型是通过下述方法获得:确定一个特定的文本风格作为后门攻击的触发特征;将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本;根据所述训练样本对受害模型训练,得到注入后门的受害模型。本发明通过上述步骤可以研究文本后门攻击技术,可以检测自然语言处理模型的安全性和鲁棒性,管控自然语言处理模型投入实际应用的风险。

主权项:1.一种文本后门攻击方法,其特征在于,包括:获取测试样本;将所述测试样本输入注入后门的受害模型中,得到所述测试样本的判断结果;其中,所述注入后门的受害模型是通过下述方法获得:确定一个特定的文本风格作为后门攻击的触发特征;将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本;根据所述训练样本对受害模型训练,得到注入后门的受害模型;所述确定一个特定的文本风格作为后门攻击的触发特征,具体包括:根据训练数据构建原样本集合;对所述原样本集合进行不同文本风格迁移,得到与所述不同文本风格分别对应的不同风格迁移样本集;根据所述不同风格迁移样本集分别对所述受害模型进行训练并确定各个训练后的受害模型分类准确率最低时对应的风格迁移样本集,将所述风格迁移样本集对应的第一文本风格作为后门攻击的触发特征;所述将待投毒样本进行文本风格迁移,得到具有所述触发特征的训练样本,具体包括:从所述训练数据随机筛选出原始训练样本作为待投毒样本;将所述投毒样本进行所述第一文本风格迁移,得到具有所述触发特征的训练样本并作为中毒样本;所述根据所述训练样本对受害模型训练,得到注入后门的受害模型,具体包括:将所述中毒样本与所述训练数据中所述待投毒样本之外的其他样本进行混合,得到新的训练数据集;根据所述新的训练数据集对所述受害模型进行训练,得到注入后门的受害模型。

全文数据:

权利要求:

百度查询: 清华大学 文本后门攻击方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。