一种基于联邦学习的文本纠错方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明属于文本纠错技术领域，提供一种基于联邦学习的文本纠错方法和系统。该方法包括：构建与各参与方相对应的语料库，形成相对应的训练集；对预训练模型进行微调，以获取微调后的初始模型参数，得到初始文本纠错模型；对微调后的初始模型参数进行加密得到加密后的初始模型参数；计算各参与方的语料库或场景任务的相似性，筛选待聚合处理的模型参数，进行安全聚合，得到相应的聚合模型参数；对聚合模型参数进行解密，进一步更新初始文本纠错模型；进行多轮联邦学习，得到最优文本纠错模型，以对待纠错文本进行纠错。本发明采用联邦学习方法让不同参与方在不共享原始数据的情况下，充分利用各方的专业语料，得到更精确的文本纠错模型。

主权项：1.一种基于联邦学习的文本纠错方法，其特征在于，包括：基于多参与方的专有语料，构建与各参与方相对应的语料库，并收集包含敏感信息的文本数据，进一步进行数据标注来构建训练样本对，以形成与各参与方相对应的训练集；各参与方接收处理中心所下发的模型结构和模型参数，并使用各自的训练集对预训练模型进行微调，以获取微调后的初始模型参数，得到初始文本纠错模型；采用Paillier同态加密算法，对微调后的初始模型参数进行加密得到加密后的初始模型参数，再发送给处理中心；对以下初始模型参数进行加密：文本纠错模型的编码层中BiGRU的权重矩阵和偏执向量，解码层中GRU以及注意力网络的权重矩阵和偏执向量；所述对微调后的初始模型参数进行加密，具体包括以下步骤：采用梅森素数生成算法，使用十六进制保存生成的素数，并指定素数位数，以得到两个不相等的第一安全素数p和第二安全素数q，并进一步计算相关参数n、λ，n表示第一安全素数p和第二安全素数素数q的乘积，λ表示第一安全素数p和第二安全素数q进行指定计算之后的最小公倍数；再由处理中心选择一个随机数m组成加密算法的公钥（n，m），其中0mn2，以计算各参与方的私钥（λ，），其中，；各参与方根据处理中心生成的公钥（n，m），设置一个计算参数r，r是正整数，且满足r小于n，采用以下表达式，计算加密后的模型参数：；其中，表加密之后的模型参数；表示加密之前的模型参数，n表示第一安全素数p和第二安全素数q的乘积；r为计算参数，用于增强加密强度，可取0～n，且rn；m表示随机数，m为正整数，且mn2；计算各参与方的语料库或场景任务的相似性，以筛选待聚合处理的模型参数，并进行安全聚合，得到相应的聚合模型参数；对所述聚合模型参数进行解密，并使用解密后的模型参数更新初始文本纠错模型，采用测试集进行测试，并继续进行模型训练，在达到迭代预定次数时，记录在测试集上的准确率，并基于准确率确定要保存的文本纠错模型；各参与方基于所保存的文本纠错模型，进行多轮联邦学习，当达到限定条件时，则停止联邦学习过程，以得到最优文本纠错模型；采用最优文本纠错模型对待纠错文本进行纠错，得到纠正后的文本。

全文数据：

权利要求：

百度查询：中国电子科技集团公司信息科学研究院一种基于联邦学习的文本纠错方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于联邦学习的文本纠错方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务