买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本实施例提供的大规模候选集中的语义代码搜索模型构建方法及相关装置中,模型训练设备通过将样本查询语句以及样本代码片段一同输入到目标模型中,用于训练该目标模型学习样本插叙语句与样本代码片段之间的语义信息,待目标模型满足预设收敛条件时,获得能够同时对目标查询语句以及候选代码片段同时进行编码处理的语义代码搜索模型。如此,使得训练出的语义代码搜索模型能够在对目标查询语句以及候选代码片段进行处理时,能够发掘出两者之间可能存在的关联性。
主权项:1.一种大规模候选集中的语义代码搜索模型构建方法,其特征在于,应用于模型训练设备,所述方法包括:获取样本查询语句以及样本代码片段;训练目标模型对所述样本查询语句与所述样本代码片段中的关键信息进行预测,直到所述目标模型满足第一条件时,获得预训练模型;其中,所述关键信息包括被随机遮蔽的文本片段以及预设的关键词;该步骤具体包括:执行至少一次所述目标模型的迭代步骤,直到所述目标模型满足所述第一条件时,获得所述预训练模型;其中,所述目标模型的迭代步骤包括:按照预设概率从所述样本查询语句与所述样本代码片段中确定出所述文本片段;将遮蔽了所述文本片段的所述样本查询语句与所述样本代码片段,输入到所述目标模型;根据所述目标模型对所述文本片段的预测结果,获得所述目标模型的第一模型损失;根据所述目标模型对所述关键词的识别结果,获得所述目标模型的第二模型损失;将遮蔽了关键词的所述样本查询语句与所述样本代码片段,输入到所述目标模型;根据所述目标模型对所述关键词的预测结果,获得所述目标模型的第三模型损失;根据所述第一模型损失、所述第二模型损失以及所述第三模型损失,更新所述目标模型;训练所述预训练模型学习所述样本查询语句与所述样本代码片段语义之间的相似信息,直到所述预训练模型满足第二条件时,获得所述语义代码搜索模型;该步骤具体包括:执行至少一次所述预训练模型的迭代步骤,直到所述预训练模型满足所述第二条件时,获得所述语义代码搜索模型;其中,所述预训练模型的迭代步骤,包括:将所述样本查询语句与所述样本代码片段输入到所述预训练模型;根据所述预训练模型的输出结果,通过噪声对比损失函数获得所述预训练模型的第四模型损失;根据所述预训练模型输出的所述样本查询语句与所述样本代码片段之间的匹配概率,获得所述预训练模型的第五模型损失;根据所述第四模型损失与所述第五模型损失,更新所述预训练模型。
全文数据:
权利要求:
百度查询: 郑州大学产业技术研究院有限公司 北京航空航天大学杭州创新研究院 大规模候选集中的语义代码搜索模型构建方法及相关装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。