恭喜南京航空航天大学肖冠平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京航空航天大学申请的专利基于未标记数据的可追溯性链接恢复模型训练数据增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115408041B 。
龙图腾网通过国家知识产权局官网在2025-01-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211004732.9,技术领域涉及:G06F8/70;该发明授权基于未标记数据的可追溯性链接恢复模型训练数据增强方法是由肖冠平;朱剑飞设计研发完成,并于2022-08-22向国家知识产权局提交的专利申请。
本基于未标记数据的可追溯性链接恢复模型训练数据增强方法在说明书摘要公布了:本发明公开了一种基于未标记数据的可追溯性链接恢复模型训练数据增强方法,包括以下步骤:1预测未标记和已标记软件制品之间的相似度;2对未标记软件制品进行链接标记;3将新标记链接数据补充至可追溯性链接恢复模型的训练数据集。本发明使用对比学习相似度预测方法对未标记和已标记软件制品之间的相似关系进行预测,进而生成相似度列表,通过选择高相似度的制品对,给未标记制品与已标记制品的链接对象之间创建链接,并加入到可追溯性链接恢复模型的训练数据集中,增强训练数据集的数量,以提升可追溯性链接恢复模型的性能。
本发明授权基于未标记数据的可追溯性链接恢复模型训练数据增强方法在权利要求书中公布了:1.一种基于未标记数据的可追溯性链接恢复模型训练数据增强方法,其特征在于,包括以下步骤:1使用相似度预测方法对未标记和已标记软件制品之间进行相似度预测,获取相似度列表;2根据步骤1得到的相似度列表,对未标记软件制品进行链接标记;3将步骤2得到的新标记链接数据补充至可追溯性链接恢复模型的训练数据集;所述步骤1包括以下步骤:11对软件制品的自然语言文本进行文本预处理,包括分词、转换为小写、删除标点符号和去除停用词;12采用对比学习进行未标记和已标记软件制品之间相似度预测:对比学习的训练数据由已标记软件制品链接生成,其中链接到同一目标制品的源制品被视为相似样本,即正样本;而未链接到同一目标制品的源制品被视为不相似样本,即负样本;遍历已标记链接,将链接到同一目标制品的源制品分为一组,组的数量等于目标制品的总数,对所有源制品进行笛卡尔积运算;然后遍历每个源制品对,如果两个源制品同时出现在任一源制品组中,则将它们视为正样本;如果两个源制品没有同时出现在任一源制品组中,则将它们视为负样本,从而生成对比学习训练数据;软件制品的文档中每个单词被分配唯一索引,软件制品文本被表示为单词索引序列,每个单词使用预训练Glove词嵌入模型编码为向量,按索引顺序填充到矩阵的每一行,形成词嵌入矩阵;建立连体的长短期记忆网络,连体网络由两个相同的长短期记忆网络组成,词嵌入矩阵作为权重输入到连体网络的嵌入层中,每句话可以根据其单词索引在词嵌入矩阵中找到相应的向量表示;软件制品的文本输入到连体网络中,并被表示为向量a={w1,w2,…,wn},其中,wi是这段文本中第i个词的嵌入表示,向量长度为n,在时刻t进入长短期记忆网络的wi被表示为xt,长短期记忆网络在当前时刻的输出ht取决于当前的输入xt,上一时刻的输出ht-1和网络的长期记忆单元C;连体网络输出软件制品之间的曼哈顿距离,并通过对比损失函数训练模型,使相似制品距离更近,不相似制品距离更远;得到软件制品相似度列表,并按相似度降序排序;步骤12所述长短期记忆网络使用一系列“门”控制数据序列中的信息如何进入、存储和离开网络;遗忘门gforgot决定要遗忘的信息:gforgott=σWf×xt+Uf×ht-1根据前一时刻的短期记忆单元ht-1和当前时刻的输入xt,生成一个记忆单元输入门gin选择要记住的信息并将其添加到最后一个被遗忘门过滤的长时记忆单元Ct-1中,并更新为新的长时记忆单元Ct:gint=σWi×xt+Ui×ht-1 输出门gout在当前时刻选择与当前任务相关的信息,生成输出ht:goutt=σWo×xt+Uo×ht-1ht=gout×tanhCt其中,W和U是权重矩阵,σ是sigmoid函数,tanh是激活函数;连体网络最终输出一个n维向量h,使用曼哈顿距离衡量两个向量的相似度,定义为:Similarityh1,h2=exp-||h1-h2||1其中,h1和h2是两个软件制品的向量,而exp.用于在0和1之间标准化曼哈顿距离;对比损失是模型训练的目标定义为: 其中,m是一个超参数,为不同样本之间的距离下限;y和分别是一对两个制品ai和aj的真实和预测标签;如果两个制品不相似,即y=0,则等式最小化它们的预测值否则,会最小化即最大化预测值
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:211106 江苏省南京市江宁区将军大道29号南京航空航天大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。