买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国家计算机网络与信息安全管理中心
摘要:本发明提供一种文本相似度确定模型的训练方法及文本相似度计算方法,属于计算机技术领域,该训练方法包括:获取第一数据集和第二数据集;第一数据集中包括至少一个短文本数据对;第二数据集中包括至少一个目标文本数据对,目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取第二数据集中各目标文本数据的关键表述;句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的;基于各关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似性确定模型。通过在判定过程中引入短文本和长文本,提升了文本相似度确定模型输出结果的准确性。
主权项:1.一种文本相似度确定模型的训练方法,其特征在于,包括:获取第一数据集和第二数据集;所述第一数据集中包括至少一个短文本数据对;所述第二数据集中包括至少一个目标文本数据对,所述目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取所述第二数据集中各所述目标文本数据的关键表述;所述句向量对比模型是基于所述第一数据集和第一损失函数对第一预训练模型训练得到的;所述基于句向量对比模型,获取所述第二数据集中各所述目标文本数据的关键表述,包括:获取所述第二数据集中的一个目标文本数据对;基于标点符号,将所述目标文本数据对中的第一目标文本数据和第二目标文本数据分别进行分割,得到所述第一目标文本数据的第一子句子集合和所述第二目标文本数据的第二子句子集合;将所述第一子句子集合和所述第二子句子集合进行合并,得到所述目标文本数据对对应的句子集合;所述句子集合中包括至少两个句子;基于所述句向量对比模型,得到所述句子集合中,两两句子之间的相似度;以所述句子集合中每一个句子为节点构造有权无向图,基于加权PageRank算法确定各所述节点的重要度;基于所述重要度分别对所述第一子句子集合中的句子和所述第二子句子集合中的句子进行排序,选取所述第一子句子集合中前预设数量的句子作为所述第一目标文本数据的关键表述,并选取所述第二子句子集合中前预设数量的句子作为所述第二目标文本数据的关键表述;继续执行所述获取所述第二数据集中的一个目标文本数据对的步骤,得到所述第二数据集中各所述目标文本数据的关键表述;基于各所述关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似度确定模型;所述文本相似度确定模型用于确定文本数据之间的相似度;所述基于各所述关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似度确定模型,包括:针对每个所述目标文本数据对,将所述目标文本数据对中的各所述目标文本数据的关键表述进行拼接,得到所述目标文本数据对对应的第一文本;将各所述目标文本数据对对应的第一文本输入所述第二预训练模型中,得到各所述第一文本对应的相似度;以最小化所述第二损失函数为约束条件,对所述第二预训练模型进行训练,得到所述文本相似度确定模型。
全文数据:
权利要求:
百度查询: 国家计算机网络与信息安全管理中心 文本相似度确定模型的训练方法及文本相似度计算方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。