首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种句子向量模型训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:临沂中科好孕智能技术有限公司

摘要:本发明提供一种句子向量模型训练方法,包括:S1、对多个原始句子进行数据增强处理,得到每个原始句子的多个相似句子,将所有句子复制多份后用于构建多个句子对及其相似性标签;S2、用BERT模型基于所述多个句子对进行预训练,得到第一BERT模型,其中,所述预训练包括利用句子对进行掩码语言模型预训练以及利用句子对和相似性标签进行的判断两个句子是否相似的预训练;S3、利用相应领域的任务对应的分类数据集对第一BERT模型进行微调,得到句子向量模型,该模型具有较好的泛化能力。基于句子向量模型采用的文本检索方法,提高文本检索效率。

主权项:1.一种句子向量模型训练方法,其特征在于,包括:S1、对多个原始句子进行数据增强处理,得到每个原始句子的多个相似句子,将所有句子复制多份后用于构建多个句子对及其相似性标签;S2、用BERT模型基于所述多个句子对进行预训练,得到第一BERT模型,其中,所述预训练包括利用句子对进行掩码语言模型预训练以及利用句子对和相似性标签进行的判断两个句子是否相似的预训练;S3、利用相应领域的任务对应的分类数据集对第一BERT模型进行微调,得到句子向量模型;其中,所述预训练的学习过程包括:随机遮罩句子对中预定比例的词,在BERT模型中进行掩码语言模型预训练,获得遮罩词的预测结果,基于预测结果和遮罩的原词计算第一子损失;将句子对输入BERT模型中进行二分类预训练,获得指示句子对中两个句子是否相似的分类结果,根据分类结果和相似性标签计算第二子损失;利用第一子损失和第二子损失加权求和的总损失通过反向传播更新BERT模型参数,得到第一BERT模型。

全文数据:

权利要求:

百度查询: 临沂中科好孕智能技术有限公司 一种句子向量模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。