买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请涉及人工智能技术领域,揭示了一种句子向量生成方法、装置、设备及存储介质,其中方法包括:获取目标文本数据;将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量,其中,所述句子向量生成模型是采用多个训练样本对神经网络训练得到的模型,每个所述训练样本包括:语料片段和语料片段定义。从而实现基于语料片段和语料片段定义对神经网络训练进行训练得到句子向量生成模型,降低了训练难度,避免了采用无监督学习的方法或基于对比学习的方法构建句子向量。
主权项:1.一种句子向量生成方法,其特征在于,所述方法包括:获取目标文本数据;将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量,其中,所述句子向量生成模型是采用多个训练样本对神经网络训练得到的模型,每个所述训练样本包括:语料片段和语料片段定义;所述将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量的步骤之前,还包括:获取多个所述训练样本;获取预设批次数量的所述训练样本作为训练样本集;根据所述训练样本集中的每个所述语料片段进行词向量生成,得到第一词向量;采用初始模型,对所述训练样本集中的每个所述语料片段定义进行句子向量生成,得到第一句子向量,其中,所述初始模型是基于Bert模型或XLNET模型得到的模型;根据各个所述第一词向量和各个所述第一句子向量进行损失值计算,得到第一损失值,根据所述第一损失值更新所述初始模型的参数,将更新后的所述初始模型用于下一次计算所述第一句子向量;重复执行所述获取预设批次数量的所述训练样本作为训练样本集的步骤,直至达到第一训练目标;将达到所述第一训练目标的所述初始模型作为所述句子向量生成模型;所述根据所述训练样本集中的每个所述语料片段进行词向量生成,得到第一词向量的步骤,包括:对所述训练样本集中的每个所述语料片段进行分词处理,得到语料片段短语集;采用预设词向量模型,对每个所述语料片段短语集中的各个短语进行词向量生成,得到短语词向量集;对每个所述短语词向量集进行平均值计算,得到所述第一词向量;所述采用初始模型,对所述训练样本集中的每个所述语料片段定义进行句子向量生成,得到第一句子向量的步骤,包括:对所述训练样本集中的每个所述语料片段定义进行分词处理,得到定义短语集;将每个所述定义短语集输入所述初始模型进行句子向量生成,得到所述第一句子向量。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。