买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯科技(深圳)有限公司
摘要:本申请公开了一种内容分类模型的训练方法以及相关设备;可对训练数据中样本内容进行内容切片,得到多个内容片段,训练数据包括标注样本内容和无标注样本内容;通过内容分类模型提取样本内容的全局特征信息和样本内容的各个内容片段的局部特征信息;基于标注样本内容的类别标签信息对各个样本内容的全局特征信息进行聚类,得到无标注样本内容的类别标签信息;根据内容片段的局部特征信息和内容片段所属样本内容的全局特征信息,计算内容片段和其所属的样本内容的一致性信息;基于一致性信息和无标注样本内容的类别标签信息,对内容分类模型的参数进行调整,得到目标内容分类模型。本申请能够节省数据标注成本和时间;且还可提升模型分类准确性。
主权项:1.一种内容分类模型的训练方法,其特征在于,包括:获取内容分类模型和训练数据,所述训练数据中的样本内容包括标注样本内容和无标注样本内容,所述标注样本内容携带有其对应的类别标签信息;针对每个样本内容,对所述样本内容进行内容切片处理,得到所述样本内容的多个内容片段;通过所述内容分类模型,分别对所述样本内容和所述样本内容的各个内容片段进行特征提取处理,得到所述样本内容的全局特征信息和各个内容片段对应的局部特征信息;基于所述标注样本内容的类别标签信息,对所述训练数据中各个样本内容的全局特征信息进行聚类处理,得到所述无标注样本内容对应的类别标签信息;针对所述样本内容的各内容片段,根据所述内容片段对应的局部特征信息和所述内容片段所属样本内容的全局特征信息,计算所述内容片段和其所属的样本内容之间的一致性信息;基于所述样本内容的全局特征信息,对所述样本内容进行内容分类处理,得到所述样本内容对应的全局类别概率分布信息;基于所述内容片段对应的局部特征信息,对所述内容片段进行内容分类处理,得到所述内容片段对应的局部类别概率分布信息;根据所述全局类别概率分布信息、所述局部类别概率分布信息、所述一致性信息和所述无标注样本内容对应的类别标签信息,对所述内容分类模型的参数进行调整,得到目标内容分类模型,所述目标内容分类模型用于对目标内容进行内容分类处理,得到所述目标内容的类别标签信息。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 内容分类模型的训练方法以及相关设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。