首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本分类模型训练方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京达佳互联信息技术有限公司

摘要:本公开关于一种文本分类模型训练方法、装置、电子设备以及存储介质。该方法包括:获取样本文本;将样本文本输入待训练的文本分类模型,以生成样本文本的正文在不同维度下的正文语义特征向量,和样本文本的标题在不同维度下的标题语义特征向量;从不同维度下的正文语义特征向量和标题语义特征向量中,选取至少一对匹配于相同的文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量;基于样本文本的正负样本类型,采用调整文本分类模型的参数,以使得第一类语义特征向量对中的正文语义特征向量的值和标题语义特征向量的值最大化或最小化的方式,执行对待训练的文本分类模型的训练。

主权项:1.一种文本分类模型训练方法,其特征在于,包括:获取样本文本;单个所述样本文本包括:正文和与正文对应的标题;将所述样本文本输入待训练的文本分类模型,以生成所述样本文本的正文在不同维度下的正文语义特征向量,和所述样本文本的标题在所述不同维度下的标题语义特征向量;其中,所述不同维度中的最大维度,基于预设的文本分类标签的数量确定;按照所述不同维度下的正文语义特征向量的值由大至小的顺序,依次选取指定数量的正文语义特征向量;按照所述不同维度下的标题语义特征向量的值的由大至小的顺序,依次选取所述指定数量的标题语义特征向量;从选取的所述指定数量的正文语义特征向量和所述指定数量的标题语义特征向量中,选取至少一对匹配于相同所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量,作为第一类语义特征向量对;从所述不同维度下的正文语义特征向量和所述不同维度下的标题语义特征向量中,选取至少一对匹配于不同的所述文本分类标签、且具备相同维度的正文语义特征向量和标题语义特征向量,作为第二类语义特征向量对,其中,在选取的指定数量的正文语义特征向量和指定数量的标题语义特征向量中,将除组成第一类语义特征向量对以外的正文语义特征向量与同维度下未在指定数量内被选取的标题语义特征向量,作为第二类语义特征向量对;基于所述样本文本的正负样本类型,采用调整所述文本分类模型的参数,以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式,执行对所述待训练的文本分类模型的训练;若所述样本文本的类型为正样本,则采用调整所述文本分类模型的参数,以使得所述第二类语义特征向量对中的正文语义特征向量的值和所述第二类语义特征向量对中的标题语义特征向量的值最小化的方式,执行所述文本分类模型的训练;其中,所述基于所述样本文本的正负样本类型,采用调整所述文本分类模型的参数,以使得第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化或最小化的方式,执行对所述待训练的文本分类模型的训练,具体包括:若所述样本文本的类型为正样本,则采用调整所述文本分类模型的参数,以使得所述第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最大化的方式,执行所述文本分类模型的训练;若所述样本文本的类型为负样本,则采用调整所述文本分类模型的参数,以使得所述第一类语义特征向量对中的正文语义特征向量的值和所述第一类语义特征向量对中的标题语义特征向量的值最小化的方式,执行所述文本分类模型的训练。

全文数据:

权利要求:

百度查询: 北京达佳互联信息技术有限公司 文本分类模型训练方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。