买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东省齐鲁大数据研究院
摘要:本发明涉及文本分类领域,具体公开一种基于自适应奖励机制的文本分类方法、系统、终端及介质,获取文本数据并预处理,构建训练样本;预处理过程中使用独热编码对层级标签进行处理;基于标签之间的层次关系,并引入基于余弦相似度的自适应奖励机制构建层次损失函数;构建层次文本分类模型,使用训练样本对层次文本分类模型进行训练,训练过程中基于层级损失函数使用反向传播算法调整模型参数;使用训练完成的层次文本分类模型对目标文本进行分类。本发明通过设计层次损失函数,并引入自适应奖励机制,有效解决传统方法在处理复杂层次结构文本数据时存在的局限性,显著提升分类的准确性和效率。
主权项:1.一种基于自适应奖励机制的文本分类方法,其特征在于,包括以下步骤:获取文本数据并预处理,构建训练样本;预处理过程中使用独热编码对层级标签进行处理;基于标签之间的层次关系,并引入基于余弦相似度的自适应奖励机制构建层次损失函数;构建层次文本分类模型,使用训练样本对层次文本分类模型进行训练,训练过程中基于层级损失函数使用反向传播算法调整模型参数;使用训练完成的层次文本分类模型对目标文本进行分类;其中,基于标签之间的层次关系,并引入基于余弦相似度的自适应奖励机制构建层次损失函数,具体包括:步骤1,对于每个标签层级,构建基本的交叉熵损失函数,表达式为: 式中,表示第标签层级的交叉熵损失,表示第标签层级的真实标签分布,表示第标签层级的预测标签概率分布,表示标签层级数量;步骤2,考虑到层次依赖关系,当计算超过顶层的损失时,对交叉熵应用了一个惩罚因子,表达式为: 式中,表示第标签层级的惩罚因子,;表示一个指示函数,如果为真,等于0,否则等于1;步骤3,基于惩罚因子调整除第1层之外的标签层级的交叉熵损失,调整后的交叉熵损失表达为: 式中,表示第标签层级的加权因子;;步骤4,计算每个标签层级的余弦相似度,表达式为: 式中,;步骤5,引入自适应奖励机制,计算平滑奖励,表达式为: 式中,;步骤6,构建总损失,表达式为: 式中,表示奖励因子,表示取平均值。
全文数据:
权利要求:
百度查询: 山东省齐鲁大数据研究院 一种基于自适应奖励机制的文本分类方法、系统、终端及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。