首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于动态样本权重的小样本文本多标记模型训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京易聊科技有限公司

摘要:本发明公开了一种基于动态样本权重的小样本文本多标记模型训练方法,包括S1、基于平滑原则初始化多标记训练样本的权重,获取多标记训练样本的初始权重;S2、利用多标记训练样本训练多标记模型,并基于初始权重为多标记模型构建复合样本权重损失函数;S3、在多标记模型训练过程中,根据多标记模型对多标记训练样本的标记预测结果调整多标记训练样本的权重;S4、将调整后的权重作为初始权重,迭代执行步骤S2~S3,直至满足预定收敛条件,得到训练好的多标记模型。优点是:通过在训练过程中,引入样本权重调节和对应的损失函数,可以极大程度缓解标注样本数量不足、正负样本不平衡所带来的问题,获得实际可用的文本多标记模型。

主权项:1.一种基于动态样本权重的小样本文本多标记模型训练方法,其特征在于:包括如下步骤,S1、基于平滑原则初始化多标记训练样本的权重,获取多标记训练样本的初始权重;所述平滑原则为,对训练数据之外的样例数估计值,通过设置伪计数获得对样本组成的调整能力;多标记训练样本的初始权重利用如下公式计算, 其中,wi,j,t=0为t=0时第i个样例第j个标记对应的权重,即初始权重;pci,j,t=0为t=0时第i个样例第j个标记对应的正样例伪计数;为负样例总实际计数;为正样例总实际计数;ri,j,t=0为t=0时第i个样例第j个标记对应的正规项;为t=0时的总伪计数;为t=0时的总实际计数;yi,j为第i个样例第j个标记期望值;ci,j,t=0为t=0时第i个样例第j个标记对应的实际计数,定义为1;t为多标记模型训练轮数;S2、利用多标记训练样本训练多标记模型,并基于初始权重为多标记模型构建复合样本权重损失函数;S3、在多标记模型训练过程中,根据多标记模型对多标记训练样本的标记预测结果调整多标记训练样本的权重;S4、将调整后的权重作为初始权重,迭代执行步骤S2~S3,直至满足预定收敛条件,得到训练好的多标记模型。

全文数据:

权利要求:

百度查询: 北京易聊科技有限公司 基于动态样本权重的小样本文本多标记模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。