基于增量学习的文本分类模型训练方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥高维数据技术有限公司

摘要：本发明涉及一种基于增量学习的文本分类模型训练方法及装置，应用于自然语言处理技术领域，其文本分类模型的训练方法包括：构建文本数据训练基座模型；每次增量学习训练时，先对所述语言模型A2进行训练，增加新标签，得到新标签对应语义空间上的特征；再对所述语言模型A1进行训练；当完成对所述语言模型A1和A2的训练后，最后对所述文本自编码器AE进行训练。本发明在文本分类模型的增量学习场景中无需保存初始文本，具备更好的学习能力和抗遗忘能力。

主权项：1.一种基于增量学习的文本分类模型训练方法，其特征在于，包括：S11.构建文本数据训练基座模型，包括：S11a.获取初始训练文本数据D0，对应初始训练标签L0，预设语言模型A1和A2，所述语言模型A1和A2使用相同的初始预训练语言模型；S11b.将所述初始训练文本数据D0输入所述语言模型A1获取所述初始训练文本数据D0的语义特征FD，同时将所述初始训练标签L0输入所述语言模型A2获取所述初始训练标签L0的语义特征FL；S11c.对所述语言模型A1和A2进行微调训练，将所述初始训练文本数据D0的语义特征FD和所述初始训练标签L0的语义特征FL进行相似度计算，训练目标为：其中，dl为训练文本d对应的标签，sim为相似度计算函数，A1d代表所述初始训练文本数据D0输入所述语言模型A1的输出，A2dl代表所述训练文本d对应的标签通过所述语言模型A2得到的输出，A2l代表所述初始训练标签L0通过所述语言模型A2得到的输出；S11d.遍历所述初始训练文本数据D0和初始训练标签L0中所有数据，按所述S11a-S11c步骤完成对所述语言模型A1和A2的训练后，再对文本自编码器AE进行训练，获得训练好的编码器，包括：S11d1.将所述初始训练文本数据D0中所有数据输入所述语言模型A1的冻结参数层得到所述初始训练文本数据D0中所有数据的中间语义特征F，将所述中间语义特征F输入所述自编码器AE的编码器不断降维得到编码结果，再将所述编码结果输入所述编码器AE的解码器不断升维得到所述初始训练文本数据D0中所有数据的重建中间语义特征F'，所述自编码器AE的训练目标为：其中，KL代表KL散度，用于衡量所述初始训练文本数据D0中所有数据的中间语义特征F重建的效果；S11d2.为所述初始训练文本数据D0中所有数据的每个类别选择重建中间语义特征F'和中间语义特征F的KL散度最小的k个样本，将所述k个样本通过所述自编码器AE编码的结果保存为文本编码库E；S12.每次增量学习训练时，先对所述语言模型A2进行训练，增加新标签，得到新标签对应语义空间上的特征，包括：S12a.预设已经学习过的数据集D，已经学习的分类标签L，本次增量学习中新增的数据集ΔD，本次增量学习中新增未学习的标签ΔL；S12b.将所述分类标签L、未学习的标签ΔL输入所述语言模型A2进行训练，训练目标为：其中，α为所述分类标签L相似性的训练权重系数，用以保证所述分类标签L在语义空间上不变化，A2'为所述语言模型A2本次增量学习训练开始时的初始参数，sim为相似度计算函数，A2l代表所述分类标签L通过所述语言模型A2得到的输出，A2l1代表所述未学习的标签ΔL通过所述语言模型A2得到的输出；S13.再对所述语言模型A1进行训练，包括：用所述自编码器AE对所述文本上一次增量学习过程中更新的文本编码库E进行解码得到所述已经学习过的数据集D的重建中间语义特征FD'，将所述新增的数据集ΔD输入所述语言模型A1的冻结参数层，得到所述新增的数据集ΔD的中间语义特征FΔD'，对所述语言模型A1进行训练，训练目标为：其中，fl为中间语义特征f对应文本的标签，sim为相似度计算函数，A1f代表所述中间语义特征f通过所述语言模型A1的非冻结参数层得到的输出，A2fl代表所述中间语义特征f对应文本的标签通过所述语言模型A2得到的输出，A2l代表所述分类标签L和所述未学习的标签ΔL通过所述语言模型A2得到的输出；S14.当完成对所述语言模型A1和A2的训练后，最后对所述文本自编码器AE进行训练，包括：S14a.将所述已经学习过的数据集D的重建中间语义特征FD'和所述新增的数据集ΔD的中间语义特征FΔD'输入所述自编码器AE的编码器不断降维得到编码结果，再将所述编码结果输入所述编码器AE的解码器不断升维得到所述已经学习过的数据集D再次重建的中间语义特征FD”和所述新增的数据集ΔD的重建的中间语义特征FΔD”，其中所述自编码器AE的训练目标为：其中，KL代表KL散度，用于衡量已经学习过的数据集D的中间语义特征FD'和所述新增的数据集ΔD的中间语义特征FΔD'重建的效果；S14b.为所述已经学习过的数据集D和所述新增的数据集ΔD选择所述中间语义特征FD'、所述中间语义特征FΔD'和所述中间语义特征FD”、所述中间语义特征FΔD”KL散度最小的k个样本，将所述k个样本通过所述自编码器AE编码的结果保存，再次更新所述文本上一次增量学习过程中更新的文本编码库E，重建所述已经学习过的数据集D和所述新增的数据集ΔD的语义特征，用于后续增量学习过程中文本数据库的更新。

全文数据：

权利要求：

百度查询：合肥高维数据技术有限公司基于增量学习的文本分类模型训练方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：显示装置

下一篇：一种基于BTBC模型的知识图谱构建方法

相关技术

显示装置

一种基于BTBC模型的知识图谱构建方法

基于特征卷积神经网络的太赫兹超分辨重建方法及系统

一种地铁或列车车底关键部件自适应巡检方法及装置

一种室内AGV分拣小车防冲突调度及应急避障方法

wifi接收机的工作模式确定方法、装置、设备及存储介质

一种利用手机信令数据识别家庭关系的方法

一种翻译方法、翻译装置和计算机可读存储介质

一种汽车大灯树脂镜片成型用自动分离机构

一种吹扫式气热共储装置及换热系统

一种叶轮自吸冷却的磁悬浮风机

一种用于验证CPU指令模拟执行效果一致性的方法

模型相关技术

拼接式趣味航空模型_苏奕豪_202420114195.1

基于大模型的嵌入模型的训练方法、装置、设备及介质_海信集团控股股份有限公司_202410865861.X

基于智能体模型的涡轮冷却器控制模型压缩方法和装置_中国航空工业集团公司金城南京机电液压工程研究中心_202411149596.1

一种模型生成方法、模型生成设备及电子设备_浙江大华技术股份有限公司_202411402408.1

基于几何模型算法和无几何模型算法融合的RTK定位方法_中国电子科技集团公司第五十四研究所_202210256583.9

集成模型训练、时序预测方法和装置、时序预测集成模型_北京百度网讯科技有限公司_202410797406.0

一种模型处理方法、装置和用于模型处理的装置_北京搜狗科技发展有限公司_202111301382.8

一种基于Transformer模型的代码生成和代码注释的双重模型方法_沈阳工业大学_202410949071.X

将数据从RVM格式模型到PDMS三维模型的转换方法_四川电力设计咨询有限责任公司_202411411985.7

神经网络模型的量化方法和量化神经网络模型的装置_三星(中国)半导体有限公司_202011564315.0

分类相关技术

基于主题预分类和知识图谱的多维文本分类方法_北京市新技术应用研究所有限公司_202411002529.7

满线轮分类码垛装置、绕线系统及满线轮分类码垛方法_苏州江锦自动化科技有限公司_202110424592.X

一种具有垃圾分类指导功能的生活垃圾分类屋_深圳市创辉煌环保科技发展有限公司_202420040748.3

一种分类模型的训练和文本分类方法、装置、电子设备_腾讯科技(深圳)有限公司_202310512241.3

用户分类方法及相关装置_博泰车联网科技(上海)股份有限公司_202010896133.7

基于模型的特征化和分类_格瑞尔有限责任公司_202080036172.8

一种试卷分类夹_山东商务职业学院_202420359596.3

一种聚氨酯分类筛网_福建奥晟科技有限公司_202420459508.7

基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备_哈尔滨理工大学_202410983886.X

一种炼焦用煤应用分类方法_武汉钢铁有限公司_202411089185.8

文本相关技术

文本分类方法、文本查找方法、装置、设备及介质_北京拓普丰联信息科技股份有限公司_202411045386.8

文本处理方法及装置_恒生电子股份有限公司_202411000017.7

基于实体描述的文本生成方法_清华大学_202210520980.2

文本到人体动作合成方法及装置_世优宇宙(成都)科技有限公司_202411044244.X

一种文本事件关系提取方法、装置_支付宝(杭州)信息技术有限公司_202410917317.5

文本翻译方法、装置、电子设备和存储介质_中国科学技术大学_202111577763.9

标准文本处理方法、装置、设备及介质_中国电子技术标准化研究院_202410785324.4

文本摘要模型的训练方法及装置_阿里巴巴(中国)有限公司_202210374234.7

文本生成方法、装置、设备和存储介质_深圳依时货拉拉科技有限公司_202410970513.9

召回文本推荐方法、装置、设备及存储介质_平安科技(深圳)有限公司_202210241295.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于增量学习的文本分类模型训练方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务