恭喜浙江大学;杭州一知智能科技有限公司姜伟昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学;杭州一知智能科技有限公司申请的专利一种基于对偶变换的半监督手语生成方法、系统和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114973421B 。
龙图腾网通过国家知识产权局官网在2025-03-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210735629.5,技术领域涉及:G06V40/20;该发明授权一种基于对偶变换的半监督手语生成方法、系统和存储介质是由姜伟昊;黄文粲;黄俊杰;赵洲;陈哲乾设计研发完成,并于2022-06-27向国家知识产权局提交的专利申请。
本一种基于对偶变换的半监督手语生成方法、系统和存储介质在说明书摘要公布了:本发明公开了一种基于对偶变换的半监督手语生成方法、系统和存储介质,属于手语生成领域,包括以下步骤:1、使用完整训练数据集对多任务模型G2P和多模态模型T2G进行监督预训练;2、基于模型G2P和模型T2G任务的对偶性,使用缺少标注数据的训练数据集对多任务模型G2P和多模态模型T2G进行对偶变换训练,设计多模态平衡损失来平衡预测结果更依赖于一种模态数据的倾向性;3、对模型T2G进行知识蒸馏,将模型T2G中的多模态知识迁移至学生模型t2g中。本发明首次针对半监督手语生成任务提出了一种对偶变换的方法,相比于目前最先进的方法实现了实质性的进步。
本发明授权一种基于对偶变换的半监督手语生成方法、系统和存储介质在权利要求书中公布了:1.一种基于对偶变换的半监督手语生成方法,其特征在于,包括以下步骤:S1:利用第一训练数据集对多任务模型G2P进行监督预训练,在训练过程中,多任务模型G2P对输入的手语片段同时生成相应的说话文本预测结果和手势序列预测结果;所述的多任务模型G2P包括手语片段编码器、文本解码器和手势序列解码器;所述的步骤S1包括:将第一训练数据集表示为其中,x1,y1,z1分别表示第一训练数据集中的说话文本、手语片段和手势序列;分别表示第一训练数据集中第i个训练样本中的说话文本、手语片段和手势序列,N为第一训练数据集中的训练样本数;训练过程中,引入无监督持续建模机制来减小训练过程中对手语片段注释的依赖;首先使用手语片段y1作为输入,通过多任务模型G2P生成说话文本预测结果和手势序列预测结果接着根据真实说话文本x1、真实手势序列z1计算训练损失,最后更新参数完成对模型G2P的训练;所述的多任务模型的训练损失计算过程如下: 其中,分别代表生成说话文本、手势序列的损失,代表模型训练过程中的无监督持续建模机制损失,λd代表权重因子,MSE为均方差损失,代表目标手势序列z1总长度,dt代表预测的第t个手语片段的长度,θenc表示手语片段编码器参数,表示文本解码器参数,表示手势序列解码器参数;S2:以步骤S1得到的说话文本预测结果和手势序列预测结果作为输入样本,以第一训练数据集中的真实手语片段作为标签,对多模态模型T2G进行监督预训练;所述的多模态模型T2G包含手势序列编码器、文本编码器、跨模态编码器和多模态解码器;所述的步骤S2包括:2.1:通过手势编码器对输入的手势序列行编码,得到手势特征hpose;2.2:通过文本编码器对输入的说话文本进行编码,得到文本特征htext;2.3:通过跨模态编码器对步骤2.1和步骤2.2得到的特征hpose和htext进行多模态特征融合,最终得到包含高层次语义信息的融合手势特征h′pose和融合文本特征h′text;计算过程如下: 其中,h=[hpose;htext]表示拼接后的手势特征和文本特征,ωq、ωk、ωv为可学习参数,上角标T表示转置,h′表示融合后的手势特征和文本特征;将最终得到h′分离为融合手势特征h′pose和融合文本特征h′text;2.4:通过多模态解码器对步骤2.3得到的融合手势特征h′pose和融合文本特征h′text进行模态平衡处理,得到手语片段第一预测结果和手语片段第二预测结果步骤2.4中所述的多模态解码器包括CTC联合训练层、跨注意力解耦层、门控双向融合层、手语片段预测器,具体计算过程如下:2.4.1:通过CTC联合训练层对融合手势特征h′pose进行手语片段预测,得到手语片段第一预测结果2.4.2:通过跨注意力解耦层对融合手势特征h′pose和融合文本特征h′text分别进行基于多头跨注意力机制的解耦操作,得到手语片段-手势跨注意力特征g′<t,1和手语片段-文本跨注意力特征g′<t,2,计算过程如下:g′<t,1=MultiHeadg<t,h′pose,h′poseg′<t,2=MultiHeadg<t,h′text,h′text其中,g<t∈Rt×d为前t个真实手语片段的编码特征;2.4.3:通过门控双向融合层对步骤2.4.2得到的手语片段-手势跨注意力特征g′<t,1和手语片段-文本跨注意力特征g′<t,2进行特征融合,得到融合特征g′<t,计算过程如下:g′<t=g′<t,1⊙c+g′<t,2⊙1-cc=σ[g′<t,1;g′<t,2;g<t]Wc其中,⊙代表哈达玛积操作,Wc∈R3d×d为可学习参数,σ代表sigmoid函数,[.;.;.]代表拼接操作;2.4.4:通过手语片段预测器对融合特征g′<t进行预测,得到手语片段第二预测结果2.5根据步骤2.4得到的手语片段第二预测结果和手语片段第一预测结果结合真实结果y1计算训练损失,最后更新参数完成多模态模型T2G的训练;S3:利用步骤S2预训练后的多模态模型T2G对第二训练数据集进行预测,得到手语片段预测结果;步骤S3中所述的第二训练数据集表示为手语片段预测结果为其中,x2,z2分别表示第二训练数据集中的说话文本和手势序列;分别表示第二训练数据集中第i个训练样本中的说话文本和手势序列,M为第二训练数据集中的训练样本数,表示针对第二训练数据集的手语片段预测结果,表示针对第二训练数据集中第i个训练样本的手语片段预测结果;S4:利用第二训练数据集和步骤S3得到的手语片段预测结果,对预训练后的多任务模型G2P进行训练;S5:利用步骤S4训练好的多任务模型G2P对第三训练数据集进行预测,得到说话文本预测结果和手势序列预测结果;步骤S5中所述的第三训练数据集表示为其中,y2表示第三训练数据集中的手语片段,表示第三训练数据集中第i个手语片段,O为第三训练数据集中的训练样本数;S6:利用第三训练数据集、步骤S5得到的说话文本预测结果和手势序列预测结果,对预训练后的多模态模型T2G进行训练;S7:利用第一训练数据集对步骤S4训练后的多任务模型G2P和步骤S6训练后的多模态模型T2G再次进行全监督训练;S8:将步骤S7训练后的多模态模型T2G作为教师模型,对教师模型T2G进行知识蒸馏,将知识迁移到学生模型t2g;所述的步骤S8包括:S8-1:通过步骤S7训练好的多模态模型T2G对第二训练数据集中的每个样本生成K个最优的手语片段预测结果将手语片段预测结果与第二训练数据集组合形成新的第二训练数据集通过步骤S7训练好的多任务模型G2P对第三训练数据集中的每个样本生成K个最优的说话文本预测结果和手势序列预测结果得到新的第三训练数据集定义全量数据集其中,x,y,z分别表示全量数据集中的说话文本、手语片段和手势序列;S8-2:将步骤S7训练后的多模态模型T2G作为教师模型,对教师模型T2G在全量数据集S上进行知识蒸馏,计算知识蒸馏损失S8-3:将步骤S8-2知识蒸馏后得到的学生模型t2g在第一训练数据集进行监督训练,计算学生模型训练损失S8-4:计算总损失: 其中,λ为权重因子,Qs2syt=k|yt,x,z;θT2G代表教师模型T2G针对全量数据集中的第t个手语片段yt通过端到端解码的输出分布,Pt2gyt=k|yt,x;θt2g为学生模型t2g的条件概率,代表全量数据集中的手语片段数量,代表第一训练数据集,x1,y1分别表示第一训练数据集中的说话文本和手语片段,θt2g代表学生模型t2g的参数,θT2G代表教师模型T2G的参数;S9:结合步骤S7训练后的多任务模型G2P和步骤S8得到的学生模型t2g,获得最终的手语生成模型,利用最终的手语生成模型中的学生模型t2g将说活文本翻译成手语片段,再利用多任务模型G2P将手语片段生成手语序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;杭州一知智能科技有限公司,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。