买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门大学
摘要:一种基于知识的多模态特征融合的动态图神经手语翻译方法,属于计算机视觉、自然语言处理和手语语言学领域。包括步骤:1对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;2利用半监督的方式对手语进行分割,获取伪标签序列;3利用伪标签序列对齐图网络节点;4构造多模态图编码器,融合视觉特征和文本特征;5将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念,利用半监督的聚类算法实现手语分割,利用多模态输入信息以提高翻译性能,突破在低资源条件下手语的翻译瓶颈,能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。
主权项:1.一种基于知识的多模态特征融合的动态图神经手语翻译方法,其特征在于包括以下步骤:1对视觉属性的特征和文本属性的特征分别进行抽象,表示成图网络节点;2利用半监督的方式对手语进行分割,获取伪标签序列,具体如下:输入端接收到具有N帧图像的视频帧源序列,其对应的视觉节点对象序列则记作Vf={Vf0,Vf1,...,Vfi,...,VfN};通过加载预训练好的模型参数,若保留CTC层,直接获取实际使用的伪手语词汇的对齐序列,记作Vgctc={Vgctc0,Vgctc1,...,Vgctci,...,VgctcM},其中,M表示伪手语词汇序列的单词个数;而为获取伪原始手语词汇序列特征,需要移除CTC层;假设每个视频帧序列对应输出的伪原始手语词汇序列特征记作P={P0,P1,...,Pi,...,PN},Pi∈{GLOSS-ID,PAD-ID},其中,GLOSS-ID表示手语词汇在词汇表中的ID编号,PAD-ID表示空格对应的ID编号;若词汇表长度为L,则0到L-1表示词汇对应的ID,而L则表示PAD-ID值;具体地,首先获取馈送至CTC层之前的序列特征模块输出的向量数组,在数学上称之为logit值;然后,使用softmax函数处理每个数组对应的logit数组,其数组中最大值对应的索引值即为伪原始手语词汇序列中词汇对应的编号,这个过程用公式表示为:LOGITfi=CSLRwoCTCVfi,Pi=IndexMaxsoftxmaxLOGITfi,其中,连续手语识别woCTC*表示去除CTC层的连续手语识别模型,LOGITfi表示Vfi视觉节点得到的logit值;IndexMax*则表示获取logit最大值对应的索引值;经过上述半监督步骤,即通过Vf和预训练模型得到伪手语词汇序列Vgctc以及伪原始手语词汇序列P;作为区别,简单而言Vgctc是P经过CTC层处理得到的进一步优化序列,其中,P和Vf长度相等且一一对应,而Vgctc长度则相对小很多;最终的目标是获得视频帧序列Vf中的帧节点和原始手语词汇序列P中的词汇节点的对齐关系,记作AlignArr={AVg0,AVg1,...,AVgi,...,AVgL},其中,Vg是定义不同于Vgctc的文本节点序列,是由伪标签序列P进一步生成的序列;AVgi为二元数组,例如AVgi={Vgi,Vfj}={Vfj,Pj}表示Vfi与Pj之间存在图对齐关系,i不等于j;L表示二元数组总个数,L会小于Vf帧数N;在假设的对应关系中,每个伪词汇节点Vgi必定有对应的某一个帧节点Vfj,而反之则不成立;此外,P和Vg是多对一关系,且P节点数一定大于或等于Vg节点数,其中,Vgi必对应于一个或多个P节点,而Pi节点未必有对应的Vg值;3利用伪标签序列对齐图网络节点;4构造多模态图编码器,融合视觉特征和文本特征,具体如下:假设,每个文本节点vxi初始状态为每个视觉节点voj的初始状态为堆叠多模态融合层对上述多模态图进行编码,在每个融合层,依次进行模态内和模态间融合以更新所有节点状态,利用这种方式,最终节点状态同时对相同模态内的上下文和跨模态语义信息进行编码;特别注意的是,由于视觉节点和文本节点是包含不同模态信息的两种语义单元,因此分别应用相似并不相同的参数来对其状态更新过程进行建模;具体而言,在最初的融合层中,文本节点状态的更新和视觉节点状态的更新主要包括以下子步骤:1模态内融合:通过接收来自同一模态内相邻的信息并利用自注意力机制来生成每个节点的上下文表示;形式上,所有文本节点的上下文表示的计算如下: 其中,MultiHeadQ,K,V是一个多头自注意力函数,其以query矩阵Q、key矩阵K和value矩阵V作为输入;同理,计算所有视觉节点的上下文表示的生成如下: 需要说明的是,由于视觉节点对象的初始表示是从深度卷积网络中提取的,因此应用简化的多头自注意力机制来保留视觉对象的初始表示,但会移除学习到的线性映射和尾部的输出层;2模态间融合:受多模态特征融合研究的启发,应用按元素操作的跨模态门控机制来收集每个节点的跨模态相邻节点的语义信息;具体而言,通过以下方式生成一个文本节点vxi的表示形式 其中,Avxi是vxi的相邻视觉节点的集合,而W1l和是参数矩阵;同理,生成一个视觉节点voj的表示表示为: 其中,Avoj是voj的相邻文本节点的集合,并且和也是参数矩阵;上述融合方法的优点是根据每个模态的上下文表示更好地确定模态间融合的程度;最后,采用位置前馈网络FFN*生成文本节点状态和视觉节点状态 其中,分别表示上述所有文本节点和视觉节点更新后的表示;最后,将所得的多模态特征执行残差连接和标准化,即得到多模态图嵌入层,其编码多模态融合特征,以便其后的机器翻译模块使用;5将多模态特征进行特征融合,输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。
全文数据:
权利要求:
百度查询: 厦门大学 一种基于知识的多模态特征融合的动态图神经手语翻译方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。