买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学珠海学院
摘要:本公开涉及一种多模态多分支融合的宽时间范畴情感识别系统构建方法;基于注意力机制的思想设计了鲁棒性较强的多模态多分支融合网络,该网络实现决策级的多模态融合,根据不同分支的识别结果对最终预测的贡献,动态的分配每个分支的权重。为多模态情感识别系统设计了一个基于注意力机制的多模态多分支融合网络。此外,将宽时间范畴的情境信息融入了多模态情感识别系统中,实现了宽时间范畴下的多模态情感识别。实验证明该网络能够有效的实现多模态多分支融合,且在多模态融合过程中,输入的分支越多,情感识别的效果越好,情境描述使实验结果实现了大幅提升,实验证明了多模态融合网络能够提升模型在复杂环境下的识别效果。
主权项:1.多模态多分支融合的宽时间范畴情感识别系统构建方法,其特征在于包括如下步骤:1将模态信息包括面部表情、视频全局情景信息、音频和文本信息,分别通过ResNet18+ECA+FSFM特征提取模型、ResNeXt+CA+多尺度特征融合特征提取模型、VGGish特征提取模型、Bert特征提取模型单独训练,得到各自的分类结果;2使用全局平均池化将每个分支的特征表示转变为一个一维实数,得到维度为1×C的向量S,每一个实数都具有其对应的输入特征的全局感受野,计算公式如下: 其中,sj表示第j个通道上的分类结果对应的一维实数,表示第j个通道上特征的第i个元素,经过加和求均值得到结果;3根据输入的C的数值动态的计算一维卷积核k的尺寸,计算公式如下:C=φk=2γ*k-b 其中,k为卷积核尺寸,C为模块的输入通道数,γ和b是为非线性映射定义的参数,分别设置为2和1,公式中|t|odd的意义是取距离t的绝对值最近的奇数;4使用k×1的卷积核对上一步得到的向量做卷积操作,得到一个尺寸同样为1×C的向量,通过卷积核的操作实现局部通道之间关系的建模,使用sigmoid函数将该向量的值转化为0~1之间,就得到每个通道对应的注意力权重,计算过程如下:Z=σf1D,kS其中σ表示sigmoid函数,f1D,k·表示卷积核尺寸为k×1的一维卷积操作;5将得到的注意力权重与先前的输入逐通道相乘,就得到重新分配权重的分类结果表示,计算公式如下: 将其转变为一维向量后送入分类器,得到最后的情感识别结果。
全文数据:
权利要求:
百度查询: 北京理工大学珠海学院 多模态多分支融合的宽时间范畴情感识别系统构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。