买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法,通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征,从不同的角度对目标人物的情感进行分析;通过事实描述和文本描述进行情感特征的提取,在宽时间范畴内对目标人物目前的情感状态进行更准确的推理,通过在SVCEmotion数据集的音频和文本描述数据上的实验证明,VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果,模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现;对比实验证明,SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索,且与事实描述结合能大幅提升情感识别效果。
主权项:1.基于迁移学习的音频和文本的宽时间范畴情感识别方法,所述方法包括以下步骤:输入信号处理;调用FFmpeg工具将视频中的音频提取出来,然后将其重采样为16kHz的单声道音频;使用窗长为25ms的Hann窗截取音频片段,以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图,使用梅尔尺度滤波器组,计算,将频谱转化为梅尔声谱,每帧时长为10ms,包含64个梅尔频带,将每帧的梅尔声谱进行无重叠的组合,每0.96s的时长为一组,得到每组输入尺寸为的梅尔声谱图;建立VGGish预训练模型;所述VGGish预训练模型音频通过大规模音频事件数据集AudioSet数据集上进行预训练,所述AudioSet数据集由200多万个时长为10秒的YouTube音频片段组成,所述AudioSet数据集标注了623种音频事件类的本体;将经过转换的梅尔声谱图作为VGGish预训练模型的输入,每组输入经过特征提取得到128维的特征表示,在训练过程中,每次随机选取音频样本的维一组特征表示送入两层全连接层,得到28维的分类表示;在验证过程中,取每个样本的全部特征表示的均值作为视频级别的特征表示,并送入分类器得到识别结果;使用BERTbase模型作为文本情感分类的特征提取网络;文本信息包含每段视频的事实描述和情境描述两部分,为验证宽时间范畴内的情境信息对情感识别的辅助作用,将每个样本的两种文本描述进行拼接作为第三种文本描述;所述BERTbase模型网络共有12层编码层,隐藏层尺寸为768,每层的多头自注意力模块的数量是12,序列最大长度设置为128;通过使用输入向量对应的Query与Key计算点积,得到每个词向量与其他词向量的相关性,经过Softmax归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与Value相乘后再求和,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息;自注意力的计算过程如下: 其中是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布。
全文数据:
权利要求:
百度查询: 北京理工大学珠海学院 基于迁移学习的音频和文本的宽时间范畴情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。