基于迁移学习的音频和文本的宽时间范畴情感识别方法

导航：龙图腾网> 最新专利技术> 基于迁移学习的音频和文本的宽时间范畴情感识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法，通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征，从不同的角度对目标人物的情感进行分析；通过事实描述和文本描述进行情感特征的提取，在宽时间范畴内对目标人物目前的情感状态进行更准确的推理，通过在SVCEmotion数据集的音频和文本描述数据上的实验证明，VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果，模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现；对比实验证明，SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索，且与事实描述结合能大幅提升情感识别效果。

主权项：1.基于迁移学习的音频和文本的宽时间范畴情感识别方法，所述方法包括以下步骤：输入信号处理；调用FFmpeg工具将视频中的音频提取出来，然后将其重采样为16kHz的单声道音频；使用窗长为25ms的Hann窗截取音频片段，以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图，使用梅尔尺度滤波器组，计算，将频谱转化为梅尔声谱，每帧时长为10ms，包含64个梅尔频带，将每帧的梅尔声谱进行无重叠的组合，每0.96s的时长为一组，得到每组输入尺寸为的梅尔声谱图；建立VGGish预训练模型；所述VGGish预训练模型音频通过大规模音频事件数据集AudioSet数据集上进行预训练，所述AudioSet数据集由200多万个时长为10秒的YouTube音频片段组成，所述AudioSet数据集标注了623种音频事件类的本体；将经过转换的梅尔声谱图作为VGGish预训练模型的输入，每组输入经过特征提取得到128维的特征表示，在训练过程中，每次随机选取音频样本的维一组特征表示送入两层全连接层，得到28维的分类表示；在验证过程中，取每个样本的全部特征表示的均值作为视频级别的特征表示，并送入分类器得到识别结果；使用BERTbase模型作为文本情感分类的特征提取网络；文本信息包含每段视频的事实描述和情境描述两部分，为验证宽时间范畴内的情境信息对情感识别的辅助作用，将每个样本的两种文本描述进行拼接作为第三种文本描述；所述BERTbase模型网络共有12层编码层，隐藏层尺寸为768，每层的多头自注意力模块的数量是12，序列最大长度设置为128；通过使用输入向量对应的Query与Key计算点积，得到每个词向量与其他词向量的相关性，经过Softmax归一化之后，得到每个位置的词向量对应的注意力分布，将对应位置的注意力值与Value相乘后再求和，每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息；自注意力的计算过程如下：其中是为了使得到的注意力图的元素符合均值为0，方差为1的标准高斯分布。

全文数据：

权利要求：

百度查询：北京理工大学珠海学院基于迁移学习的音频和文本的宽时间范畴情感识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：高压环路互锁系统、控制方法及电动汽车

下一篇：多层包覆富锂锰正极材料及其制备方法、正极片和电池

相关技术

高压环路互锁系统、控制方法及电动汽车

多层包覆富锂锰正极材料及其制备方法、正极片和电池

层叠混合型柔性连续体手术器械

具有锁水功能的卤水提升泵冲洗装置

一种芯片通用式具有压力调节功能的固晶设备及热压方法

一种畜牧用草料切割装置

一种全氟异丁基甲醚的制备方法

一种智慧睡眠监控装置及系统

一种换挡结构、换挡结构的控制方法及变速箱

一种固定床渣油加氢催化剂全循环硫化系统及其全循环硫化方法

一种混合动力越野车能量管理方法及装置

一种管道内部清理喷涂装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于迁移学习的音频和文本的宽时间范畴情感识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务