一种多任务语音情感识别方法、装置和存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：天津中德应用技术大学;智赢未来教育科技有限公司;天津城建大学

摘要：本发明提供了一种多任务语音情感识别方法、装置和存储介质，涉及语音处理领域，包括：增强语音高频部分；将连续的语音信号分割成多个片段，得到分帧语音；采用加窗函数处理分帧语音，得到加窗语音；提取加窗语音的梅尔频率倒谱系数和梅尔频谱图；基于神经网络模型提取梅尔频谱图和梅尔频率倒谱系数的语音特征；在多粒度层面捕捉情感信息，得到情感信息的特征嵌入；基于信息瓶颈原理，降低多任务特征嵌入中的冗余信息；将说话人信息的特征嵌入和性别信息的特征嵌入通过感知聚合模块进行聚合，并与情感信息的特征嵌入相结合，最终输入到分类器中，以预测所述待识别语音所表达的情感。能够提升语音识别系统的情感识别能力。

主权项：1.一种多任务语音情感识别方法，其特征在于，包括：接收待识别语音，过滤噪声并增强所述待识别语音的高频部分；将连续的语音信号分割成多个片段，得到分帧语音；采用加窗函数处理所述分帧语音，得到加窗语音；提取所述加窗语音的梅尔频率倒谱系数和梅尔频谱图；基于神经网络模型提取所述梅尔频谱图和所述梅尔频率倒谱系数的语音特征，其中，所述语音特征包括说话人信息、性别信息和情感信息；基于语音中的情感信息的多粒度性，在多粒度层面捕捉情感信息，获得细粒度的情感信息，得到情感信息的特征嵌入；在语音情感识别任务中，基于信息瓶颈原理，提取到最小充分单任务特征嵌入，获取说话人信息的特征嵌入和性别信息的特征嵌入，以降低多任务特征嵌入中的冗余信息；将所述说话人信息的特征嵌入和所述性别信息的特征嵌入通过感知聚合模块进行聚合，并与所述情感信息的特征嵌入相结合，最终输入到分类器中，以预测所述待识别语音所表达的情感；所述基于语音中的情感信息的多粒度性，在多粒度层面捕捉情感信息，获得细粒度的情感信息，得到情感信息的特征嵌入的步骤，具体包括：引入自注意力机制，关注蕴含情感信息最多的帧，形成TMGA-1层，计算过程的表达式为：其中，输入特征为XTMGA-1∈RT×F，其中T表示帧数，F表示特征维度，α为softmax激活函数，表示经过TMGA-1层后的特征；两种不同的特征映射函数被用来从XTMGA-1中获取QTMGA-1和KTMGA-1；为了学习每个时间单元的全局特征并减少所需训练参数的数量，使用可学习映射向量将每个时间单元的特征压缩成一个维数为1的向量；这一过程的公式如下所示: 式中，和表示可学习的映射向量；QTMGA-1和KTMGA-1的乘积表示情感相关性的内在度量，由于QTMGA-1和KTMGA-1的输入维度对应于1，所以尺度参数仍然为1，如下表达式所示:A＝QTMGA-1KTMGA-1式中，A∈RF×1表示权重；引入自注意力机制，通过计算不同固定长度窗口的自注意力来提取细粒度情感特征，形成TMGA-n层，计算过程的表达式为：式中，α为softmax激活函数，sum表示对每一帧的权重求和；TMGA-n层使用具有两个不同的卷积核n的卷积层来获取XTMGA-n上的QTMGA-n和KTMGA-n，如下公式所示：式中，和是可学习的映射矩阵；权重A计算公式如下所示：式中，表示权重；为避免过多的参数，采用最大池化的方法从时间长度为n的特征集中获得最显著的特征，记为利用平均池化来从时间长度为n的特征集中获得短时间内特征的整体描述，表示为即: 式中，maxpool和avgpool分别表示最大池化和平均池化；所述基于信息瓶颈原理，提取到最小充分单任务特征嵌入的目标函数为：式中，L表示变分信息瓶颈优化，I表示两个随机变量的互信息，Yt表示标签，Zt为编码后的最小充分单任务嵌入，为单任务表示；的来源如下所示：式中，为单任务学习网络，Uf表示每个任务的输入序列分布。

全文数据：

权利要求：

百度查询：天津中德应用技术大学智赢未来教育科技有限公司天津城建大学一种多任务语音情感识别方法、装置和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种囊皮组织冰冻立埋装置及其病理取材方法

下一篇：具有节能、低功耗的平面发声透明音箱

相关技术

一种囊皮组织冰冻立埋装置及其病理取材方法

具有节能、低功耗的平面发声透明音箱

用于人群管理和维护操作的系统和方法

无源腰部助力外骨骼

双向直流直流转换电路、车载充电机、系统及交通工具

一种铰点支座防变形焊接系统

一种掺烧煤泥的循环流化床锅炉前墙水冷壁管结构

一种用于组装工件与载具的装置

二咔唑苯基双膦配体及其制备方法、咔唑苯基双膦卤化亚铜及其制备方法和应用

一种模拟飞行环境测试发动机内流特性的试验装置与方法

无人机多类型数据的传输方法及无人机

一种无人机收集数据的轨迹规划方法、装置、设备及介质

识别相关技术

模式识别系统_安德股份有限公司_202410736991.3

人脸识别防作弊系统_陕西君凯科技集团有限公司_202410947738.2

识别介质和物品_日本瑞翁株式会社_202380024339.2

基于大语言模型的识别训练方法、识别方法_山东浪潮科学研究院有限公司_202411002760.6

挖掘机工况识别方法、工况识别系统、设备及存储介质_徐工汉云技术股份有限公司_202410987672.X

基于逻辑识别的目标属性识别方法、装置、设备及介质_四川九洲空管科技有限责任公司_202410769160.6

用于控制试管识别设备的方法及装置、试管识别设备_青岛海尔生物医疗科技有限公司_202210297119.4

程序识别模型训练和程序识别方法、装置、设备及介质_恒安嘉新(北京)科技股份公司_202110997676.2

对象识别系统、汽车、车辆用灯具、对象的种类的识别方法_株式会社小糸制作所_201980018990.2

搜索词成分识别模型构建方法以及搜索词成分识别方法_腾讯科技(深圳)有限公司_202210188760.4

方法相关技术

通信方法、码本指示方法、通信装置_北京紫光展锐通信技术有限公司_202310363970.7

萃取方法_阿里山制酒股份有限公司_202410147785.9

地震资料前处理方法、静校正处理方法及构造成像方法_中国石油化工股份有限公司_202310355196.5

一种页面处理方法、编译方法、渲染方法及装置_抖音视界有限公司_202310348131.8

胸罩、增大胸部的方法、塑造大胸部的方法_山川谦辅_202380013191.2

数据单元的发送方法、接收方法及装置_华为技术有限公司_201910657446.4

标定参数确定方法、校正方法、介质及设备_湖南视比特机器人有限公司_202410971596.3

游戏资源的推荐方法、游戏试玩方法及装置_咪咕互动娱乐有限公司_202410958184.6

参考信号的发送方法,接收方法和装置_华为技术有限公司_202310403960.1

信号发射方法、信号接收方法及存储介质_重庆智铸达讯通信有限公司_202411055871.3

情感相关技术

基于情感分析的自动生成融媒体调查问卷的方法及系统_清华大学_202410064469.5

一种多模态情感识别方法及系统_沈阳康泰电子科技股份有限公司_202411096922.7

一种融合画像和情感分析的客户流失预测方法及系统_浪潮云信息技术股份公司_202410932080.8

一种基于双阶段异质超图的多模态情感分析方法及系统_浙江师范大学_202411255941.X

一种基于情感识别的教学用编程积木套装及实现方法_山东艾克瑞特教育科技有限公司_202411151046.3

一种基于情感衰变因子的抑郁情绪评测方法_佳木斯大学_202411112597.9

一种多任务语音情感识别方法、装置和存储介质_天津中德应用技术大学_202411028482.1

一种多模态情感分析模型构建方法、分析模型及分析方法_中国科学技术大学_202410842227.4

一种基于卷积神经网络的客户诉求情感分析方法_国网新疆电力有限公司营销服务中心_202410999377.6

一种基于服装压力瞬时分布的情感识别方法_南方科技大学_202410778864.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多任务语音情感识别方法、装置和存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务