买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京邮电大学
摘要:本发明提出了一种基于多领域统计特征和改进CNN的含噪语音情感识别方法,属于语音识别领域,包括以下步骤:步骤1:首先对语料库中的纯净语音进行加噪处理,其次提取语音信号的相关多领域特征,采用统计函数对已提取的特征进行筛选,降低特征冗余度,得到冗余度低、情感区分度高的多领域统计特征;步骤2:搭建基于语音增强联合约束CNN‑DNN的框架;步骤3:将多领域统计特征作为系统模型的输入,提取与情感分类标签高度相关且对噪声具有鲁棒性的信息,得到输出层的情感分类结果;步骤4:对所提出的一种基于多领域统计特征和语音增强联合约束CNN‑DNN的噪声环境下语音情感识别方法进行性能评估。
主权项:1.一种基于多领域统计特征和改进CNN的含噪语音情感识别方法,其特征在于,包括以下步骤:步骤1:首先对语料库中的纯净语音进行加噪处理,其次提取语音信号的相关多领域特征,即以对情感分类贡献度较高的特征为主,对语音增强贡献度较高的特征为辅,两者融合,生成一组特征集,采用统计函数对已提取的特征进行筛选,降低特征冗余度,得到冗余度低、情感区分度高的多领域统计特征;步骤1-1:在不同信噪比下,读取语音,将噪声与其混合,生成加噪混合语音信号;步骤1-2:对每一句输入的时域连续语音信号进行采样,然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理,得到预处理后的语音信号;步骤1-3:针对预处理后的语音信号,提取常用于情感分类任务的MFCC、MFCC一阶差分、过零率、RMS、基音频率特征和常用于语音增强的幅度谱特征,两种不同领域特征进行融合,生成一组特征集;步骤1-4:对已提取的特征进行筛选,计算每条输入语音的统计特征,即对一条语音的各帧进行统计,得到包含最大值、最小值、均值、方差和中值的统计特征,将五种统计特征进行拼接融合,得到一组冗余度低,情感贡献度高的多领域统计特征集;步骤2:搭建基于语音增强联合约束CNN-DNN的框架,主任务为噪声环境下的情感分类,次任务为语音增强,得到系统模型;步骤2-1:搭建基于语音增强联合约束CNN-DNN的公用网络,采用三层卷积层、三层最大池化层的CNN结构,其中,CNN提取的深层特征将通过Flatten层;步骤2-2:搭建主任务,即噪声环境下语音情感分类的网络:采用五层DNN结构作为步骤2-1中公共网络的全连接层,分别为输入层、dropout层、隐层、dropout层和输出层,DNN网络与前置公用网络CNN相连接,得到噪声环境下语音情感分类主任务的整体结构;步骤2-3:搭建次任务,即噪声环境下语音增强的网络:采用五层DNN结构作为步骤2-1中公共网络的全连接层,分别为输入层、dropout层、隐层、dropout层和输出层,DNN网络与前置公用网络CNN相连接,得到噪声环境下语音增强次任务的整体结构;步骤2-4:调整前置公用网络CNN与主次任务DNN网络的衔接,使得两个DNN网络呈并联结构,前置公用网络CNN与DNN网络呈串联结构,生成基于语音增强联合约束CNN-DNN的框架;步骤3:将多领域统计特征作为系统模型的输入,用于训练联合约束CNN-DNN模型以提取语音信号的多元化深度特征以及与情感分类标签高度相关,且对噪声具有鲁棒性的信息,得到输出层的情感分类结果;步骤4:对所提出的基于多领域统计特征和改进CNN的含噪语音情感识别方法进行性能评估。
全文数据:
权利要求:
百度查询: 南京邮电大学 基于多领域统计特征和改进CNN的含噪语音情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。