买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京开普云信息科技有限公司
摘要:本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。
主权项:1.一种复调音频的音高识别模型的训练方法,其特征在于,所述方法包括:获取训练集,所述训练集中的训练样本包括复调音频和真实音高信息;将所述复调音频中的每帧音频数据转换成梅尔频谱图;搭建音高识别模型,所述音高识别模型至少包括Mamba-UNet模块、Transformer-encoder模块和全连接层;利用所述Mamba-UNet模块对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用所述Transformer-encoder模块对连续帧对应的第一中间特征进行关联分析,得到第二中间特征;利用所述全连接层对所述第二中间特征进行全连接处理,得到所述复调音频中的人声的音高识别结果;根据所述真实音高信息和所述音高识别结果对所述音高识别模型进行训练;所述Mamba-UNet模块包括第一编码器和解码器,所述利用所述Mamba-UNet模块对每帧梅尔频谱图进行特征提取,得到第一中间特征,包括:对每帧梅尔频谱图进行分块后转换成一维序列;利用所述第一编码器对所述一维序列进行视觉状态空间模块处理和融合层处理并创建层次特征,将得到的第一编码结果输出给所述解码器,所述解码器由与所述第一编码器的维度相匹配的视觉状态空间模块和扩展层组成;并利用跳跃连接将所述第一编码器中每个视觉状态空间模块提取的特征数据输出给所述解码器中对应层的视觉状态空间模块,以增强在下采样过程中丢失的空间细节;利用所述解码器对所述第一编码结果和所述特征数据进行扩展和视觉状态空间模块处理,得到第一中间特征。
全文数据:
权利要求:
百度查询: 北京开普云信息科技有限公司 复调音频的音高识别模型的训练方法、装置、介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。