复调音频的音高识别模型的训练方法、装置、介质及设备

导航：龙图腾网> 最新专利技术> 复调音频的音高识别模型的训练方法、装置、介质及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京开普云信息科技有限公司

摘要：本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备，属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图；搭建音高识别模型；利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取，得到第一中间特征；利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析，得到第二中间特征；利用全连接层对第二中间特征进行处理，得到人声的音高识别结果；根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算，降低计算成本；还能避免梯度问题，在处理大规模数据时显示出更高的效率和更好的性能。

主权项：1.一种复调音频的音高识别模型的训练方法，其特征在于，所述方法包括：获取训练集，所述训练集中的训练样本包括复调音频和真实音高信息；将所述复调音频中的每帧音频数据转换成梅尔频谱图；搭建音高识别模型，所述音高识别模型至少包括Mamba-UNet模块、Transformer-encoder模块和全连接层；利用所述Mamba-UNet模块对每帧梅尔频谱图进行特征提取，得到第一中间特征；利用所述Transformer-encoder模块对连续帧对应的第一中间特征进行关联分析，得到第二中间特征；利用所述全连接层对所述第二中间特征进行全连接处理，得到所述复调音频中的人声的音高识别结果；根据所述真实音高信息和所述音高识别结果对所述音高识别模型进行训练；所述Mamba-UNet模块包括第一编码器和解码器，所述利用所述Mamba-UNet模块对每帧梅尔频谱图进行特征提取，得到第一中间特征，包括：对每帧梅尔频谱图进行分块后转换成一维序列；利用所述第一编码器对所述一维序列进行视觉状态空间模块处理和融合层处理并创建层次特征，将得到的第一编码结果输出给所述解码器，所述解码器由与所述第一编码器的维度相匹配的视觉状态空间模块和扩展层组成；并利用跳跃连接将所述第一编码器中每个视觉状态空间模块提取的特征数据输出给所述解码器中对应层的视觉状态空间模块，以增强在下采样过程中丢失的空间细节；利用所述解码器对所述第一编码结果和所述特征数据进行扩展和视觉状态空间模块处理，得到第一中间特征。

全文数据：

权利要求：

百度查询：北京开普云信息科技有限公司复调音频的音高识别模型的训练方法、装置、介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：含氟共聚物

下一篇：一种汽车零部件生产表面检测装置

相关技术

含氟共聚物

一种汽车零部件生产表面检测装置

一种催化氧化陶粒及其制备方法和应用

业务文本退回原因类别的确定方法、装置、设备及介质

金刚石NV色心磁强测量系统及其应用

一种用于冷却塔的清理装置

一种用于富含黏粒泥浆固液分离的有机-无机絮凝剂及其制备方法和使用方法

一种水钻磨抛机的夹具移位装置

一种适用于油冷叶片结构设计的新方法

用于检测青光眼的系统和方法

加工压缩机的包括旋转轴的工件的空气或气体轴承的肋或槽的方法及组装工件的部件的方法

用于远程脉诊的脉搏复现系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

复调音频的音高识别模型的训练方法、装置、介质及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务