买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海集之数字科技有限公司
摘要:本发明涉及音频信号处理技术领域,具体为视听辅助降噪语音识别系统,系统包括面部关键点跟踪模块、音频同步标记模块、音频降噪处理模块和语音识别优化模块。本发明,通过面部和嘴部检测技术,有效识别讲话时段并获取较为纯净的语音数据,显著提升了嘈杂环境下的语音识别准确率,通过结合视频数据与音频数据的处理,系统能够准确确定讲话时段,从而确保语音数据的有效性,通过降噪处理技术,提供了更清晰的语音输入,进一步提高了语音识别的性能,这种多模态数据处理,不仅增强了系统对复杂环境下语音的捕捉能力,也优化了语音识别过程中的关联性和准确性,为用户提供了更为准确和迅速的交互体验。
主权项:1.视听辅助降噪语音识别系统,其特征在于,所述系统包括:面部关键点跟踪模块实时捕捉视频中的面部图像,利用运动跟踪技术,进行面部运动分析,识别嘴部活动,并确定面部关键点,生成面部动态特征;音频同步标记模块基于所述面部动态特征,同步检测麦克风中的音频数据,识别与面部活动同步的音频段,通过时间戳对齐验证音频同步准确性,并标记目标音频段,得到音频标记数据;音频降噪处理模块基于所述音频标记数据,利用支持向量机,分析背景噪声特征,应用快速傅里叶变换进行实时降噪,调整噪声抑制流程,并对标记音频进行降噪处理,消除背景噪声影响,得到降噪后的音频;语音识别优化模块基于所述降噪后的音频,利用长短期忆网络处理语音信号,进行语音内容识别,优化语音的关联性和识别准确性,得到识别优化输出信息。
全文数据:
权利要求:
百度查询: 上海集之数字科技有限公司 视听辅助降噪语音识别系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。