买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海声瀚信息科技有限公司
摘要:本发明公开了一种提升两阶段语音唤醒的方法,包括如下步骤:在训练阶段,在第一级模型中引入连接时序分类强制对齐方法,获取每个标签的时间戳;根据获取的时间戳,截取第一阶段模型输出的有效特征区间,去除无关的背景噪声和干扰;将截取到的有效特征区间输入到第二级模型训练;在推理阶段,使用低功能耗模型进行第一阶段的全天候监听,并进行初步处理和特征提取;当检测到可能的唤醒信号时,从循环缓存中获取有效声学特征片段送入第二级模型推理计算,得到新的唤醒词概率,并做出最终决策。通过引入一种在训练过程中保持特征对齐的方法,成功解决了因训练和推理不一致引发的性能下降问题。
主权项:1.一种提升两阶段语音唤醒的方法,其特征在于,包括如下步骤:S1、使用低功能耗模型进行第一阶段的全天候监听,所述低功能耗模型采用基于自注意力机制的流式卷积增强的变形器模型,用于实时唤醒检测,并将检测到的音频信号进行初步处理和特征提取;S2、当所述低功能耗模型检测到可能的唤醒信号时,从循环缓存中回滚部分历史特征片段并延迟部分特征片段,以获取完整的唤醒信号片段,所述历史特征片段具体包括所述唤醒信号之前和之后的音频数据,以确保完整的语音输入;S3、在训练阶段,引入连接时序分类强制对齐方法,通过最大化音频输入与目标序列的对齐概率,获取每个标签的时间戳;S4、根据获取的时间戳,截取所述第一阶段模型输出的有效特征区间,确保所截取的音频包含所述唤醒信号的完整特征,并去除无关的背景噪声和干扰;S5、将截取到的所述有效特征区间输入到第二阶段模型训练,所述第二阶段模型采用基于自注意力机制的离线卷积增强的变形器模型,对输入的音频特征片段进行精确分析和识别;S6、在推理阶段,所述第一阶段模型在检测到唤醒状态时,从循环缓存中获取有效声学特征片段,将所述有效声学特征片段输入到所述第二阶段模型中进行整句的自注意力推理,得到一个新的唤醒词概率,并做出最终决策。
全文数据:
权利要求:
百度查询: 上海声瀚信息科技有限公司 一种提升两阶段语音唤醒的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。