首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于稀疏滑动窗口的低时延生成音频检测连续学习方法、装置、设备及介质 

申请/专利权人:清华大学

申请日:2024-06-06

公开(公告)日:2024-07-05

公开(公告)号:CN118298799A

主分类号:G10L13/027

分类号:G10L13/027;G10L25/45;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明提供了一种基于稀疏滑动窗口的低时延生成音频检测连续学习方法、装置、设备及介质,具体涉及音频检测技术领域,本发明实施例中,在对音频检测源模型进行训练的过程中,使用滑动池化窗口将模型第m层输出的隐藏状态分解为多个中间编码表示,并将所述多个中间编码表示组合为稀疏隐藏状态,将所述稀疏隐藏状态输入至第m+1层,这种时间稀疏机制能够显著减少GPU内存占用和计算时间,特别适用于大量数据的连续学习场景,如多数据集上的虚假音频检测任务,通过调整时间分辨率,时间稀疏机制可以在保持较高检测准确率的同时,大幅提高处理速度。

主权项:1.基于稀疏滑动窗口的低时延生成音频检测连续学习方法,其特征在于,所述方法包括:获取第二生成音频数据集和音频检测源模型,所述音频检测源模型能够检测第一生成音频数据集中的生成音频,所述第一生成音频数据集和第二生成音频数据集是基于不同的音频生成方法得到的;采用所述第二生成音频数据集,对音频检测源模型进行训练,得到更新后的音频检测模型,所述更新后的音频检测模型能够检测第一生成音频数据集中的生成音频以及第一生成音频数据集中的生成音频;其中,在对音频检测源模型进行训练的过程中,使用滑动池化窗口将模型第m层输出的隐藏状态分解为多个中间编码表示,并将所述多个中间编码表示组合为稀疏隐藏状态,将所述稀疏隐藏状态输入至第m+1层。

全文数据:

权利要求:

百度查询: 清华大学 基于稀疏滑动窗口的低时延生成音频检测连续学习方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。