首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于特征融合的海洋哺乳动物叫声识别与分类方法 

申请/专利权人:青岛科技大学

申请日:2024-04-19

公开(公告)日:2024-07-05

公开(公告)号:CN118072746B

主分类号:G10L17/26

分类号:G10L17/26;G10L17/18;G10L17/02;G10L17/04;G10L25/18;G10L25/24;G10L25/30;G10L25/51;G06N3/0464;G06N3/0442;G06N3/096

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2024.06.11#实质审查的生效;2024.05.24#公开

摘要:本发明涉及海洋哺乳动物发声检测与识别领域,具体为一种基于特征融合的海洋哺乳动物叫声识别与分类方法。在Mel谱图基础上采用膨胀因果卷积来提取音频的频域特征,提高网络对频域特征提取的能力。其次,使用LSTM长短时记忆网络对音频信号的时域特征进行深入挖掘,并对频域特征提取进行有效补充,增强模型对音频数据特征的整体提取能力。最后,引用迁移学习,有效缓解了海洋哺乳动物音频训练样本稀缺的问题,从而保障了神经网络分类器在声音识别任务中的准确性,最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。

主权项:1.基于特征融合的海洋哺乳动物叫声识别与分类方法,其特征在于,包括以下步骤:S1将梅尔滤波器组应用于频谱图,得到频域Mel谱图;S2将Mel谱图进入膨胀因果卷积神经网络进行频域特征提取;S3将音频信号直接进入LSTM长短时记忆网络进行时域特征提取;S4进行神经网络模型训练;S5引入Concat函数将两个分支的特征融合;S6对提取特征进行归一化与维度变更;S7将特征输入到已训练的CNN卷积神经网络中,完成海洋哺乳动物叫声识别;所述叫声识别分类方法分别从时域和频域两个分支进行特征提取,并且不同分支采用不同的方法;其中,所述步骤S2中,频域特性提取分支采用膨胀因果卷积网络捕获音频数据的频域特征;所述步骤S3中,时域特性提取分支采用LSTM长短时记忆网络对音频信号的时域特征进行捕捉,避免因音频特征单一引起的检测效果差的问题;S1步骤具体为:S1.1将原始的海洋哺乳动物叫声音频信号进行降噪、重采样、分帧、归一化和加窗的预处理;S1.2对每一帧的音频信号进行快速傅里叶变换,将时域信号转换到频域,得到每一帧的频域信息;S1.3将梅尔滤波器组应用于频谱图,将不同频率范围的能量加权合并,得到Mel谱图;所述S2步骤中,所述膨胀因果卷积通过在卷积核中插入零值来增加感受野,并且在进行卷积操作时保持因果性,从而既扩展了网络的感知范围,又保证了序列数据处理的有效性;采用以下公式进行学习: ;其中是输出序列中的第个元素,是卷积核的权重,是输入序列中的第个元素,是膨胀因子,是卷积核的大小;由于因果卷积确保在计算每个输出元素时,只使用当前时刻及之前的输入元素;所以,其是将膨胀卷积的索引限制为大于等于1来实现;因此,才能执行卷积操作,是卷积核在输入序列上的位置索引,通过膨胀因子来扩展感受野;所述S3步骤中,所述LSTM长短时记忆网络通过引入一种称为“门”的机制来解决长期依赖问题,使其能够更好地捕捉序列数据中的长期依赖关系;所述LSTM长短时记忆网络单元通常由三个门组成:ForgetGate遗忘门、InputGate输入门和OutputGate输出门、以及一个用于控制单元状态更新的CellState单元状态;这些门控制着信息在所述LSTM长短时记忆网络单元内部的流动,允许所述LSTM长短时记忆网络在处理序列数据时选择性地遗忘、添加或输出信息;遗忘门:决定在当前时间步长应该丢弃哪些信息;它的输出范围在0到1之间,其中0表示完全忘记,1表示完全记住;遗忘门的计算使用当前输入和前一个时刻的隐藏状态;其公式表示如下: ;其中,是遗忘门的权重矩阵,是前一时刻的隐藏状态与当前时刻的输入连接而成的向量,是偏置项;输入门:决定当前时刻应该添加哪些信息到单元状态中;它的输出范围在0到1之间,其中0表示完全忽略,1表示完全保留;输入门的计算包括当前输入和前一个时刻的隐藏状态;其公式表示如下: ;其中,是输入门的权重矩阵,是前一时刻的隐藏状态与当前时刻的输入连接而成的向量,是偏置项;单元状态:负责在不同时间步长之间传递和保存信息;它由遗忘门和输入门共同调节,允许模型在处理长序列时保持适当的记忆;其公式表示如下: ;其中,为遗忘门的输出,为上一时刻的单元状态,为新的候选单元状态,计算公式为;是双曲正切函数,是用于计算新候选单元状态的权重矩阵,是前一时刻的隐藏状态和当前时刻的输入连接而成的向量,是偏置项;输出门:根据当前时刻的输入和前一个时刻的隐藏状态,决定在当前时刻应该输出哪些信息;输出门的输出会传递到下一个时间步长的隐藏状态,同时也是LSTM长短时记忆网络的输出;其公式表示如下: ;其中,为输出门的权重矩阵,是前一时刻的隐藏状态和当前时刻的输入连接而成的向量,是偏置项;S4步骤具体为:S4.1通过AudioSet数据集训练一个分类效果最优的卷积神经网络模型;S4.2使用预训练的AudioSet数据集音频标记任务的网络来初始化编码器CNN卷积神经网络的参数,微调预训练的网络;使用增强的数据和少量真实的数据替换AudioSet数据集再次训练模型;S4.3采用迁移学习将预训练好的神经网络在真实海洋哺乳动物叫声数据中进行迁移训练,代替原有的CNN卷积神经网络,避免因CNN卷积神经网络参数问题引起的重要特征丢失,得到适用于海洋哺乳动物叫声识别与分类的神经网络模型。

全文数据:

权利要求:

百度查询: 青岛科技大学 基于特征融合的海洋哺乳动物叫声识别与分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术