首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法_青岛科技大学_202410508360.6 

申请/专利权人:青岛科技大学

申请日:2024-04-26

公开(公告)日:2024-06-21

公开(公告)号:CN118098249B

主分类号:G10L17/26

分类号:G10L17/26;G10L17/18;G10L17/02;G10L17/04;G10L17/14;G10L25/18;G06N3/006;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本发明公开了基于IPSO‑CHRFA模型的海洋哺乳动物叫声分类方法,属于仿生隐蔽水声通信技术领域。该方法结合了CBank‑HN‑GRU分类模型、IPSO改进的粒子群优化算法以及FlashAttention加速算法模块。实现了对海洋哺乳动物叫声的高效精确的分类,为海洋哺乳动物叫声识别分类任务提供了高效灵活的解决方案,同时为其他声音识别任务提供了新思路,具有广阔的应用前景。

主权项:1.基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法,其特征在于,所述IPSO-CHRFA模型由CBank-HN-GRU分类模型、IPSO改进的粒子群优化算法以及FlashAttention加速算法模块组成;所述CBank-HN-GRU分类模型包括CBank卷积银行、HN高速网络以及GRU双向门控制单元网络;具体步骤包括:S1、生成海洋哺乳动物叫声音频数据集;S2、设计并构建CBank-HN-GRU分类模型基础框架;S3、使用IPSO改进的粒子群优化算法对CBank-HN-GRU分类模型进行优化;S4、使用FlashAttention加速算法模块对CBank-HN-GRU分类模型训练进行加速;S5、IPSO-CHRFA模型的训练与验证;所述S2步骤具体为:S2.1、搭建模型开始的CBank网络;CBank网络是由卷积核从1到K的K个并行1D-CNN层组成的,K个卷积核不同的并行1D-CNN层可有效捕获叫声音频不同时间尺度上的特征;CBank网络的后面是十六个BatchNorm1d层,为CBank里的每个并行的1D-CNN层后面添加一个BatchNorm1d层,以提高模型训练的稳定性;之后又加了两层1D-CNN层和一层BatchNorm1d层,来减少CBank网络输出的通道数;再后面是MaxPooling层,用于减少音频时间序列数据的维度,同时增加局部不变性,保留最重要的特征;此时池化操作的窗口大小为2,保持步长stride=1,来保持原始的时间分辨率,以避免因池化操作导致的序列长度缩减太多;其MaxPooling层的公式如下所示: ;其中,Fij是输入特征图上的元素,i、j表示特征图上的索引位置,s是步长,k、l是在池化窗口内部遍历的索引,window是池化窗口的大小,定义了进行最大值操作的区域范围;S2.2、在CBank网络的后面连接HN高速网络;将HN高速网络设置为了N层,每一层的单元维度都是513,对应音频的梅尔频谱的频率维度大小,即梅尔滤波器组的数量,来提取更加高级的特征;HN高速网络通过其门控机制,缓解模型训练时的梯度消失问题,并且有助于改善模型的信息流动,使模型能更快地收敛到较优的性能;HN高速网络的输入的是x,则对于每个HN层,输出y公式计算如下: ;其中,H是非线性变换,通过ReLU激活函数;T是转换门,通过sigmoid函数;C是载波门,设置为Cx=1−Tx,WH和WT分别表示非线性变换和转换门的权重;S2.3、在HN高速网络的后面添加GRU双向门控制单元网络;将GRU双向门控制单元网络设置为了双向、M层的网络,这使得GRU双向门控制单元在处理序列数据时,不仅从前向后处理数据,还从后向前处理数据,可捕获序列中的前后文信息,进一步提高模型的性能;所述S3步骤具体为:S3.1、设计并搭建使用量子计算技术和混沌算法来改进IPSO粒子优化算法模型;使用混沌映射来初始化粒子群的位置和速度,公式为: ; ;其中,xmin、xmax分别定义了粒子位置向量的最小值和最大值,vmin、vmax分别定义了粒子速度向量的最小值和最大值,并用来定义粒子位置和速度的取值范围;Chaosx0是一个迭代产生混沌序列的函数;x0和v0是在区间0,1内的随机初始值;在粒子的速度更新中引入了量子概率云,新的速度更新公式为: ;其中,mbestt是群体粒子最佳位置的平均值,β是控制搜索范围的系数量子势阱宽度,是第i个粒子在第t次迭代的服从0,1均匀分布的随机数;在位置更新中引入量子位的坍缩行为,以及混沌理论来增强多样性,新的位置更新公式为: ;其中,xit+1表示粒子下一时刻的位置,xit表示粒子当前的位置,vit+1表示粒子下一刻的速度,Chaosxit表示粒子当前位置的混沌映射值;S3.2、使用IPSO改进的粒子群优化算法优化CBank-HN-GRU分类模型;使用IPSO改进的粒子群优化算法来自动寻找CBank-HN-GRU分类模型内部参数的最优值,以及确定CBank模型中并行CNN层的数量K、HN高速网络的层数N、GRU双向门控制单元网络的层数M、模型训练时的learning-rate学习率和batch-size批量大小;所述S4步骤具体为:S4.1、设计并搭建FlashAttention算法模块;FlashAttention加速算法模块通过单独计算softmax的归一化因子,来实现解耦并以此来节省显存,定义softmax的归一化因子为: ;其中,qi是模型输入序列矩阵的第i列,qiT是其转置,kj是查询向量相关序列矩阵的第j列;当输入的序列长度为N时,P是N,N的矩阵,则输出O的第i个列向量Oi为: ;其中,vj为输入序列中各个位置具体信息矩阵的第j个列,P是注意力矩阵,Pij表示P矩阵第i行第j列的元素,Li是归一化因子;在计算得到归一化因子Li后,通过反复累加来得到Oi;因此,通过改变计算顺序,相比于标准注意力,将显存复杂度从ON2降低到了ON;针对内存受限的标准注意力,FlashAttention加速算法模块是IO感知的,目标是避免频繁地从HBM中读写数据;通过kernel融合的操作来减少对HBM的读写次数,有效利用更高速的SRAM来进行计算,最后将计算结果写入到HBM中,将多个操作融合成一个操作,减少读写HBM的次数,极大的加快了计算速度;S4.2、使用FlashAttention加速算法模块加速CBank-HN-GRU分类模型的训练速度;所述S5步骤具体为:S5.1、IPSO-CHRFA整体模型的分类训练;训练网络都是使用主流深度学习框架PyTorch编写的,在模型训练时还引入了提前停止策略;训练中使用的激活函数是自正则化非单调激活函数Mish,Mish的公式为: ;其中x表示激活的输入,tanh表示双曲正切函数,softplus表示软正数激活函数,ln表示自然对数函数;S5.2、使用ACC、AUC、MAP、F1score和Kappa系数6个评价指标来验证模型的性能;ACC指的是准确率,是评估分类模型性能的一个基本指标,准确率表示模型正确预测的样本数占总样本数的比例,ACC值越高,模型的性能越优;AUC即ROC曲线下的面积,是评估分类器整体性能的一个指数,AUC值越高,模型的性能越优;MAP是一个在多类别对象检测和信息检索领域常用的评价指标,其计算的是平均精确率AP的平均值,MAP值越高,模型的性能越优;F1score是衡量模型精确度的一个指标,F1分数提供一个同时考虑精确率和召回率的单一指标,适合于类别不平衡的情况;F1分数的范围从0到1,其中1表示最佳可能的性能,0表示最差的性能;Kappa系数是一个评价分类准确性的统计量,用于量化两个评价者或评价系统对同一个数据集分类一致性的程度;当K的值接近1时,表示预测一致性很高;当K的值接近0时,表示没有比随机预测更好的一致性;当K的值为负数时,表示一致性比随机预测还要差。

全文数据:

权利要求:

百度查询: 青岛科技大学 基于IPSO-CHRFA模型的海洋哺乳动物叫声分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术