首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向数字音频删除和插入篡改操作自动检测方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖北工业大学

摘要:本发明属于数字音频信号篡改检测技术领域,公开了一种面向数字音频删除和插入篡改操作自动检测方法及系统,利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改。本发明采用提取电网频率频谱特征超矢量,并建立深度神经网络训练所提取的特征;本发明不仅实现了篡改检测的自动化,还将深度神经网络很好的应用于篡改检测,并且取得很好的效果。本发明具有更高的准确率和较好的鲁棒性。

主权项:1.一种面向数字音频删除和插入篡改操作自动检测方法,其特征在于,所述面向数字音频删除和插入篡改操作自动检测方法包括:利用训练好的电网频率的通用背景模型,提取每个数字音频信号的电网频率频谱特征超矢量;将所提取的电网频率频谱特征超矢量输入由注意力机制和残差网络构成的深度表示学习网络进行浅层特征的学习;将训练好的浅层特征输入到分类网络中,判断是否经过删除或插入的篡改;所述面向数字音频删除和插入篡改操作自动检测方法包括以下步骤:步骤一,利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分;提取相位特征和拟合特征参数,并构建电网频率的通用背景模型;步骤二,训练数据集数字音频信号对所得到的通用背景模型通过自适应更新电网频率的通用背景模型参数,根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵;步骤三,将得到的电网频率频谱特征超矢量输入到深度神经网络进行浅层特征的表示学习,得到浅层特征即电网频率频谱特征超矢量;步骤四,将训练好的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音,得到篡改检测结果;步骤一中,所述利用带通滤波器对原始数字音频信号进行预处理,提取待测信号的电网频率成分,提取相位特征和拟合特征参数包括:利用10000阶的线性相位FIR滤波器对原始数字音频信号f[n]进行带通滤波,得到待测信号中的电网频率成分FENFC[n];基于DFT0和DFT1变换得到相位波动特征F1和F2,基于Hilbert变换得到瞬时频率特征F3;使用SumofSines和Gaussian表达式分别进行拟合相位曲线和频率曲线,将相位特征和拟合特征参数进行组合得到特征向量;所述构建电网频率的通用背景模型包括:1确定高斯混合模型: 其中,f表示一个由相位特征和拟合特征参数组成的N维特征向量f={f1,f2,…,fN};φj,j=1,…L表示混合权重;σj表示协方差矩阵;μj表示均值向量;2采用EM算法进行混合高斯模型的参数估计:2.1确定合适的θ和z极大化对数似然函数: 其中,x=x1,x2,x3,…,xm表示语音特征向量,m表示相互独立的语音特征向量的数量;λ表示数字音频信号模型,θ表示已知模型参数,zi,zi∈z1,z2,z3,…,zi表示与特征向量xi对应的隐藏变量,令pxi,zi|θ最大;2.2计算θ和z的值:基于Qz为已知样本和模型参数下的隐变量z的分布,确定在固定参数θ后Qizi的选择问题,建立了Lθ,Z的下界即通过调整θ最大化所述下界,对似然函数最大化获得新的模型参数,返回代入2.1中,通过不断迭代获得更加准确的GMM参数,得到一个好的电网频率的通用背景模型;步骤二中,所述训练数据集数字音频信号对所得到的通用背景模型通过自适应更新其均值参数包括:首先,计算第j个特征向量fj属于UBM中第i个联合高斯分量pif的概率: 其次,利用计算得到的Pi|fj,分别计算未篡改的目标数字音频信号的GMM模型的均值参数: 最后,将由训练数据产生的新的充分统计量更新UBM的第i个混合成员的充分统计量: 其中,表示自适应系数,用于控制新的均值和旧估计量之间的平衡;表示自适应系数;k表示一个固定参数的因子;所述根据目标数据库构造数字音频信号的电网频率频谱特征超矢量的特征矩阵包括:将由每条语音导出的每个GMM-UBM模型的均值矩阵作为电网频率频谱特征超矢量,在每条语音和高维向量之间构建特征关系,对每条语音的均值矩阵进行调整,重构得到电网频率频谱特征超矢量;步骤三中,所述深度神经网络设置有注意力机制与残差网络;注意力机制,包括卷积层、池化层、全连接层、点乘模块,用于进行电网频率频谱特征超矢量的特征重构,对电网频率频谱特征超矢量中特征赋予不同的权重;残差网络,用于对电网频率频谱特征超矢量进行具体特征结构的训练;残差网络输入的特征向量的大小为N*M;其中,N表示所提取的拟合特征31,M表示高斯分量;输入尺寸为224*224;所述残差网络卷积层为5*5的卷积层;残差块如下:xl+1=hxl+Fxl,Wl;其中,hxl=Wl'x;Wl'表示1*1卷积操作;Fxl,Wl表示残差部分;所述注意力机制包括:第一个卷积层K是卷积核大小为n*n的矩阵,激活函数为relu函数;用于进行浅层特征提取,公式如下: 其中,Mij表示卷积时输入特征图中与卷积核对应的元素,R表示采用relu函数作为激活函数;最大池化层,用于对浅层特征进行二次提取,得到池化后的特征图,公式如下:H=EYα+b2;其中,Yα表示是原特征图,E表示特征图的池化域矩阵;b2表示偏差;全连接层,用于对池化后的特征图进行整合;点乘模块,用于将全连接层处理的特征图与原始特征图进行点乘;所述篡改检测分类网络由卷积层、池化层、全连接层和输出层组成;输出层的激活函数采用的是sigmoid函数;所述篡改检测分类网络的损失函数为Binarycrossentropy二元交叉熵,表达式为: 其中,N表示特征的个数,y对应的是每条语音的标签值,py表示输出属于y标签的概率;步骤四中,所述将得到的浅层特征输入预先构建的篡改检测分类网络,通过sigmod函数区分原始语音和篡改语音包括:1利用篡改检测分类网络的卷积层、池化层和全连接层,通过局部感受野、权重共享和降采样强化浅层特征;2利用篡改检测分类网络输出层的Sigmoid函数区分原始语音和篡改语音:H=SigmoidP*W+b;其中,H表示输出,W表示权重;b表示偏差,P表示全连接层的输出。

全文数据:

权利要求:

百度查询: 湖北工业大学 面向数字音频删除和插入篡改操作自动检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。