买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学
摘要:一种基于改进Levenberg‑Marquardt的径向基神经网络优化方法,属于参数优化技术领域。主要包括三个部分,即“典型样本选取”,“改进Levenberg‑Marquardt的参数优化”和“多步更新规则”。“典型样本选取”步骤:典型样本可以用来近似样本整体,利用样本之间的最小距离来表示多样性构建典型样本集,可以在网络稳定性和快速响应之间取得较好平衡。“改进的LM参数优化”步骤:利用模型参数组合重新定义学习率,消除了奇异点,保证了模型的有效稳定。“多步更新规则”步骤:通过计算典型样本集中的Hessian矩阵和梯度,使用多步更新规则以减少单个样本引入的样本误差,加速了网络收敛。
主权项:1.一种基于改进Levenberg-Marquardt的径向基神经网络优化方法,其特征在于:A典型样本TS选取:TS是一个小批量的样品集,用来近似样本整体,TS表示如下TS={xn,yn,an,bn,n=1,2,…,N,}1式中,N表示TS的大小,即现有样本个数。xn,yn,an,bn分别为TS中第n个样本的输入向量、输出、活度和密度;两个样本之间的欧氏距离为Ei,j=||xi-xj||+||yi-yj||2其中,1≤i,j≤N;典型样本中的样本应具有足够的多样性,用该样本与其他样本之间的最小距离来表示,即第i个样本的多样性为Di=minEi,1,Ei,2,…,Ei,i-1,Ei,i+1,…,Ei,N3式中,min·表示取最小值,Ei,1表示第i个样本与第1个样本的欧氏距离;同理,括号内分别给出了第i个样本与第2,3,…,N个样本的欧式距离;新的样品到达时,TS更新如下:step1添加样品:当TS中的样本数小于Nmax时,将此新样本直接添加到TS中,参数设置为 式中,Nmax为预定义的TS最大值,即样本容量;xnew和ynew为新样本的输入和输出;除此新样本外,其他样本的活性值降1;step2删除样本:将活性值为0的样本从TS中删除;step3合并相似样本:当TS中的样本数大于Nmax时,将差异最小的两个样本进行合并;假设第i和第j个样本间差异最小即minEi,j且满足1i≠jN;合并后新样本的参数为amerge=maxai,aj5bmerge=bi+bj6xmerge=xi,ymerge=yiifDi,-jDj,-i7xmerge=xj,ymerge=yjifDi,-j≥Dj,-i8式中,max·表示取最大值,amerge、bmerge分别表示i、j合并后的样本活度和密度,Di,-j为删除第j个样本后第i个样本的多样性,则将第i个样本的输入和输出赋值给合并后样本的输入xmerge和输出ymerge;B改进的LM参数优化方法:1首先,给出传统基于LM方法的参数更新表达式 式中,cji,t+1表示t+1时刻第j个隐层神经元中第i个元素的中心,σj,t+1,wj,t+1分别表示t+1时刻第j个隐层神经元的宽度和输出权值,Qt为t时刻的拟Hessian矩阵,I为与Qt大小相同的单位矩阵,μ表示学习因子,[·]-1表示矩阵的逆,为易于理解和描述,[·]-1在本申请中称作参数更新的学习率,简称为学习率;Et=ot-yt22表示网络的代价函数;ot和yt分别表示t时刻模型输出和样本真实输出;基于代价函数Et对中心c、宽度σ和权值w的二阶偏导数,得到拟Hessian矩阵Qt 式中,et=ot-yt表示t时刻模型输出ot和样本真实输出yt之间的偏差;cj,i表示第j个隐层神经元第i个元素的中心,例cK,1表示第K个隐层神经元的第1个元素的中心,K为隐层神经元的个数;wj表示第j个隐层神经元与输出层之间的权值;综和公式9-10,可得 且 式中,Ai,j表示公式11中矩阵第i行第j列元素的代数余子式,例如A1,1表示公式11中矩阵的第一个元素第一行第一列的代数余子式;D表示输入维度,与每个隐层神经元中心的维度相同,由于每个隐层神经元具有中心cj=[cj,1,cj,2,…,cj,D;j=1,2,…,K]、σjwj共D+2个参数需要更新D和K分别表示网络的输入维度和隐层神经元个数,故拟Hessian矩阵Qt为D+2×K阶的方阵;将代数余子式进一步展开可得 在公式13中,我们可以观察到当行列式的值为零时,公式11中的分母为0,即学习率的奇点,因此,LM算法在进行参数更新时不能保证是稳定的;2为了实现RBFNN中参数的快速、有效学习,并保证模型的稳定性,本节提出了改进的LM算法;改进的LM算法表达式为 其中,βMLM,t为本申请定义的学习超参数,即新的学习率,意在消除传统方法中的奇点公式11中分母为0的点, 为书写简便,下面给出公式16部分具体表达式 将公式17各等号后面部分进一步展开详细计算可得 其中,cji,t表示t时刻第j个隐层神经元中第i个元素的中心;σj,t,wj,t分别表示t时刻第j个隐层神经元的宽度和输出权重,表示第j个隐藏神经元在t时刻的输出,xt=[x1,t,x2,t,…,xi,t;i=1,2,…D]表示t时刻的网络输入,D为输入样本的维度,例如:xi,t表示t时刻的第i个输入元素。ct=[c1,t,c2,t,…,cj,t;j=1,2,…,K]表示t时刻K个隐层神经元的中心向量,且cj,t=[cj1,t,cj2,t,…,cji,t;i=1,2,…,D]为第j个隐藏神经元在t时刻的中心向量,上式描述了改进的LM算法。联立公式16-18可以看出,该算法利用模型参数组合重新定义学习率,使得在求解拟Hessian行列式时不存在分母为0的点,消除了奇异点,保证了模型的稳定性;C多步更新规则:为进一步降低计算复杂度,克服训练样本带来的网络不稳定问题,提出了一种基于TS的多步更新规则;step1外部循环更新参数;TS中的拟Hessian矩阵和梯度为 式中,QTS,t表示典型样本TS在t时刻的拟Hessian矩阵,gTS,t表示典型样本TS在t时刻的梯度,jn,t为t时刻第n个训练样本的雅克比子矩阵;en,t=on,t-yn,t表示t时刻典型样本TS中第n个样本的模型输出on,t和样本真实输出yn,t之间的偏差;δn,t表示t时刻第n个训练样本的调节参数,由当前样本的活度和密度共同决定,即 式中,an,t和bn,t分别表示t时刻第n个样本的活度和密度;step2内部循环更新参数;当前样本的拟Hessian矩阵和梯度为Qcur,t,m=jcur,t,mTjcur,t,m22gcur,t,m=jcur,t,mTecur,t,m23式中,jcur,t,m和ecur,t,m分别表示t时刻第m次更新当前有效样本的雅可比子矩阵和输出误差;step3综合更新参数;为降低单个样本引入的样本误差,每一次迭代更新得到LM算法的更新矩阵为Qt,m=QTS,t+Qcur,t,m24gt,m=gTS,t+gcur,t,m25。
全文数据:
权利要求:
百度查询: 北京工业大学 一种基于改进Levenberg-Marquardt的径向基神经网络优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。