Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多头注意力冗余评估的大规模预训练模型迁移方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门大学

摘要:本发明提供一种基于多头注意力冗余评估的大规模预训练模型迁移方法,所述方法包括:获取大规模预训练模型,在每个多头注意力模块前插入一个传播信息适配器;计算每一个多头注意力模块的偏好得分;将偏好得分按照从高到低排序,筛选出偏好得分最低的一定数量的多头注意力模块作为被跳过的模块;对于每一个被跳过的模块,用其同层的传播信息适配器替代,执行信息交换和模态路由,得到紧凑的网络模型;对所述紧凑的网络模型进行训练;训练完成后,将传播信息适配器与网络进行重参数化,得到训练后的模型。本发明方法可在保持或提高模型性能的同时显著减少模型的参数数量和推理时间,从而提高模型迁移效率。

主权项:1.基于多头注意力冗余评估的大规模预训练模型迁移方法,所述方法应用于深度学习中自然语言与图像模态处理,所述大规模预训练模型的每一层包括多头注意力模块和前馈神经网络,其特征在于:所述方法包括:步骤1、获取大规模预训练模型,在每个多头注意力模块前插入一个传播信息适配器;步骤2、计算每一个多头注意力模块的偏好得分;步骤3、将偏好得分按照从高到低排序,筛选出偏好得分最低的一定数量的多头注意力模块作为被跳过的模块;步骤4、对于每一个被跳过的模块,用其同层的传播信息适配器替代,执行信息交换和模态路由,得到紧凑的网络模型;步骤5、对所述紧凑的网络模型进行训练;步骤6、训练完成后,将传播信息适配器与网络进行重参数化,得到训练后的模型,通过ScienceQA数据集对训练后的模型验证其问题推理效率;所述步骤1中的传播信息适配器的结构具体为: 其中,表示模型第i层下采样得到的输出,是模型第i层的输入,表示模型第i层上采样的输出,fd1和fd2分别表示第一下采样线性投影函数、第二下采样线性投影函数,fu1和fu2分别表示第一上采样线性投影函数、第二上采样线性投影函数,avg表示平均池化操作,和分别表示第一权重值、第二权重值,且权重值和通过向量计算得到: 其中,,Wr表示权重矩阵,br表示偏置项,表示softmax操作的温度系数,router()表示路径路由函数,softmax()表示将输入向量转换为概率分布的函数,使得输出向量中的每个元素都在0到1之间,并且所有元素的和为1;所述步骤2具体为:对所述模型中每一个多头注意力模块,使用一个多臂老虎机算法来随机采样和训练子网络,并根据子网络的损失值来计算当前模块的奖励值,反映当前模块对任务性能的贡献,然后根据奖励值来更新模块的偏好得分,表示其被保留的概率,具体计算公式如下: 其中,是模型第i层在第t步的行为策略,表示a和b之间的均匀分布,是模型第i层在第t步的偏好得分,是第h个子网络在第t步的损失值,表示在第t步时,对于被跳过的第j个模块的子网络的损失值,m是预设的被跳过的模块的数量,n是模型的总层数。

全文数据:

权利要求:

百度查询: 厦门大学 基于多头注意力冗余评估的大规模预训练模型迁移方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。