买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出一种优化神经网络模型激活的量化方法,旨在克服现有技术中存在的缺陷,解决现有低比特例如,2bit模型在训练过程中精度损失严重和难以收敛的问题。本申请是基于全精度模型微调低比特模型:先用数据集训练一版全精度模型达到目标精度,然后基于全精度模型微调训练低比特模型。所述方法基于全精度模型先训练一个4bit模型,再基于4bit模型训练2bit模型,且在训练4bit和2bit的低bit模型时featuremap的最大值都采用滑动平均的方式来统计并且每次训练时都重新更新而不依赖上一个模型的统计结果。
主权项:1.一种优化神经网络模型激活的量化方法,其特征在于,所述方法基于全精度模型先训练一个4bit模型,再基于4bit模型训练2bit模型,且在训练4bit和2bit的低bit模型时featuremap的最大值都采用滑动平均的方式来统计并且每次训练时都重新更新而不依赖上一个模型的统计结果;所述方法包括以下步骤:S1,基于数据集先训练一版全精度模型达到目标精度;所述步骤S1进一步包括:S1.1,确定训练数据:训练模型的数据集是ImageNet1000,该数据集是ImageNet数据集的一个子集,有1.2million的训练集,5万验证集,15万测试集,1000个类别;S1.2,确定训练模型:训练采用的基础神经网络模型是MobileNetV1,该网络是一种基于深度可分离卷积的模型;S1.3,选择激活函数:MobileNetV1模型,在每一层卷积后面都会加上批量归一化BN和激活函数Relu操作;所述步骤S1.3中,由于训练的模型需要量化到低比特,且之后需要将featuremap量化到2bit,所以所述激活函数Relu操作还可以在训练时将Relu激活函数换为ReluX,如公式1所示: 公式1;S1.4,训练网络:对于网络的训练基本步骤是:先采用adam优化器训练60个epoch,然后再用SGD优化器直至训练结束;S1.5,测试网络效果:利用测试集测试网络结果;S2,基于全精度模型训练权重和激活量化到4bit的模型,并且在训练的同时统计featuremap的最大值;所述步骤S2进一步包括:S2.1,数据量化:对于待量化的数据按公式2进行量化,得到低比特的数据,训练时将权重和激活量化到4bit: 公式2变量说明:为全精度数据是一个数组,为模拟量化后的数据,全精度数据中最大值,全精度数据中最小值,b为量化后的位宽;S2.2,在训练模型的同时,获取featuremap的最大值再通过滑动平均的方法统计最大值,用maxValue表示;S2.3,对每一层激活函数获得的参数maxValue再通过滑动平均的方法来更新,如公式3所示: 公式3变量说明:为变量v在t时刻的值,β为加权系数,为变量v在t时刻的值,为变量v在t-1时刻的值;S3,再基于步骤S2训练的4bit模型训练权重和激活量化到2bit的模型,并且重新统计featuremap的最大值;所述步骤S3包括:S3.1,数据量化:对于待量化的数据按公式2进行量化,得到低比特的数据,训练时将权重和激活量化到2bit: 公式2变量说明:为全精度数据是一个数组,为模拟量化后的数据,全精度数据中最大值,全精度数据中最小值,b为量化后的位宽;S3.2,在训练模型的同时,获取featuremap的最大值再通过滑动平均的方法统计最大值,用maxValue表示;S3.3,对每一层激活函数获得的参数maxValue再通过滑动平均的方法来更新,如公式3所示: 公式3变量说明:为变量v在t时刻的值,β为加权系数,为变量v在t时刻的值,为变量v在t-1时刻的值。
全文数据:
权利要求:
百度查询: 合肥君正科技有限公司 一种优化神经网络模型激活的量化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。