Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜福州大学林瑞全获国家专利权

恭喜福州大学林瑞全获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜福州大学申请的专利一种基于FPGA的轻量级CNN分类器的优化提速方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114925780B

龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210679183.9,技术领域涉及:G06F18/2415;该发明授权一种基于FPGA的轻量级CNN分类器的优化提速方法是由林瑞全;孙小坚;方子卿;王俊;王锐亮设计研发完成,并于2022-06-16向国家知识产权局提交的专利申请。

一种基于FPGA的轻量级CNN分类器的优化提速方法在说明书摘要公布了:本发明涉及一种基于FPGA的轻量级CNN分类器的优化提速方法,包括以下步骤:1)在PC端上利用搭建好的轻量级CNN网络,通过用于图像分类的数据集进行训练,获得多次训练分类效果最好的网络模型;同时在FPGA硬件端对PC端导出的模型架构进行设计;2)对训练好的网络模型进行量化感知训练,将32位浮点数模型参数保存为8位定点整数,同时在FPGA硬件端对轻量级CNN网络完整的架构实现;3)将量化感知训练后的权重,根据设计好的并行度按照硬件需要的读写顺序写成coe文件格式,导入到FPGA的片内存储中,轻量级CNN分类器即可读取输入图片数据实现分类推理。该方法有利于提高分类器的实时性。

本发明授权一种基于FPGA的轻量级CNN分类器的优化提速方法在权利要求书中公布了:1.一种基于FPGA的轻量级CNN分类器的优化提速方法,其特征在于,包括以下步骤:1在PC端上利用搭建好的轻量级CNN网络,通过用于图像分类的数据集进行训练,获得多次训练分类效果最好的网络模型;同时在FPGA硬件端对PC端导出的模型架构进行设计;2对训练好的网络模型进行量化感知训练,将32位浮点数模型参数保存为8位定点整数,同时在FPGA硬件端对轻量级CNN网络完整的架构实现;3将量化感知训练后的权重,根据设计好的并行度按照硬件需要的读写顺序写成coe文件格式,导入到FPGA的片内存储中,轻量级CNN分类器即可读取输入图片数据实现分类推理;轻量级CNN分类器系统的总体架构主要由上位机、硬件加速模块、片上存储器和显示模块组成,网络的权重经量化后根据DW、PW层的并行度以及数据读取规则进行有序排列,提前写入片上存储器中;上位机只负责通过PCIE总线传输输入图片数据到输入缓冲器中;硬件加速模块在监测到图片数据已经加载完成后,从片上存储器读入权重,即开始前向推理加速;所述轻量级CNN网络采用轻量级网络MobilenetV2,所述硬件加速模块对应MobileNetV2网络结构进行部署,主要由Conv2d层、DW层、PW层、池化层组成;最终分类结果显示在显示模块上;参数量化后,需用新的定点数计算公式替代原来的浮点数卷积运算公式在硬件上实现;假设卷积的权重weight为w,bias为b,输入为x,输出激活值为a,由于卷积本质上为矩阵运算,因此表示为下式所示: 用r表示浮点实数,q表示量化后的定点整数,S表示量化的尺度因子,Z表示0经过量化后对应的整数值,则浮点数与定点数的转化公式如下式所示:r=Sq-Z2 将公式1中的w、b、x分别用量化后的定点数表示,即得到公式4: 整个公式4只有是浮点数,其中Sw为权重的量化尺度,Sx为输入的量化尺度,Sa为输出的量化尺度;假设只要找到合适的n与M0使得M≈2-nM0,公式4即可全部转化为定点数运算;量化计算的硬件实现步骤如下:A每次的卷积运算,图片与权重乘累加结果用32位寄存器存储,乘数也用32寄存器存储,两者的乘法结果用64位寄存器存储;B对图片与权重乘累加结果,在硬件端进行Round操作,Round操作后紧接着移位操作,Round与移位操作合做一个节拍;C对移位后的结果,经过relu后,截成8位输出,relu与截位合一拍;在轻量级CNN网络的层内以及相邻PW层之间采取协同并行流水线的方法,以加速前向传播过程,提高分类器的实时性;轻量级CNN网络主要由PW层与DW层组成,在提高DW层的计算并行度上采取单个卷积运算展开与输入通道展开两种方式相结合的策略,具体为:DW层的卷积窗口N=3,即为3×3的卷积窗口,将3×3的卷积计算平铺开,输入图片位置的3×3数据与相应权重相乘,即一个时钟周期内完成9次乘法计算;在输入通道上采取k通道并行的方式,整个DW层在一个FPGA时钟周期内完成9×k次乘法计算,经后续操作后输出k个通道同一位置的数据;PW层采取k输入通道与k输出通道相结合的并行方式;在一个CLK同时读取k输入通道同一个位置的数据与k组通道上的权重进行计算,依次按输入通道方向读取输入Map数据,经过n个CLK后输出k个输出通道同一位置的数据;在轻量级CNN分类器相邻的两个PW层之间以流水线的方式运行计算,以进一步加快网络的推理速度,层间流水结构如下:PW1的权重为m,n的二维数组形式,其中m为输出通道数,n为输入通道数;PW层并行度设置为k,则PW1层在一个周期读取前一层输出的k张图片的k个数据后,同时读取k组n输入通道上的k个数,即k×k个权重数据,进入PW1层计算;在下一个周期,PW1层读取下一组k张图片的k个数据后,权重则按输出通道的方向读取下一组k×k个权重数据,依次类推;PW1层的输出图片尺寸为y,y,m,当m张图片的首位数据全部写入缓存时,PW1层发给PW2一个start信号,PW2开始读入数据进行运算,由于PW2的输出通道数大于PW1,因此PW2等待PW1层写入缓存的m张图片的首位数据后启动,以使PW1的写和PW2的读不发生冲突,两层并行运行;PW2的下一层为DW层,卷积核为3×3,每个周期要进行滑窗读入缓存数据,因此PW2的权重读取按输入通道的方向读取每一组k×k个权重数据;至此实现各个层内、层间协同的并行流水。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。