买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种可配置的BF16格式矩阵乘法数据通路实现方法、部件及装置,本发明可配置的BF16格式矩阵乘法数据通路实现方法包括:进行数据通路配置,包括数据通路数C,单个数据通路支持的数据宽度V的配置;选择一条数据通路,在该数据通路中选择处理器中计算部件所支持的计算粒度,将原有矩阵乘操作切分一个或多个微操作,并按照设定的连续微操作的流水线间隔执行。本发明基于现有典型数据执行通路提供一种灵活的BF16格式矩阵乘法数据通路实现方式,能够提升BF16设计的硬件设计效率,并提供更高的系统性能,支持多种数据的执行粒度。
主权项:1.一种可配置的BF16格式矩阵乘法数据通路实现方法,其特征在于,包括:1)进行数据通路配置,包括数据通路数C,单个数据通路支持的数据宽度V的配置;2)选择一条数据通路,在该数据通路中选择处理器中计算部件所支持的计算粒度,将原有矩阵乘操作切分成一个或多个微操作,并按照设定的连续微操作的流水线间隔执行;原有矩阵乘操作的输入第一个源操作数opa和第二个源操作数opb为两组矩阵数据,一组矩阵数据的尺寸为2×4,另一组矩阵数据的尺寸为4×2,输出的目的操作数res为尺寸为2×2的矩阵数据;步骤2)包括:A2.1)选择一条数据通路PATHi;A2.2)激活数据通路PATHi的16位浮点乘法模块fmul16和32位浮点加法模块fadd32;A2.3)在该数据通路中以乘累加操作为计算粒度,将原有矩阵乘操作切分为基于乘累加操作的4个微操作,将每一个微操作通过数据通路PATHi的16位浮点乘法模块fmul16和32位浮点加法模块fadd32完成乘累加操作,且连续微操作的流水线间隔为3拍;或者,原有矩阵乘操作的输入第一个源操作数opa和第二个源操作数opb为两组矩阵数据,一组矩阵数据的尺寸为2×4,另一组矩阵数据的尺寸为4×2,输出的目的操作数res为尺寸为2×2的矩阵数据;步骤2)包括:B2.1)选择一条数据通路PATHi;B2.2)激活数据通路PATHi的16位浮点乘法模块fmul16、32位浮点加法模块fadd32和64位浮点加法模块fadd64,其中64位浮点加法模块fadd64支持两路并行32位浮点加法操作;B2.3)在该数据通路中以乘累加操作为计算粒度,将原有矩阵乘操作切分为基于点乘操作的2个微操作,将每一个微操作通过数据通路PATHi的16位浮点乘法模块fmul16、32位浮点加法模块fadd32和64位浮点加法模块fadd64完成点乘操作,且连续微操作的流水线间隔为3拍;或者,原有矩阵乘操作的输入第一个源操作数opa和第二个源操作数opb为两组矩阵数据,一组矩阵数据的尺寸为2×4,另一组矩阵数据的尺寸为4×2,输出的目的操作数res为尺寸为2×2的矩阵数据;步骤2)包括:C2.1)选择两条数据通路;C2.2)激活两个数据通路的16位浮点乘法模块fmul16、32位浮点加法模块fadd32和64位浮点加法模块fadd64,其中64位浮点加法模块fadd64支持两路并行32位浮点加法操作;C2.3)在该数据通路中以矩阵乘操作为计算粒度,将原有矩阵乘操作转换为基于矩阵乘的1个微操作,且连续微操作的流水线间隔为1拍,输入包括8个源寄存器和目的寄存器;针对每一条数据通路,将8个输入数据两两输入到该数据通路的16位浮点乘法模块fmul16、乘法结果先在32位浮点加法模块fadd32中与目的寄存器完成乘法运算得到新的乘法结果,再将新的乘法结果送入本数据通路或另一条数据通路的64位浮点加法模块fadd64,在该64位浮点加法模块fadd64中与另一条数据通路的乘法结果完成累加以得到最终结果。
全文数据:
权利要求:
百度查询: 中国人民解放军国防科技大学 可配置的BF16格式矩阵乘法数据通路实现方法、部件及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。