首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种大型语言模型的权重压缩处理系统及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:时擎智能科技(上海)有限公司

摘要:本发明提供了一种大型语言模型的权重压缩处理系统及装置,涉及大型语言模型技术领域,系统主要包括:离群值加载模块、第一缓存模块、离群值分发模块、压缩系数加载模块、第二缓存模块、第一系数分发网络模块、查找表阵列模块、第二系数分发网络模块、定点运算阵列模块、第二缓存阵列模块、浮点运算阵列模块、第三系数分发网络模块、输入矩阵加载模块、第一缓存阵列模块及输入分发网络模块。本方案可以有效支持各种权重压缩方法,可以有效减少中间结果的搬运量及数据吞吐量,可以有效降低系统功耗,进而能够适应端侧大型语言模型的应用需求。

主权项:1.一种大型语言模型的权重压缩处理系统,其特征在于,包括离群值加载模块、第一缓存模块、离群值分发模块、压缩系数加载模块、第二缓存模块、第一系数分发网络模块、查找表阵列模块、第二系数分发网络模块、定点运算阵列模块、第二缓存阵列模块、浮点运算阵列模块、第三系数分发网络模块、输入矩阵加载模块、第一缓存阵列模块及输入分发网络模块;所述离群值加载模块的输入端连接外部存储器,输出端连接第一缓存模块的输入端,用于从外部存储器加载权重矩阵W当前行的离群值,并输出至第一缓存模块中;所述第一缓存模块的输出端连接离群值分发模块的输入端;所述离群值分发模块的输出端连接浮点运算阵列模块的第一输入端;所述压缩系数加载模块,用于根据预设的压缩格式,从外部存储器中加载二进制结构体并进行解析,分离出整体修正值、分组修正值及压缩权重值;所述压缩系数加载模块的输入端连接外部存储器;所述压缩系数加载模块的第一输出端连接第二缓存模块的输入端,所述第二缓存模块的输出端连接第一系数分发网络模块的输入端,所述第一系数分发网络模块的输出端连接浮点运算阵列模块的第一输入端,用于将所述整体修正值传递并分发;所述压缩系数加载模块的第二输出端连接查找表阵列模块的输入端,所述查找表阵列的输出端连接第二系数分发网络模块的输入端,所述第二系数分发网络模块的输出端连接定点运算阵列模块的第一输入端,所述定点运算阵列模块的输出端连接第二缓存阵列模块的输入端,所述第二缓存阵列模块的输出端连接浮点运算阵列模块的第二输入端,用于将所述分组修正值进行查找表转换、分发以及完成定点至浮点数的转换;所述压缩系数加载模块的第三输出端连接第三系数分发网络模块的输入端,所述第三系数分发网络模块的输出端连接所述定点运算阵列模块的第二输入端,用于将所述压缩权重值进行传递、分发以及完成定点至浮点数的转换;所述二进制结构体包括压缩权重值及偏移值;所述压缩系数加载模块包括整体修正单元、分组修正单元及压缩权重单元:所述整体修正单元,用于解析每个权重分块的整体修正值,包括整体缩放值S0和整体偏移值B0;所述权重分块是指针对权重矩阵W的每一行,令其长度为M,以256个权重为一块,将整行权重划分为若干块;所述分组修正单元,用于解析每个权重分组的分组修正值,包括组内缩放值S1和组内偏移值B1;所述权重分组的具体分组方法包括按照预设长度,将每个权重分块中的256个权重,进一步划分为若干组;所述压缩权重单元,用于解析查找表的地址;所述查找表,使用128bit位宽,用于记载权重压缩比例,根据压缩格式,将输出位宽解析为32或64或128bit;所述输入矩阵加载模块的输入端连接外部存储器,所述输入矩阵加载模块的输出端连接第一缓存阵列模块,所述第一缓存阵列模块的输出端连接输入分发网络模块,所述输入分发网络模块的输出端连接浮点运算阵列模块的第三输入端,用于将外部存储器中的输入特征矩阵X进行传递并分发;所述浮点运算阵列模块的输出端,用于将输入特征矩阵X与权重矩阵W进行矩阵乘法运算的结果外发。

全文数据:

权利要求:

百度查询: 时擎智能科技(上海)有限公司 一种大型语言模型的权重压缩处理系统及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。