买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东浪潮科学研究院有限公司
摘要:本发明提出一种基于FP8的大语言模型量化方法及系统,属于人工智能技术技术领域,包括:使用通用的FP8量化方法对大模型权重进行量化,将量化数据表示为二进制格式,将二进制格式数据转化为INT8数据,使用INT8数据在硬件上加载,在计算时,将INT8数据再通过二进制表示转化为FP8数据类型,同时将上述转换进行融合,降低转换导致的效率延迟问题,通过上述方式,可以利用FP8的量化方式,适用于不支持FP8数据类型的硬件,可以用于问答、生成等大模型任务中,具有较高的实用价值和创新价值。
主权项:1.一种基于FP8的大语言模型量化方法,其特征在于,包括:获取FP8数据,采用量化方法对FP32类型大模型权重量化,得到FP8数据类型的模型权重及量化参数scale;对于模型权重的每个元素,将该元素的FP8数据表示为二进制格式,将二进制格式数据转化为INT8数据;将转换后的INT8权重数据加载到静态随机存取存储器;对于加载得到的INT8权重数据每个元素,表示为二进制格式,将二进制格式数据转化为FP8类型数据;利用得到的量化参数scale,采用FP8通用的逆量化方法,对FP8类型数据进行逆量化,得到FP32数据类型权重;利用逆量化得到的FP32类型的权重数据和激活值数据进行GEMM计算得到输入数据;通过大语言模型对输入数据进行推理,得到大语言模型输出结果。
全文数据:
权利要求:
百度查询: 山东浪潮科学研究院有限公司 一种基于FP8的大语言模型量化方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。