首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种高并发的大语言模型高速推理部署方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国—东盟信息港股份有限公司

摘要:本发明公开了一种高并发的大语言模型高速推理部署方法,属于计算机自然语言技术领域,解决现有推理部署方法难以同时兼顾基础准确率、泛化能力、延迟、并发性和计算速度的推理需求的技术问题,方法为:包括准备好大语言模型和GPU算力集群;根据大语言模型和开源部署框架vLLM所需的运行环境版本配置制作Docker镜像;在GPU算力集群内的每台物理机中,使用Docker镜像创建容器;编写大语言模型的推理代码,在容器内使用BFloat16浮点数格式完成适配部署;根据大语言模型对测试数据集的推理情况,筛选最优的后处理参数;采用后处理参数和大语言模型搭建流式推理API;使用流式推理API进行大语言模型推理。可以确保不损失大语言模型精度的同时,提供最大的并发处理能力。

主权项:1.一种高并发的大语言模型高速推理部署方法,其特征在于,包括以下步骤:步骤1.准备好需要部署的大语言模型和需要匹配模型推理部署的GPU算力集群;步骤2.根据步骤1中的大语言模型和开源部署框架vLLM所需的运行环境版本,配置制作模型推理计算所需的Docker镜像;步骤3.在步骤1中的GPU算力集群内的每台物理机中,使用步骤2中制作好的Docker镜像创建容器;步骤4.编写步骤1中大语言模型的推理代码,在步骤3中创建的容器内使用BFloat16浮点数格式完成适配部署;步骤5.制作测试数据集,根据步骤4中部署的大语言模型对测试数据集的推理情况,筛选最优的后处理参数;步骤6.采用步骤5中得到的后处理参数和步骤4中部署的大语言模型搭建流式推理API;步骤7.使用步骤6中的流式推理API进行大语言模型推理。

全文数据:

权利要求:

百度查询: 中国—东盟信息港股份有限公司 一种高并发的大语言模型高速推理部署方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。