一种高并发的大语言模型高速推理部署方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国—东盟信息港股份有限公司

摘要：本发明公开了一种高并发的大语言模型高速推理部署方法，属于计算机自然语言技术领域，解决现有推理部署方法难以同时兼顾基础准确率、泛化能力、延迟、并发性和计算速度的推理需求的技术问题，方法为：包括准备好大语言模型和GPU算力集群；根据大语言模型和开源部署框架vLLM所需的运行环境版本配置制作Docker镜像；在GPU算力集群内的每台物理机中，使用Docker镜像创建容器；编写大语言模型的推理代码，在容器内使用BFloat16浮点数格式完成适配部署；根据大语言模型对测试数据集的推理情况，筛选最优的后处理参数；采用后处理参数和大语言模型搭建流式推理API；使用流式推理API进行大语言模型推理。可以确保不损失大语言模型精度的同时，提供最大的并发处理能力。

主权项：1.一种高并发的大语言模型高速推理部署方法，其特征在于，包括以下步骤：步骤1.准备好需要部署的大语言模型和需要匹配模型推理部署的GPU算力集群；步骤2.根据步骤1中的大语言模型和开源部署框架vLLM所需的运行环境版本，配置制作模型推理计算所需的Docker镜像；步骤3.在步骤1中的GPU算力集群内的每台物理机中，使用步骤2中制作好的Docker镜像创建容器；步骤4.编写步骤1中大语言模型的推理代码，在步骤3中创建的容器内使用BFloat16浮点数格式完成适配部署；步骤5.制作测试数据集，根据步骤4中部署的大语言模型对测试数据集的推理情况，筛选最优的后处理参数；步骤6.采用步骤5中得到的后处理参数和步骤4中部署的大语言模型搭建流式推理API；步骤7.使用步骤6中的流式推理API进行大语言模型推理。

全文数据：

权利要求：

百度查询：中国—东盟信息港股份有限公司一种高并发的大语言模型高速推理部署方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电路板安装机构

下一篇：用于在GPU上执行标准解卷积的方法和系统

相关技术

一种电路板安装机构

用于在GPU上执行标准解卷积的方法和系统

一种畜牧兽医牲畜输液的固定器

一种燃气管道用支吊架结构

用于生产3-羟基己二酸和/或α-氢化己二烯二酸的基因修饰微生物以及该化学品的制造方法

卡接式注射器固定装置

一种显示面板及显示装置

月报数据导出方法、装置、设备及计算机存储介质

控氧模组及冰箱

增透膜、光学透镜及光纤激光设备

靶向蛋白造影剂、其制备方法及用途

一种喷油器总成压紧机构

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种高并发的大语言模型高速推理部署方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务