首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于混合专家模型的语言模型改进结构的方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明提出一种基于混合专家模型的语言模型改进结构的方法及系统,属于人工智能技术领域,包括获取待调整的混合专家模型,并进行硬件资源的配置;准备微调数据集;设计根据任务自适应的门控网络结构;引入z‑loss惩罚函数和采用专家竞争机制方法改进混合专家模型结构并在混合专家模型微调过程中内置动态调整专家容量因子,最终优化Tokens分配到专家精准度,减少过拟合风险,并有效均衡各专家在处理任务时的负载,从而提升模型在新场景下的泛化能力和资源利用效率。

主权项:1.一种基于混合专家模型的语言模型改进结构的方法,其特征在于,包括:获取待调整的混合专家模型,并进行硬件资源的配置;准备微调数据集;微调数据集包括业务相关特定领域的文档数据集,业务相关特定领域的文档数据集包含相关政策文件问答数据集,水利法规和相关设施标准知识文档数据集,法律案件和相关法律条文数据集;设计根据任务自适应的门控网络结构;所述门控网络结构引入z-loss惩罚函数,用于减少门控网络中大数值logits的影响;采用专家竞争机制和在混合专家模型微调过程中内置动态调整专家容量因子来平衡专家的选择;混合专家模型微调过程中内置动态调整专家容量因子的具体的公式如下: 其中CapacityFactor0是初始容量因子,CapacityFactort为专家容量因子,专家容量因子是随着模型训练,调整使用概率小的专家;t是训练时间,β是动态调整系数,e为自然常数;通过LoRA技术微调混合专家模型,实现对新任务的快速适应和性能提升。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种基于混合专家模型的语言模型改进结构的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。