首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于蜕变测试的大模型推理能力测试方法与框架 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军战略支援部队信息工程大学

摘要:本发明公开一种基于蜕变测试的大模型推理能力测试方法与框架,该方法包括:在采集新发布测试基准的同时,提出蜕变函数方法库并进行丰富完善;构建面向大模型推理能力评估领域的七要素蜕变关系模板;使用七元素蜕变关系模板,指导蜕变关系的设计过程,同时基于蜕变函数方法库的积累,生成初始测试用例集及衍生测试用例集和高质量蜕变关系,基于蜕变关系判定结果,引入蜕变关系揭错率,并利用揭错率针对蜕变关系揭错能力的量化反馈框架,优化蜕变关系执行顺序。本发明可以有效辅助蜕变测试技术在大模型测试领域的应用,高效梳理框架构建逻辑与环节,显著增强蜕变关系设计过程的可操作性与可解释性;本发明能够有效缓解大规模测试预期的构造问题。

主权项:1.一种基于蜕变测试的大模型推理能力测试方法,其特征在于,包括:步骤1:采集获取最新的大模型测试基准数据,并提取其中的测试用例数据作为初始测试用例集,同时,通过设计实现不同的蜕变函数对蜕变函数方法库进行更新与完善;步骤2:在面向大模型推理能力评估的实际任务背景下,通过七要素不同的组合方式搭建不同的蜕变关系模板;所述七要素包括目标大模型、提示词、前件、后件、输出文本、输入数据间函数和输出数据间函数;前件指的是推理任务中的条件部分内容;后件指的是推理任务中依赖于某种条件的事物情况的判断内容;步骤3:基于已构建的不同蜕变关系模板,通过选用不同效果的蜕变函数方法,指定对应的输入数据间函数和输出数据间函数关系,设计得到蜕变关系,结合已采集初始测试用例集执行实际的蜕变测试过程;并基于蜕变关系的实际测试执行结果,在同一初始测试用例数据集上通过揭错率来表示不同蜕变关系的揭错能力,通过揭错率的动态更新,对蜕变测试的蜕变关系执行逻辑进行优化更新。

全文数据:

权利要求:

百度查询: 中国人民解放军战略支援部队信息工程大学 一种基于蜕变测试的大模型推理能力测试方法与框架

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。