一种个性化提示语优化方法、装置、电子设备及存储介质

导航：龙图腾网> 最新专利技术> 一种个性化提示语优化方法、装置、电子设备及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明公开了一种个性化提示语优化方法、装置、电子设备及存储介质，包括，获取大模型任务级提示语的K个组成部分，构建MDP模型，获取MDP模型的初始时刻状态，根据初始时刻状态，输出当前时刻的推荐物品集，对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码，迭代得到当前时刻的状态，根据当前时刻的状态，迭代得到下一时刻的状态，根据下一时刻的状态，选择下一时刻的动作，计算下一时刻的动作的概率，和下一时刻的状态的值，根据被选择的推荐物品，得到累计奖励、第一损失函数和第二损失函数；本发明会不断地尝试不同的提示语，根据用户反馈和推荐物品来更新策略，从而逐渐提升提示语的质量和推荐效果。

主权项：1.一种个性化提示语优化方法，其特征在于，包括：使用分布式智能体，获取大模型任务级提示语的K个组成部分；构建MDP模型，所述MDP模型包括，对应K个组成部分的K个动作空间与共享的全局状态空间；所述动作空间的动作用于表征当前迭代的提示语的自然语言，所述状态空间的状态用于表征当前迭代的提示语和大模型输出的推荐物品集；获取MDP模型的初始时刻状态；根据初始时刻状态，使用分布式智能体从动作空间中选择初始时刻的动作，由初始时刻的动作生成当前时刻的提示语；使用当前时刻的提示语作为输入，输出当前时刻的推荐物品集；对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码，得到提示语表示和推荐物品表示，根据提示语表示和推荐物品表示，迭代得到当前时刻的状态；根据当前时刻的状态，使用分布式智能体从动作空间中选择动作；由动作生成迭代后的提示语，由迭代后的提示语作为输入，输出迭代后的的推荐物品集；根据迭代后的提示语和迭代后的推荐物品集中被选择的推荐物品，迭代得到下一时刻的状态；根据下一时刻的状态，选择下一时刻的动作，计算下一时刻的动作的概率，和下一时刻的状态的值；根据被选择的推荐物品，确定奖励；根据奖励和下一时刻的状态的值，得到累计奖励；根据累计奖励，得到Actor-Critic模型的第一损失函数和第二损失函数；使用所述第一损失函数评估所述下一时刻的状态，使用所述第二损失函数的下一时刻的动作的概率，最大化Actor-Critic模型的期望累计奖励。

全文数据：

权利要求：

百度查询：中国科学技术大学一种个性化提示语优化方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：功率模块散热组装结构

下一篇：数据处理方法、装置、电子设备、移动设备及存储介质

相关技术

功率模块散热组装结构

数据处理方法、装置、电子设备、移动设备及存储介质

半导体存储器件

一种小麦晚播施肥方法及其应用

一种骨科导针导向装置

导体迹线结构、转子、转角传感器单元和用于制造转角传感器单元的转子的方法

一种晶圆预清洗腔室穹顶清洗方法

一种吸入式制剂、迭代优化流程及其应用

一种基于运行实际的核电厂设备安全重要性评估方法

一种TE₅模式和TM₂模式之间转换的双层绝热转换器

基于消防物联网的调度控制平台

主辅一体型轴向柱塞泵

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种个性化提示语优化方法、装置、电子设备及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务