买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京擎天科技有限公司
摘要:本申请提供一种结合历史数据的检索增强问答方法及系统,涉及人工智能技术领域,考虑到系统在投入使用后获取的历史数据中含有大量用户的提问方式和语言模式等信息,本申请通过微调方式将历史数据中的知识注入到问题文本表征模型,使问答系统能学习到用户提问过程中的语言特征,从而提升问答系统对用户问题的理解能力。进一步地,基于文本增强指令和大模型对历史数据进行增强,增加数据的多样性。以及,通过优化文本增强指令进一步提高历史数据的增强效果。本申请通过对历史数据回流和有效利用,增强了问答系统对用户问题的理解,提高了问答结果的准确性。
主权项:1.一种结合历史数据的检索增强问答方法,其特征在于,应用于结合历史数据的检索增强问答系统,所述方法包括:获取历史数据,所述历史数据包括所述系统在历史问答过程中积累的问题和相应的答案;构建问答库和第一问题库,所述问答库包括所述历史数据中的问题和相应的答案组成的问答对,所述第一问题库包括标准问题和与所述标准问题语义相似的非标准问题组成的问题对,所述标准问题和相应的所述非标准问题对应的答案相同,且均为所述历史数据中的问题;利用第一大语言模型对所述第一问题库中的所述非标准问题进行数据增强,得到与所述非标准问题语义相似的扩充问题;其中,所述数据增强包括如下步骤:确定文本增强指令;使用所述文本增强指令和所述非标准问题填充文本增强提示词模板,得到文本增强提示词;向所述第一大语言模型输入所述文本增强提示词,得到所述第一大语言模型输出的与所述非标准问题语义相似的扩充问题;其中,所述确定文本增强指令包括如下步骤:获取初始的文本增强指令,使用评估数据集中的任意问题对所述文本增强指令进行评估,得到所述初始的文本增强指令的得分,所述评估数据集由所述第一问题库中的部分问题构建而成;使用所述初始的文本增强指令和对应的得分填充优化文本增强指令提示词模板,得到优化文本增强指令提示词;向第二大语言模型输入所述优化文本增强指令提示词,得到中间文本增强指令;使用评估数据集中的任意问题对所述文本增强指令进行评估,得到所述中间文本增强指令的得分;使用所述中间文本增强指令和对应的得分继续填充所述优化文本增强指令提示词模板,得到新的优化文本增强指令提示词;若新的所述优化文本增强指令提示词包含的文本增强指令的数量大于预设数量,删除新的所述优化文本增强指令提示词中的待删除指令和对应的得分,所述待删除指令为得分最低的文本增强指令;若新的所述优化文本增强指令提示词包含的文本增强指令的数量小于或等于所述预设数量,或者,在删除新的所述优化文本增强指令提示词中的所述待删除指令和对应的得分之后,向所述第二大语言模型输入新的所述优化文本增强指令提示词,得到新的中间文本增强指令;再次使用评估数据集中的任意问题对所述文本增强指令进行评估,得到所述新的中间文本增强指令的得分,直至使用所述第二大语言模型迭代获取中间文本增强指令的次数等于预设优化次数后,将得分最高的文本增强指令确定为最终的文本增强指令;其中,所述使用评估数据集中的任意问题对所述文本增强指令进行评估,包括如下步骤:使用所述文本增强指令和评估数据集中的任意问题填充所述文本增强提示词模板,得到任意所述问题对应的文本增强提示词;将任意所述问题对应的文本增强提示词输入到所述第一大语言模型中,所述第一大语言模型根据任意所述问题生成并输出任意所述问题对应的各扩充问题;基于N-gram模型对任意所述问题对应的任意扩充问题进行文本切分,得到任意所述扩充问题的分词组成的分词集合;根据任意所述扩充问题的分词集合包含的分词的数量,确定任意所述问题对应的各扩充问题之间的差异性得分;将所述评估数据集中的问题对应的差异性得分的均值,确定为所述文本增强指令的得分,所述差异性得分用于评估各扩充问题之间的差异程度;使用任意所述扩充问题更新所述第一问题库,得到第二问题库;采用所述第二问题库中的问题对微调预训练表征模型,得到问题文本表征模型,所述问题文本表征模型用于对输入文本进行编码;利用所述问题文本表征模型得到目标问题的向量表示和任意所述标准问题的向量表示;根据所述目标问题的向量表示和任意所述标准问题的向量表示之间的相似度,确定与所述目标问题相似度最高的标准问题;从所述问答库中确定所述相似度最高的标准问题对应的目标答案。
全文数据:
权利要求:
百度查询: 南京擎天科技有限公司 一种结合历史数据的检索增强问答方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。