买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院软件研究所
摘要:本发明公开一种面向文档知识库的多粒度结构化检索增强生成方法及装置,属于信息检索和自然语言处理领域。所述方法包括:将原始文档数据中的每一原始文档Di切分为若干个叶节点粒度的文档片段并生成不同粒度层级的文档片段后,提取文档片段间的层次化组合关系;在同一粒度层级上抽取文档片段间的指代关系,并获取文档片段所涉及的原生引用关系;根据输入问题与文档片段的相似性,召回若干个文档片段;基于层次化组合关系、指代关系和原生引用关系,对召回的文档片段进行重排序;将输入问题和重排序的文档片段拼接成问答提示语,并结合生成式语言模型得到输入问题的答案。本发明可以提升检索过程中信息匹配的精确度。
主权项:1.一种面向文档知识库的多粒度结构化检索增强生成方法,其特征在于,包括以下步骤:将原始文档数据中的每一原始文档Di切分为若干个叶节点粒度的文档片段并生成不同粒度层级的文档片段后,提取文档片段间的层次化组合关系;其中,i为原始文档的序号,n表示文档片段在原始文档Di中的粒度层级,j表示该文档片段在同一粒度层级中的序号,n为自然数;在同一粒度层级上抽取文档片段间的指代关系,并获取文档片段所涉及的原生引用关系;根据输入问题与文档片段的相似性,召回若干个文档片段;基于层次化组合关系、指代关系和原生引用关系,对召回的文档片段进行重排序;将输入问题和重排序的文档片段拼接成问答提示语,并结合生成式语言模型得到输入问题的答案。
全文数据:
权利要求:
百度查询: 中国科学院软件研究所 面向文档知识库的多粒度结构化检索增强生成方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。