一种基于大模型的科学文献字段抽取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于大模型的科学文献字段抽取方法及系统，包括：将科学文献document切分成若干片段chunks；迭代生成亟待抽取的字段的答案，并排除chunks中不包含亟待抽取的字段的片段；之后一边生成候选答案，一边通过差异对比的方式，排除不同chunk中的冗余答案信息，排除由于幻觉导致输出的错误答案信息，并在迭代过程中融合包含正确答案的chunk，解决了针对不同片段回答零散不易整合的问题；该方法和系统在有限计算资源的条件下，能够最大发挥生成大模型对科学文献的抽取性能。

主权项：1.一种基于大模型的科学文献字段抽取方法，其特征在于，包括以下步骤：（1）将科学文献切分成若干片段chunks=[chunk1,chunk2,……,chunkN]；（2）使用亟待抽取的字段、字段解释以及切片片段构建prompt；（3）遍历切分的若干片段chunks，使用步骤（2）构建切分片段中第i个片段，即chunki，其对应的prompt输入大模型LLM得到输出outi，若outi不为空则提前结束遍历；（4）遍历结束后，将outi的值赋给OUT，所述OUT表示迭代到当前chunk的最优答案；将chunki的内容赋给CHUNK，所述CHUNK表示迭代到当前chunk的最适合用来抽取字段的chunk组合；若OUT为空，跳转到步骤（10）；若OUT不为空，跳转到步骤（5）；（5）从若干片段chunks中第i+1个片段开始遍历，使用步骤（2）构建chunkj对应的prompt输入LLM输出为outj，所述chunkj表示第j个chunk，j=i+1；若outj不为空则提前结束遍历；（6）遍历结束后，若outj为空，跳转到步骤（10）；若outj不为空，则跳转至步骤（7）；（7）将CHUNK和chunkj进行拼接生成的chunk+j和通过步骤（2）构建的prompt输入LLM模型中，得到输出out+j；（8）取OUT和outj的交集outo，outo=OUT∩outj，取outm=OUT-outo，outn=outj-outo；（9）根据out+j、outj和OUT值的不同划分情景；（10）将OUT当作亟待抽取的字段的值进行输出。

全文数据：

权利要求：

百度查询：之江实验室一种基于大模型的科学文献字段抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于大模型的科学文献字段抽取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务