买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明实施例公开了一种面向大语言模型的文本切分方法、设备和介质,涉及智能学习技术领域。其中,方法包括:获取待切分的文本;根据文本类型,选择匹配的切分方法进行文本切分,使切分好的各文本块不超过大语言模型的输入容量限制;将各文本块存储至向量库中,用于为大语言模型执行特定学习任务提供参考。本实施例考虑了大语言模型对文本切分的影响,针对大语言模型的应用特点和需求提供了适配的文本切分方法。
主权项:1.一种面向大语言模型的文本切分方法,其特征在于,包括:获取待切分的文本;根据文本类型,选择匹配的切分方法进行文本切分,使切分好的各文本块不超过大语言模型的输入容量限制;将各文本块存储至向量库中,用于为大语言模型执行特定学习任务提供参考;当大语言模型执行特定学习任务时,从所述向量库中检索与所述学习任务相关性最强的第一文本块;将与所述学习任务相关性次强的第二文本块,以及所述第二文本块在原始文本中相邻的第三文本块按上下文顺序组合,计算组合文本块与所述学习任务的相关性;在所述组合文本块与所述学习任务的相关性大于所述第一文本块与所述学习任务的相关性的情况下,如果所述组合文本块满足所述输入容量限制,将所述组合文本块作为新的与所述学习任务相关性最强的第四文本块;否则,将所述第三文本块的摘要与所述第二文本块按上下文顺序组合,使新的组合文本块满足所述输入容量限制,并根据所述新的组合文本块重新确定与所述学习任务相关性最强的第四文本块,用于输入大语言模型作为执行所述学习任务的参考。
全文数据:
权利要求:
百度查询: 知学云(北京)科技股份有限公司 一种面向大语言模型的文本切分方法、设备和介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。