买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请涉及智能问答技术领域,公开了一种基于LLM的数字校园智能问答服务方法和系统,对校园数据进行预处理,预处理完成后,基于预处理得到的文本数据进行分割,将其分割为多个文本块,构建Embedding模型,将第一文本向量数据输入至Embedding模型中进行向量化,得到第二文本向量数据,能够降低第二文本向量的维度,当用户需要进行查询时,可获取第一输入问题对应的嵌入向量,基于相似性计算从第二文本向量数据中匹配到与嵌入向量最相似的多个匹配答案,再将第一输入问题与多个匹配答案作为上下文输入至LLM模型中,以输出回答文本信息,本申请拥有更好的问题理解和答案生成能力,可有效提高校园生活知识问答系统的准确率和智能化水平。
主权项:1.一种基于LLM的数字校园智能问答服务方法,其特征在于,包括:获取校园数据,并对校园数据进行预处理,得到文本数据;根据预设条件将文本数据分割为多个文本块,并对多个所述文本块进行向量化,得到第一文本向量数据;构建Embedding模型,并获取训练数据以对Embedding模型进行训练;将第一文本向量数据输入Embedding模型中进行向量化,得到第二文本向量数据;获取第一输入问题,并将第一输入问题输入至Embedding模型中,以生成与所述第一输入问题对应的嵌入向量;根据所述嵌入向量对第二文本向量数据进行相似度匹配搜索,得到多个匹配答案;将第一输入问题与多个匹配答案作为上下文输入至LLM模型,输出回答文本信息;判断在预设时间内是否接收到根据回答文本信息返回的反馈信息;若接收到根据回答文本信息返回的反馈信息,获取至少一个与所述第一输入问题相关联的第二输入问题,并将第二输入问题作为第一输入问题返回至所述并将第一输入问题输入至Embedding模型中的步骤;所述获取校园数据,并对校园数据进行预处理,得到文本数据的步骤,包括:获取校园数据,其中,所述校园数据包括多个数据类型以及每个数据类型对应的数据内容;判断多个数据类型以及多个数据类型对应的数据内容是否符合预设安全条件;若多个数据类型以及多个数据类型中有任意一个数据类型和或数据类型所对应的数据内容不符合预设安全条件,则将该数据类型和或数据类型所对应的数据内容定义为隐私数据;对所述隐私数据进行文本提取,得到多个隐私特征词;将每个隐私特征词作为节点构建隐私特征图谱,其中,隐私特征图谱中相邻节点之间采用连接线进行连接,且若存在相同隐私特征词,则将相同隐私特征词所对应的节点记为一个;获取每个节点所对应的脱敏预测损失值以及每个节点与相邻节点连接的关联权重值;根据所述隐私特征图谱计算每个节点的隐私度值,其中,计算公式为: 其中,所述Ri表示第i个节点的隐私度值,A表示所有指向Ri节点的集合,xi,j表示第i个节点与第j个节点连接的关联权重值,xi,k表示第i个节点与第k个节点连接的关联权重值,B表示由节点Ri连接出去的节点的集合,Si表示第i个节点在隐私特征图谱中的排序值,Li表示第i个节点所对应的脱敏预测损失值;从多个节点的隐私度值中提取最大值作为隐私特征图谱的特征值,并将特征值与对应的隐私特征词进行映射,得到映射关键信息;对所述映射关键信息进行对称加密,得到加密数据;将加密数据增加至对应的隐私数据,并对增加了加密数据的隐私数据进行脱敏处理,得到文本数据。
全文数据:
权利要求:
百度查询: 内蒙古工业大学 基于LLM的数字校园智能问答服务方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。