买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:行至智能(北京)技术有限公司
摘要:本发明提供一种基于向量匹配的语言模型回答溯源方法及系统,涉及自然语言处理技术领域,包括:基于用户资料向大型语言模型进行提问,获取回答内容;将大型语言模型的回答内容进行文本切分,对切分后的各回答文本片段分别进行向量化,获得向量化的各回答文本片段;将用户资料进行向量化,获取向量化的用户资料;将向量化的各回答文本片段分别与向量化的用户资料进行相似度计算,获取相似度评分;预设相似度阈值,若向量化的回答文本片段与向量化的用户资料的相似度评分大于相似度阈值,则判定该回答文本片段与用户资料相关;提取该回答文本片段在用户资料中对应的内容,作为来源信息。本发明提高了判断回答准确性的便利性和可靠性。
主权项:1.一种基于向量匹配的语言模型回答溯源方法,其特征在于,包括:基于用户资料向大型语言模型进行提问,获取回答内容;将所述大型语言模型的回答内容进行文本切分,对切分后的各回答文本片段分别进行向量化,获得向量化的各回答文本片段;其中,对切分后的各回答文本片段分别进行向量化,包括:所述回答文本片段X中包含N个词汇,每个词汇表示为xi,i表示位置索引,范围从1到N;采用嵌入矩阵E将每个词汇xi转换为对应的词嵌入向量ei,表示为:ei=Exi为每个词嵌入向量ei添加位置编码,捕获词嵌入向量ei在序列中的位置编码,当词嵌入向量有偶数个维度时,其位置编码公式为: 当词嵌入向量ei有奇数个维度时,其位置编码公式为: 式中,pos1表示词嵌入向量ei在回答文本片段X中的位置;j表示维度的索引,2j表示偶数个维度,2j+1表示奇数个维度;d表示词嵌入向量ei的维度;将词嵌入向量ei与所述位置编码相加,得到回答文本片段X中每个词汇在整个回答内容中的表示,公式为:x′i=ei+PEj使用transformer架构中的多头注意力机制完成所述回答文本片段X的向量化表示,公式为:MultiHeadQ,K,V=Concathead1,head2,…,headhWO其中,head1至headh分别表示第1个注意力头到第h个注意力头的计算,公式为: 式中,Q、K和V分别表示单词匹配的属性、单词本身的属性和单词包含的信息本身; 和分别表示每个注意力头的线性变换权重矩阵;WO表示输出线性变换的权重矩阵;Concat表示连接操作,将多个注意力头的计算结果连接在一起,得到回答文本片段X的向量化表示;将用户资料进行向量化,获取向量化的用户资料;将向量化的各回答文本片段分别与向量化的用户资料进行相似度计算,获取相似度评分;预设相似度阈值,若向量化的回答文本片段与向量化的用户资料的相似度评分大于所述相似度阈值,则判定该回答文本片段与所述用户资料相关;提取该回答文本片段在所述用户资料中对应的内容,作为来源信息。
全文数据:
权利要求:
百度查询: 行至智能(北京)技术有限公司 一种基于向量匹配的语言模型回答溯源方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。