买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:青岛网信信息科技有限公司
摘要:本发明提供了一种根据提问者理解能力的机器人回答方法、介质及系统,属于人工智能技术领域,该根据提问者理解能力的机器人回答方法包括以下步骤:收集用户提出问题的文本,并提取专业术语,得到专业术语集、以及专业句集;提取类专业术语,得到类专业术语集、以及类专业句集;对专业句集、类专业句集分析语气,判断用户是否提问,且将专业句集、所述类专业句集进行二元划分后,计算用户文本对专业术语的应用指数;根据应用指数,筛选对应的知识数据集,以及对提问者的理解能力进行分级,并将对应级别与新问题合并作为prompt,得到回答文本;本发明能够根据提问者理解能力输出提问者理解的回答。
主权项:1.一种根据提问者理解能力的机器人回答方法,其特征在于,包括以下步骤:S10、获取提问者与机器人的历史互动记录,收集用户提出的文本记录,记作用户文本;S20、对所述用户文本基于预先设定好的知识库进行专业术语提取,得到专业术语集、以及专业术语所在语句集,记为专业句集;S30、采用大语言模型根据预先设定好的知识库进行类专业术语提取,得到类专业术语集、以及类专业术语所在语句集,记为类专业句集;S40、根据历史互动记录,对所述专业句集、所述类专业句集进行语气分析,判断用户是否提问,且将所述专业句集、所述类专业句集划分为已知专业句集、未知专业句集、已知类专业句集、未知类专业句集;S50、根据所述专业术语集、所述类专业术语集、所述已知专业句集、所述未知专业句集、所述已知类专业句集、所述未知类专业句集,计算用户文本对专业术语的应用指数;S60、根据计算得到的专业术语的应用指数,在所述知识库中筛选对应理解能力级别的知识数据集,作为机器人回答提问者的知识库参考;S70、根据计算得到的专业术语应用指数,对提问者的理解能力进行分级,并将对应的理解能力级别与提问者的新提问合并作为prompt,输入大语言模型,得到的输出作为机器人的回答文本;其中,用户文本词数表示为N;专业术语集合为T,术语数量为|T|,则专业术语密度为: 专业句子集合为S,句子数量为|S|;专业句覆盖率为: 未知专业句子集合Qunknown,该集合句子数量为Nunknown;则未知句占比为: 专业术语应用指数I的计算公式为:I=w1d+w2r-w3p;其中w1,w2,w3为加权系数;其中,所述步骤S10具体包括:设置互动记录的收集范围;从数据库中提取该用户的互动记录文本,记录以UTF-8格式存储;对文本记录进行清洗预处理;构建用户提问记录语料库;构建机器人回答记录语料库;其中,所述步骤S20具体包括:建立人工标注的专业术语知识库;利用N元语法模型提取候选专业术语;在知识库中查找验证专业术语;判断每个专业术语在文本中的上下文句子;构成专业术语及上下文句子集合;其中,所述步骤S30具体包括:训练识别类专业术语的文本分类模型;使用文本分类模型对用户文本进行类专业术语识别;判断识别出的类专业术语所在句子;计算句子与类专业术语向量的相似度;剔除相似度较低句子;其中,所述步骤S40具体包括:构建表达不同语气的语气词库;利用语气词库判断问句;在专业句集和类专业句集中识别问句;统计术语对应的问句数量,划分已知与未知集合,已知集合为用户陈述句占比大于阈值的集合,所述未知集合为用户疑问句占比大于阈值的集合;经语气词库与统计分析,判断语气词在句子中的占比;其中,训练识别类专业术语的文本分类模型,具体是:基于BERT预训练语言模型,训练识别类专业术语的文本分类模型,构建包含真实专业术语和非专业术语的训练数据集,带标注类别,利用迁移学习的技术进行模型训练;使用训练得到的文本分类模型对用户文本进行类专业术语识别,模型对每个词语和短语进行判断,判定为类专业术语或非类专业术语,得到一组类专业术语的集合。
全文数据:
权利要求:
百度查询: 青岛网信信息科技有限公司 一种根据提问者理解能力的机器人回答方法、介质及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。