买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:科讯嘉联信息技术有限公司
摘要:本发明涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;对改写后的问题语句进行多维度语义特征标签抽取,并转化为查询语句,召回候选问答对;对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;本发明提供的技术方案能够克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。
主权项:1.基于Pipeline处理和ES储存问答系统构建方法,其特征在于:包括以下步骤:S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征;所述核心实体特征的构建方法包括:对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体;所述关键词特征的构建方法包括:人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
全文数据:
权利要求:
百度查询: 科讯嘉联信息技术有限公司 基于Pipeline处理和ES储存问答系统构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。