买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东交通学院
摘要:本发明公开了检索式多轮对话方法和系统,属于自然语言处理、人工智能领域,本发明要解决的技术问题为如何通过语境信息来强化对话序列交互过程以及如何实现多个对话序列之间的直接交互,实现使用自然语言处理技术为用户在已有的问答结果中选择匹配的答案并将其推荐给用户,采用的技术方案为:该方法具体如下:获取检索式多轮对话数据集:从网络上下载已经公开的检索式多轮对话数据集;构建检索式多轮对话模型:基于AdditiveTriple‑Attention机制构建检索式多轮对话模型;训练检索式多轮对话模型:在检索式多轮对话训练数据集上对检索式多轮对话模型进行训练。
主权项:1.一种检索式多轮对话方法,其特征在于,该方法具体如下:获取检索式多轮对话数据集:从网络上下载已经公开的检索式多轮对话数据集;构建检索式多轮对话模型:基于AdditiveTriple-Attention机制构建检索式多轮对话模型;训练检索式多轮对话模型:在检索式多轮对话训练数据集上对检索式多轮对话模型进行训练;其中,AdditiveTriple-Attention机制是基于AdditiveAttention算法实现的一种注意力机制,具体实现流程如下:1、计算输入张量query、key和context之间的相关性得分,具体如下:①、对三个输入张量query、key和context进行加性运算,实现query、key和context三者之间的交互计算,公式如下: 其中,query表示多轮对话中的问句信息;key表示多轮对话中的响应信息;context表示多轮对话中的语境信息;和分别表示输入张量query、key和context;i、和j表示输入张量和的元素下标,i=1,2,…,Ikl;j=1,2,…,Jcl;Ikl和Jcl分别表示输入张量和中的元素数量,和表示待训练参数;②、通过归一化操作得到query、key和context三者的相关性得分,并记为α,公式如下: 其中,i=1,2,…,Ikl;i'=1,2,…,Ikl;j=1,2,…,Jcl;j'=1,2,…,Jcl;2、特征聚合:通过逐元素相加的方式对输入张量value和context进行聚合操作,公式如下: 其中,value表示多轮对话中的响应信息,其与输入张量key是相同的;与分别表示输入张量value和context;i和j表示输入张量和的元素下标,i=1,2,…,Ivl;j=1,2,…,Jcl;Ivl和Jcl分别表示输入张量和的元素数量;3、点积操作:将步骤1得到的相关性得分与步骤2得到的特征聚合表示进行点积操作,从而得到语境强化后的注意力嵌入表示,公式如下: 其中,i和j表示α和v'的元素下标;I和J表示输入张量α和v'中两个维度的长度;AdditiveTriple-Attention是一种可堆叠的结构,根据具体的任务动态调整层数,记为depth表示针对具体任务设置的具体层数;对应三个输入张量query、key和context;输入张量value与key相同;构建检索式多轮对话模型具体如下:输入数据:针对数据集中的每一条数据,若历史对话包含n个句子,则联接S1-Sn-1,句子与句子中间用间隔符“SEP”隔开,作为语境,形式化为context;Sn作为问句,形式化为query;在多个响应中选择一个响应作为当前响应,形式化为response;根据该条响应是否为正确响应,确定该条数据的标签,即若该条响应是正确响应,则记为1;否则,则记为0;context、query及response三个文本序列与标签,共同组成一条输入数据;预训练嵌入表示:利用预训练语言模型对构建的输入数据进行嵌入编码操作,得到输入数据中的语境、问句和响应的嵌入表示,分别记为和语境序列、问句序列及响应序列三个文本序列中的语境序列单独使用一个编码模块,问句序列及响应序列共用一个编码模块;根据不同的输入对象,选择不同层数的输出作为其嵌入表示,公式如下: 其中,表示使用预训练语言模型BERT对输入的语境序列context进行嵌入编码;下标n表示使用的BERT内部的网络层数;表示语境的嵌入表示; 其中,表示使用预训练语言模型BERT对输入的问句序列query进行嵌入编码;下标t表示使用的BERT内部的网络层数;表示问句的嵌入表示; 其中,表示使用预训练语言模型BERT对输入的响应序列response进行嵌入编码;下标t表示使用的BERT内部的网络层数;表示响应的嵌入表示;特征过滤:使用自适应平均池化操作对语境序列、问句序列和响应序列的嵌入表示和进行特征过滤操作,得到特征表示,即语境池化特征表示、问句池化特征表示和响应池化特征表示,分别记为和AdditiveTriple-Attention交互:将语境池化特征表示、问句池化特征表示和响应池化特征表示作为输入;第一层交互结构基于语境池化特征表示对问句池化特征表示和响应池化特征表示分别进行交互,以得到第一层问句交互结果和第一层响应交互结果,并将其传递给第二层交互结构,同时使用一层全连接网络对语境池化特征表示进行映射,得到语境的第一层映射表示,并将其传递给第二层交互结构;第二层交互结构基于语境的第一层映射表示对第一层问句交互结果和第一层响应交互结果分别进行交互,以得到第二层问句交互结果和第二层响应交互结果,并将其传递给第三层交互结构,同时使用一层全连接网络对语境的第一层映射表示进行映射,得到语境的第二层映射表示,并将其传递给第三层交互结构;以此类推,多次反复交互以生成第depth层问句交互结果、第depth层响应交互结果和语境的第depth层映射结果;特征聚合:使用自适应平均池化操作对第depth层问句交互结果、第depth层响应交互结果和语境的第depth层映射表示进行特征过滤操作,并将过滤后的三个特征表示进行联接,从而得到最终的聚合特征表示,将其记为标签预测:基于最终的聚合特征表示判断当前响应是否为正确响应。
全文数据:
权利要求:
百度查询: 山东交通学院 检索式多轮对话方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。