一种基于深度学习的FAQ检索式问答构建方法及系统

导航：龙图腾网> 最新专利技术> 一种基于深度学习的FAQ检索式问答构建方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东国粒教育技术有限公司

摘要：本发明提供的一种基于深度学习的FAQ检索式问答构建方法及系统，包括以下步骤：步骤S1，获取用户问题，并整理与所述用户问题相关的文档内容；步骤S2，构建训练集和测试集；步骤S3，在测试集和训练集的基础上，增强数据；步骤S4，模型建立及迭代优化；步骤S5，模型建立完之后，设置问答系统，用户任意问问题，系统会根据神经网络模型预测该问题属于哪一类，进而给出相应的答案；相比于传统方法，深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系，并能结合短语匹配中的结构信息和文本匹配的层次化特性，发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征，更精细地描述文本匹配问题。

主权项：1.一种基于深度学习的FAQ检索式问答构建方法，其特征在于，包括以下步骤：步骤S1，获取用户问题，并整理与所述用户问题相关的文档内容；步骤S2，构建训练集和测试集；步骤S3，在测试集和训练集的基础上，增强数据；步骤S4，模型建立及迭代优化；所述步骤S4中，模型的基本框架一般都是将待匹配的两个句子分别使用两个encoder来获取对应context信息，然后将二者的context信息进行匹配，得到匹配后的特征信息；或者模型的基本框架在匹配之后的特征后面加上一些其他的传统文本特征，将所有这些特征进行concat；模型的基本框架最后接上softmax层，做最终的分类；模型建立及迭代优化具体包括以下步骤：步骤S41，Embedding层：使用word2vec训练词向量；首先，基于Word2vec工具，分别将词向量转化为问题词向量和答案词向量，从而得到问答文本集合所对应的问题词向量矩阵Q＝q1，q2，…，qL和答案词向量A＝a1，a2，…，am，其中，L和m分别为问答文本集合中题和答案的数量，qi1≤i≤L为第i个问题所对应的列向量，aj1≤j≤m为第j个答案所对应的列向量；接着，把问题词向量矩阵Q和答案词向量A输入到LSTM网络中去训练学习词序序列的语义特征信息，为了便于并行矩阵的计算，输入的长度选定一个最大值，句子中的词语较少则用0补充，大于最大的词语长度的句子则会截掉，模型中所有权重W和偏置b随机初始化为U-0.05，+0.05均匀分布；在学习过程中，首先通过LSTM网络内部的遗忘门ft来决定LSTM网络从细胞单元状态中丢弃哪些信息，同时，t时刻的词语会读取t-1个隐藏层的输出ht-1和当前时刻输入词向量qt，以及输入一个在0到1之间的偏置bf，并传递给t-1时刻的细胞单元状态Ct-1，其计算方式为：ft＝σWf[qt，ht-1]+bf，其中σ为Sigmoid激励函数，Wf为遗忘门权重矩阵；其次，通过输入门it来决定什么值需要进行更新，其计算公式表示为：it＝σWi[qt，ht-1]+bi，其中σ为Sigmoid激励函数，Wi为输入门权重矩阵，bi为0到1之间的偏置；然后，根据Tanh非线性激活函数来创建候选值其计算公式表示为：其中Wc为候选权重矩阵，bc为0到1之间的偏置；在此基础上，更新t时刻的细胞单元内部状态Ct，其计算公式为：；最后，计算并获取输出门的向量为Ot，其计算公式为：Ot＝σWo[qt，ht-1]+bo，其中σ为Sigmoid激励函数，Wo为输出门权重矩阵，bo为0到1之间的偏置，以及LSTM网络隐藏层的输出值ht，其计算公式为：ht＝Ot*tanhCt；步骤S42，Encoder层：卷积具有局部特征提取的功能；用CNN来提取句子中n-gram的关键信息，考虑文本的上下文信息，将LSTM网络的输出结果作为输入到CNN网络中，去学习更深层次的句子n-gram局部特征信息；设定卷积窗口大小为k，相邻的词向量拼接矩阵为Z，卷积核数为c，那么卷积的过程如下：G＝fWZ+b，其中，f是ReLU激活函数，W和b为随机正态分布初始化U0，0.05的权重矩阵和偏置；经过卷积操作后，得到问题文本的深层词向量矩阵DQ和答案文本的深层词向量矩阵DA；步骤S43，匹配层：在得到两个句子的表示后，要针对两个句子的表示进行matching操作；获得的问题文本深层词向量矩阵DQ和答案文本深层词向量矩阵DA，计算问答文本对中每对词之间的一个匹配程度矩阵S，计算方式如下：Si，j＝TanhDQi⊙ADj其中Tanh为非线性激活函数，DQi表示问题文本中第i个词向量，DAj表示答案文本中第j个词向量，⊙为向量点乘，Si，j表示问题文本第i个词与答案文本第j个词之间的语义匹配分数；接着，对匹配程度矩阵S做行级的最大池化，并生成向量gq，其中第i个值表示问题文本第i个词对答案的重要性程度，同时，对匹配程度矩阵S做列级的最大池化，并生成向量ga，其中第j个值表示答案文本第j个词对问题的重要性程度；然后，分别对gq和ga选取最大的p个值，分别把这p个值对应的词语重新输入到LSTM网络中，并选取最后时刻的隐藏层输出，分别得到维度为h的语义特征向量Oq和Oa，从而根据Oq与Oa来计算向量间的空间距离值作为问题文本和答案文本匹配的程度；步骤S5，模型建立完之后，设置问答系统，用户任意问问题，系统会根据神经网络模型预测该问题属于哪一类，进而给出相应的答案。

全文数据：

权利要求：

百度查询：广东国粒教育技术有限公司一种基于深度学习的FAQ检索式问答构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种静载试验接桩循环护筒

下一篇：一种切菜器

相关技术

一种静载试验接桩循环护筒

一种切菜器

回环检测方法、装置、电子设备和存储介质

一种带有扭簧结构的碳带回收轴

一种焊接加热装置

一种便于安装的电力计量装置

一种适用于垂直起降无人机的可折叠起落架

一种移动医疗推车

核电厂工作许可证申请的经验反馈数据的智能推送方法

一种具有抹平结构的高分子胶涂胶设备

一种基于物联网的燃气罐阀门控制系统

一种拉杆切割打孔集成设备及加工工艺

式相关技术

嵌入式插座和嵌入式插头_赫斯曼汽车有限公司_202380019620.7

埋入磁铁式转子以及埋入磁铁式旋转电机_株式会社东芝_202280090365.0

让位式柜门锁_温州一卡锁具科技有限公司_201910334964.2

卷收式车衣_王政杰_202310228541.9

循环式孵化盒_宠有家供应链管理(山东)有限公司_202323658895.1

可穿戴式吸奶器_深圳市路特佳成供应链管理有限公司_202322410419.1

切换式压头_三航达机电科技(苏州)有限公司_202420154009.7

隐式划分_SAP欧洲公司_202010521710.4

多件式活塞_伍德沃德有限公司_202080048060.4

轨道式烘烤机_松扬电子材料(昆山)有限公司_202420193531.6

检索相关技术

信息的检索方法和装置_北京百度网讯科技有限公司_202110554353.6

电子元器件的替代检索方法及其系统_粤港澳大湾区(广东)国创中心_202311372018.X

零部件检索系统_本田技研工业株式会社_202410193928.X

一种基于跨模态检索的数字内容管理系统_珍岛信息技术(上海)股份有限公司_202410900303.2

一种基于多特征融合的图像检索方法_浙江理工大学_202111017516.3

一种大数据检索方法、装置以及可读存储介质_山东云海国创云计算装备产业创新中心有限公司_202410805707.3

基于向量检索的疾病诊断智能提示方法和装置、设备_同方知网数字出版技术股份有限公司_202410697980.9

一种考虑场景文本位置关系的图文检索方法_杭州电子科技大学_202410505385.0

检索的方法、装置、电子设备及可读存储介质_网易(杭州)网络有限公司_202410671141.X

一种通过混合检索方法增强RAG问答方法及系统_山东浪潮科学研究院有限公司_202411095083.7

问答相关技术

问答方法及装置、计算机可读存储介质_江苏徐工工程机械研究院有限公司_202410830964.2

表格问答方法、装置、电子设备及存储介质_科大讯飞股份有限公司_202410848521.6

智能问答实现方法、装置、设备及存储介质_山东云海国创云计算装备产业创新中心有限公司_202410437419.7

问答方法、电子设备及存储介质_宁德时代新能源科技股份有限公司_202411118605.0

基于知识库的问答方法、装置、设备、介质及程序产品_人保信息科技有限公司_202410749333.8

ClickHouse的问答问题解决方法及相关设备_中国建设银行股份有限公司_202410974264.0

语音问答方法及装置、计算机可读存储介质和电子设备_京东方科技集团股份有限公司_201910365034.3

用于文档视觉问答的系统、方法、存储介质及计算机产品_中国建设银行股份有限公司_202410632540.5

一种基于自然语言处理的智能问答系统及方法_启康保(北京)健康科技有限公司_202410882841.3

一种通过混合检索方法增强RAG问答方法及系统_山东浪潮科学研究院有限公司_202411095083.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习的FAQ检索式问答构建方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务