Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度学习和主题模型的短文本相似度计算方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:辽宁大学

摘要:基于深度学习和主题模型的短文本相似度计算方法,属于文本相似度匹配技术领域,要解决的问题是如何通过深度学习网络和LDA主题模型准确实现短文本相似度计算。首先使用BERT对输入模型的多段文本分别进行分词及向量转换,然后将分词后的词向量分别输入到深度学习模型和LDA主题模型。在深度学习模型内部,先利用双向LSTM网络提取单词的上下文信息;再利用1D卷积神经网络将上下文信息与词嵌入信息进行信息融合;最后使用全局最大池化提取关键信息。在LDA主题模型内部,采用吉布斯抽样进行主题提取,提取每段文本的感情色彩。根据两个模型提取到的特征,通过混合型文本语义相似度计算方法计算获得两段文本之间的相似度。

主权项:1.基于深度学习和主题模型的短文本相似度计算方法,其特征在于,包含步骤如下:1对输入到系统的两个短文本,使用BERT分别进行分词及向量转换,并对分词结果和向量转化结果分别保存;2对向量转换转换后的词向量提取融合特征信息:首先采用双向的LSTM网络进行上下文信息提取,然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合,再使用全局最大池化提取关键信息,得到多维度、多特征的融合特征信息;提取词向量的融合特征信息的具体方法为:将词向量x输入到深度学习模型,使用哈希编码的方式得到l1层;l1=W1*x其中l1为词向量转化后的输出,W1为哈希映射矩阵,x为词向量输入;然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y,再通过全局最大池化优化特征值输出,计算过程如下:li=fWi*li-1+bi,i=2,…,N-1 其中表示第j次池化操作,最终输出的向量维度为M,li代表隐藏层节点,Wi是第li层的权重矩阵,bi为第li的偏置量,f为隐藏层和输出层的激活函数,使用的激活函数是tanh: 3对分词后的两段段文本提取情感特征:将其输入到LDA情感分析主题模型,采用吉布斯抽样提取文本的情感色彩,提取两段文本的情感特征;提取两段文本的情感特征的具体方法为:将BERT分词后的结果输入到模型中,计算每段文本的情感属性概率分布:Pw,z|α,β=pw|z,w*pz|α采用吉布斯抽样计算数据与主题之间的关系,w表示文本中的某一个单词,α和β是是预设的超参数,z表示主题的编号;根据贝叶斯公式和Dirichlet先验分布,计算Dirichlet分布期望: k表示主题数,θm,k表示数据m中主题k的分布,φk,t表示主题k中特征词t的词分布,nm,k表示数据m中主题k的特征词汇,nk,t表示特征词t在主题k的出现次数;通过吉布斯抽样得到概率分布: 表示数据主题k中不属于数据m的特征词个数,表示特征词没有分配给主题词k的次数;4对于步骤2中得到的融合特征进行相似度计算,对步骤3中得到的情感特征进行情感分类判定,将上述两者的结果进行混合型文本语义相似度计算,得到两段文本之间的文本语义相似度;对融合特征进行相似度计算,使用的公式为: 其中yQ表示第一个短文本经过深度学习网络后的输出结果,yD表示第二个句子经过经过深度学习网络后的输出结果。

全文数据:

权利要求:

百度查询: 辽宁大学 基于深度学习和主题模型的短文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。