首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于关键词引导和GATv2-LSTM网络的场景图问答方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉科技大学

摘要:本发明公开了一种基于关键词引导和GATv2‑LSTM网络的场景图问答方法,步骤包括:对文本和场景图预处理,将文本形式的问题换为词向量序列,删除图中与问题无关的节点并编码生成新的场景图表示。将问题的词向量序列利用Transformer进行编码,提取问题关键词,利用关键词引导GATv2学习场景图特征,并利用LSTM网络对图特征进行归纳、推理,最后将问题特征与场景图特征相融合,输入到分类器获取最终答案。本方法使用场景图和关键词引导,并利用LSTM进行归纳、推理,能够有效缩小模态间差距、避免模型直接学习图像与文本间的映射,提高问答的准确率。

主权项:1.一种基于关键词引导和GATv2-LSTM网络的场景图问答方法,其特征在于包括以下步骤:步骤1对文本问题和场景图进行预处理,主要包含将问题分割成字符序列,去除标点符号并转换为词向量序列,场景图去除与问题无关的节点并编码等,包括以下步骤:步骤1.1利用输入层将文本形式的问题数据输入到模型中,输入的文本数据为:E={E1,E2,...,En}其中Ei表示该问题中的第i个单词或标点符号;步骤1.2去除标点符号,获得单词序列,然后利用GloVe将单词转换为300维的向量表示w:w={w1,w2,...,wn}其中wi表示问题文本中的第i个单词向量;步骤1.3利用spaCy给文本问题打上POS标签,基于该标签提取出文本中出现的名词,计算名词与场景图中各节点的余弦相似度,根据余弦相似度过滤掉场景图中不重要节点,保留最相似的部分节点及其邻域节点;步骤1.4基于上述场景图中剩余的节点,对场景图进行编码,具体操作为:利用场景图节点属性和原始场景图节点编码生成新的节点,利用边缘属性编码形成新的节点边缘,从而用新的节点表示场景图中对象,利用边缘表示对象间关系,编码方式如下: 其中表示原始节点信息,eij表示原始边缘信息,xi表示编码生成的新的节点表示;步骤2对文本问题进行编码并提取关键词,包括以下步骤:步骤2.1利用TransformerEncoder模块编码文本问题,编码后的问题充分考虑了问题中各个词汇的位置信息和每个单词对整个文本问题的贡献,可以更好地表征问题,减少语义歧义,编码方式如下:q=TransformerEncoderw其中w表示向量形式的问题表示,q表示编码后的问题;步骤2.2利用自注意力机制获取问题中各个词汇的自注意力得分qscore,基于自注意力得分,提取对回答问题最重要的n个关键词;qscore=selfattentionw其中w表示向量形式的问题表示,qscore表示问题中各单词注意力得分;步骤3利用步骤2.2中得到问题关键词作为指令引导GATv2图神经网络学习步骤1.4中编码得到的新的场景图,并利用LSTM归纳总结特征,主要包含以下步骤:步骤3.1首先将问题关键词利用GloVe转换为300维的指令向量,然后将指令向量与编码生成的场景图边缘表示和节点表示进行拼接,实现方式如下: 其中instructioni表示第i个关键词生成的指令向量,Xi和Ei表示新的节点和边缘信息,concat表示拼接操作;步骤3.2将拼接后的新的节点表示和边缘表示输入到多个GATv2网络中,学习场景图特征,并将多个关键词引导学习到的图特征拼接成一个序列;GATv2的计算公式如下: 其中eij表示注意力系数,αij表示节点i和节点j之间的注意力得分,表示基于注意力得分计算得出的新的节点表示; 其中h表示最终输出的场景图信息,hi表示经由第i个指令向量引导GATv2网络学习到的场景图特征;步骤3.3由于不同关键词之间包含时序关系,因而引导产生的图特征也包含时序关系,基于步骤3.2的图特征序列h,利用LSTM网络学习这种时序关系。LSTM网络的输入为h={h1,h2,...,hn},输出信息为{H1,H2,...,Hn},其中Hn为最后时刻隐藏层的特征向量,即LSTM输出的图特征hout;步骤4将步骤2中得到问题表示与步骤3学习得到的图特征进行融合获取最终答案,主要包含以下步骤;步骤4.1首先对步骤3.3输出的图特征hout进行池化操作,从而减少参数并扩大感知视野,然后将图像特征和步骤2.1中得到问题表示进行逐元素乘积,从而融合两种特征;步骤4.2利用两层的MLP网络对融合后的特征进行处理,最后输入分类器获取最终答案,具体操作如下: 其中FC1和FC2为全连接层,表示层数为两层的MLP,⊙表示逐元素点乘,fout表示最终融合后的特征表示,yout表示最终输出的答案。

全文数据:

权利要求:

百度查询: 武汉科技大学 一种基于关键词引导和GATv2-LSTM网络的场景图问答方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。