买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学;哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);浙江大华技术股份有限公司;山东师范大学
摘要:本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
主权项:1.一种基于视觉文本联合建模的共指消解方法,其特征在于,包括以下过程:获取输入文本和参考视频,利用文本编码器将输入文本转换为文本嵌入向量,利用视频编码器将参考视频转换为视频嵌入向量;根据文本嵌入向量构建文本语义树,根据视频嵌入向量构建视频语义树,在文本语义树和视频语义树中通过图卷积操作,基于节点间的距离分别进行特征融合增强,得到文本增强特征和视频增强特征;基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果。
全文数据:
权利要求:
百度查询: 山东大学 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 浙江大华技术股份有限公司 山东师范大学 基于视觉文本联合建模的共指消解、词义消歧方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。