首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态低维特征表示空间的多媒体事件提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北民族大学

摘要:本发明公开了一种基于多模态低维特征表示空间的多媒体事件提取方法,首先构建多模态低维特征表示空间,将文本与图像特征表示为统一维度,利用对比学习技术将匹配的文本与图像映射到多模态低维特征表示空间的相近区域,同时引入动量蒸馏方法;将文本描述的每个单词进行特征表示初始化,并通过多模态低维特征表示空间与匹配图像进行特征融合,之后根据融合特征提取文本事件;引入ViECap图像描述技术生成图像描述,获取图像、文本与事件类型、事件论元相似度,提取图像事件,进行事件论元框定。本发明基于多模态低维特征表示空间进行多媒体事件的提取,削弱了模型构建过程中数据集噪音对模型提取性能的影响,提高模型进行多媒体事件提取的性能。

主权项:1.一种基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,包括以下步骤:S1、构建多模态低维特征表示空间利用VOA图像标题对数据集构建多模态低维特征表示空间;在训练多模态低维特征表示空间模型时,对于给定的图像标题对,分别针对图像集合与文本集合构建基于Transformer的编码器,同时构建两个用于存储最新的图像标题对的队列,根据图像与文本的编码器创建动量编码器,利用动量蒸馏方法从动量蒸馏模型所产生的伪目标中学习图像与文本的匹配,利用动量编码器计算图像与文本的相似性;从而将匹配的文本与图像映射到多模态低维特征表示空间的相近区域;通过多模态低维特征表示空间对测试数据的文本与图像映射为统一维度的多模态低维特征,实现不同模态特征的融合以及便于计算文本与图像间的相似度;S2、文本事件提取将ACE2005文本事件数据集作为文本事件提取模型的训练数据;从VOA图像标题对数据集中筛选出与ACE2005文本事件数据集中每个文本描述最为匹配的五个图像作为文本事件的额外图像信息;将文本描述的每个单词通过DeBERTaV3进行特征表示初始化,获得每个单词的向量表示;将所述额外图像信息涉及的图像通过多模态低维特征表示空间编码成图像低维向量表示,将图像低维向量表示按照相似性权重进行加权融合获得图像信息集成的图像表示,之后将每个单词的向量表示与图像信息集成的图像表示以及句子的低维向量表示进行拼接,获得融入图像信息的单词表示,完成文本事件提取;S3、图像事件提取通过ViECap图像描述技术生成图像相关的文本描述,即图像描述,将图像事件、相关文本事件以及生成的图像描述经多模态低维特征表示空间编码后,利用余弦相似度计算图像事件、相关文本事件以及图像描述与预先定义好的视觉事件类型、视觉事件论元的相似度得分,通过加权融合获得相似度得分最高的视觉事件类型与视觉事件论元;获取事件论元后针对图像进行前向传递、基于梯度的注意力整合以及相关性图计算,从而对图像中相关的事件论元进行图像框定。

全文数据:

权利要求:

百度查询: 西北民族大学 一种基于多模态低维特征表示空间的多媒体事件提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。