买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团有限公司电子科学研究院;北京邮电大学;中电科电科院科技集团有限公司
摘要:本申请公开了一种基于视觉信息融合的多模态摘要方法及系统,涉及数据处理、人工智能技术,包括:将提取的视觉特征与文本特征拼接,并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块;将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入,以获得结合视觉信息的文本特征;将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器;将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入,以获得解码器输出的文本特征;将解码器输出的文本特征经过线性层,将输出的向量输入到Softmax层,依据概率分布和词汇表,获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。
主权项:1.一种基于视觉信息融合的多模态摘要方法,其特征在于,包括:提取输入的文本-图像对中图像的视觉特征,以及,提取输入的文本-图像对中文本的文本特征;将提取的视觉特征与文本特征进行拼接,并将拼接的视觉-文本特征输入编码器的多头注意力模块和前馈网络模块;将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入,以获得结合视觉信息的文本特征;将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器,其中所述摘要文本特征基于在输入的文本-图像对中文本头部额外添加无实际内容的开始元数提取获得的;将提取的视觉特征以及所述解码器前馈网络模块的输出作为解码器模态融合层的输入,以获得解码器输出的文本特征;将解码器输出的文本特征经过线性层,以转换为指定维度的向量,并将输出的向量输入到Softmax层,以转换为概率分布。
全文数据:
权利要求:
百度查询: 中国电子科技集团有限公司电子科学研究院 北京邮电大学 中电科电科院科技集团有限公司 一种基于视觉信息融合的多模态摘要方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。