一种基于视觉信息融合的多模态摘要方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国电子科技集团有限公司电子科学研究院;北京邮电大学;中电科电科院科技集团有限公司

摘要：本申请公开了一种基于视觉信息融合的多模态摘要方法及系统，涉及数据处理、人工智能技术，包括：将提取的视觉特征与文本特征拼接，并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块；将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入，以获得结合视觉信息的文本特征；将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器；将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入，以获得解码器输出的文本特征；将解码器输出的文本特征经过线性层，将输出的向量输入到Softmax层，依据概率分布和词汇表，获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。

主权项：1.一种基于视觉信息融合的多模态摘要方法，其特征在于，包括：提取输入的文本-图像对中图像的视觉特征，以及，提取输入的文本-图像对中文本的文本特征；将提取的视觉特征与文本特征进行拼接，并将拼接的视觉-文本特征输入编码器的多头注意力模块和前馈网络模块；将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入，以获得结合视觉信息的文本特征；将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器，其中所述摘要文本特征基于在输入的文本-图像对中文本头部额外添加无实际内容的开始元数提取获得的；将提取的视觉特征以及所述解码器前馈网络模块的输出作为解码器模态融合层的输入，以获得解码器输出的文本特征；将解码器输出的文本特征经过线性层，以转换为指定维度的向量，并将输出的向量输入到Softmax层，以转换为概率分布。

全文数据：

权利要求：

百度查询：中国电子科技集团有限公司电子科学研究院北京邮电大学中电科电科院科技集团有限公司一种基于视觉信息融合的多模态摘要方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种光伏构件

下一篇：基于海洋渔业价值链的海产品汞金属总量核算方法和装置

相关技术

一种光伏构件

基于海洋渔业价值链的海产品汞金属总量核算方法和装置

基于大模型的交互方法、装置、终端设备和存储介质

设备健康预测方法和计算机可读存储介质

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种无施工平台的远岸成品钢管桩的测量方法

用于修复叶片根部的方法

用于确定泡沫生产的参数的系统和方法

一种汽车减震器的衬套装配装置

热回收系统的控制方法、控制装置及计算机可读存储介质

云计算架构多租户任务资源分配调度方法及装置

一种基于数字密钥的电子公文管理系统及方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于视觉信息融合的多模态摘要方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务