买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:暗物质(北京)智能科技有限公司
摘要:本发明公开了一种基于场景图子图的图像描述生成方法和系统,该方法包括:采用训练好的子图生成模块获取原始图像的多个场景图子图以及对应的子图特征;该子图生成模块采用PSG算法生成场景图和采用图卷积网络提取子图特征;采用CLIP视觉编码器获得原始图像的全局特征;将每个场景图子图特征分别和全局特征进行融合;将融合后的特征进行模态对齐处理;将经过模态对齐处理后的特征输入预训练好的图像描述生成模型,输出原始图像对应的图像描述。该方法可实现将整个图像划分为很多子区域,每个区域对应一句完整的语义描述,生成的描述更具多样性。还可以实现对背景、边缘区域,非显著目标生成描述。另外,所生成的图像描述具有可控性、可定位区域位置。
主权项:1.一种基于场景图子图的图像描述生成方法,其特征在于,包括以下步骤:获取输入的原始图像;采用训练好的子图生成模块获取所述原始图像的多个场景图子图以及对应的场景图子图特征;其中,所述子图生成模块采用PSG算法生成场景图子图,并采用图卷积网络提取对应的场景图子图特征;采用CLIP视觉编码器获得所述原始图像的全局特征;将每个所述场景图子图特征分别和全局特征进行融合;将融合后的特征进行模态对齐处理;将经过模态对齐处理后的特征输入预训练好的图像描述生成模型,输出所述原始图像对应的图像描述;其中,采用训练好的子图生成模块获取所述原始图像的多个场景图子图以及对应的场景图子图特征,包括:采用PSG算法获得所述原始图像的场景图、对应的实例分割图和实例之间的关系;根据所述实例分割图、场景图中任意两个目标之间的关系,通过图卷积网络,输出图嵌入;将所述场景图拆分为多个独立的子图,去除重复的子图;将所述图嵌入和对应的子图,输入子图判别模块,输出合适的场景图子图;根据输出合适的场景图子图,从图嵌入获得对应的场景图子图特征。
全文数据:
权利要求:
百度查询: 暗物质(北京)智能科技有限公司 一种基于场景图子图的图像描述生成方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。