恭喜电子科技大学朱家辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜电子科技大学申请的专利车辆密集场景中的图像-文本跨模态车辆检索模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118968516B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410942443.6,技术领域涉及:G06V20/70;该发明授权车辆密集场景中的图像-文本跨模态车辆检索模型训练方法是由朱家辉;牛新征;文帅;张煦;易志军;张杨;周亦恺;邹翔宇设计研发完成,并于2024-07-15向国家知识产权局提交的专利申请。
本车辆密集场景中的图像-文本跨模态车辆检索模型训练方法在说明书摘要公布了:本发明涉及计算机技术领域,提供了一种车辆密集场景中的图像‑文本跨模态车辆检索模型训练方法。该方法解决现有技术中车辆检索模型无法准确理解图像主要内容的问题,提高检索准确率。方案包括获取训练样本集,对图像样本和文本样本进行特征提取,得到视觉‑文本联合嵌入;计算图像样本的语义特征;基于余弦相似度计算图像样本和文本样本间的特征相似度,得到全局和局部特征相似度,通过可学习网络整合全局和局部特征相似度,得到最终的模态间相似度;计算交通场景的图像样本间的语义相似度;根据损失函数更新的权重,所述损失函数包含三元组损失和图像语义损失。本发明用于车辆密集场景中的图像‑文本跨模态车辆检索。
本发明授权车辆密集场景中的图像-文本跨模态车辆检索模型训练方法在权利要求书中公布了:1.一种车辆密集场景中的图像-文本跨模态车辆检索模型训练方法,其特征在于,包括:S1:获取训练样本集,所述训练样本集包含多个交通流监控视频中车辆密集的帧图像数据和其对应的描述文本,即图像样本和文本样本,分别对图像样本和文本样本的进行特征提取,并得到视觉-文本联合嵌入;S2:对图像样本对应的描述文本进行TFIDF向量计算,得到图像样本的语义特征;S3:基于余弦相似度计算图像样本和文本样本间的特征相似度,得到全局和局部特征相似度,通过可学习网络整合全局和局部特征相似度,得到最终的模态间相似度;S3中图像样本和文本样本间的特征相似度计算方法详细描述如下:S31:基于余弦相似度来计算图文间的特征相似度,公式如下: 其中,和分别是图像样本和文本样本的特征向量;所述的图文间的特征相似度分为两部分,分别是全局特征相似度和局部特征相似度,具体策略如下:S311:所述的全局特征相似度由全局图像特征和全局文本特征计算得来,反映宏观上模态间的特征相似度,记为,其中和由S11和S12计算得到;S312:所述的局部特征相似度由局部图像特征和局部文本特征计算得来,反映了图像区域和词语之间的特征相似度,记为,其中,是由S13计算得到的,其中的含义是第n个图像的局部图像特征向量、的含义是第n个图像的局部文本特征向量;S32:基于全连接层搭建一个可学习的网络,将S31中得到的全局和局部特征相似度整合为最终的模态间相似度,得到模态间特征相似度向量,公式如下: 其中,是一个可学习的权重向量,是sigmoid函数,是由S31得到的相似度,是批量归一化函数,通过计算得到归一化权重,然后再次计算得到模态间特征相似度向量;S4:计算交通场景的图像样本间的语义相似度;S5:根据损失函数更新的权重,所述损失函数包含三元组损失和图像语义损失;S5中损失函数具体描述如下:S51:根据损失函数的数值来更新网络中的权重,所述的损失函数包含两部分,分别是三元组损失和图像语义损失,所述的三元组损失是用于衡量模态间相似度与实际值之间的差异,公式如下: 其中是边界参数,其中是图像正样本集,是描述文本正样本集,是图像负样本集,是描述文本负样本集,其中是将图像集和文本集中的样本图像特征向量和文本特征向量通过s3中的计算方法,从而得到的模态间相似度矩阵,,其中s1,s2,,sn都是由S32中的模态间相似度方程计算而来,s1表示图像正样本集中第一个图像及其对应的描述文本正样本之间的模态间相似度特征向量;S52:所述的图像语义损失用于衡量特征相似度矩阵与图像语义相似度矩阵之间的差异,具体策略如下:S521:基于sigmoid函数将相似度数值矩阵转化为相似度排序矩阵,即将特征相似度矩阵S和语义相似度矩阵C进行排序,得到相似度排序矩阵,sigmoid函数增加了温度参数使得出的排序值更贴近真实排序值,同时能保证梯度的有效性,公式如下: 其中,是待排序的相似度数值矩阵,,其中代表相似数值矩阵的第i行、第j列元素,是训练过程中的批大小,是增加了温度参数的sigmoid函数,经过排序后的特征相似度矩阵和语义相似度矩阵分别为和;S522:图像语义损失的输入数据为和,公式如下: 其中,是训练过程中的批大小,和是由S521得出的排序矩阵和对应位置的值;S53:所述的损失函数最终由两个损失函数共同组成,公式如下: 其中,和用于平衡两个损失,和。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。