恭喜宏龙科技(杭州)有限公司赵天成获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜宏龙科技(杭州)有限公司申请的专利一种跨模态视觉与文本信息匹配方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113836354B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111149947.5,技术领域涉及:G06F16/783;该发明授权一种跨模态视觉与文本信息匹配方法和装置是由赵天成设计研发完成,并于2021-09-29向国家知识产权局提交的专利申请。
本一种跨模态视觉与文本信息匹配方法和装置在说明书摘要公布了:本发明公开了一种跨模态视觉与文本信息匹配方法和装置,其方法包括以下步骤:通过成熟的目标识别系统检测出图片中重要物体场景的区块,区块总数量为X;将这些区块的视觉向量信息输入到视觉编码器中,从而构建这些区块之间的关系和综合信息,获得包含上下文的视觉向量信息hx,x∈X;对于长度为Y文本信息,采用已经预训练的文本编码器模型进行编码,获得每个单词的上下文嵌入向量hy,y∈Y;对于所有的hx和hy对进行匹配计算,得到X×Y个分数;对于x轴和y轴分别取出每一列和每一行的最大分数,并对分数进行非线性变换;计算最终得分s即为匹配度,最终得分s为所有g’的平均数。
本发明授权一种跨模态视觉与文本信息匹配方法和装置在权利要求书中公布了:1.一种跨模态视觉与文本信息匹配方法,其特征在于,包括以下步骤:S1、通过目标识别系统检测出图片中重要物体场景的区块,区块总数量为X;S2、将这些区块的视觉向量信息输入到TRANSFORMER模型中,构建这些区块之间的关系和综合信息,获得包含上下文的视觉向量信息hx,x∈X;S3、对于长度为Y文本信息,采用文本TRANSFORMER编码器模型进行编码,获得每个单词的上下文嵌入向量hy,y∈Y;S4、用dotproduct对于所有的hx和hy进行匹配计算,得到X×Y个分数,这些分数构成X×Y的矩阵;S5、对于矩阵的x轴和y轴分别取出每一列和每一行的最大分数,一共获得X+Y个分数,这些分数表示为g,通过g’=logReLUg对被取出的分数进行非线性变换;S6、计算最终得分s即为匹配度,最终得分s为所有g’的平均数;跨模态视觉与文本信息匹配方法还包括训练过程,训练过程如下:训练数据的采集:首先采集配对的图片和文字信息;损失函数和训练:在给定上述模型和数据后,使用mini-batch的方式进行训练,训练损失函数为交叉熵损失函数,人工标注的文字作为正确答案,而同一个mini-batch中其他的文字信息作为错误答案,交叉熵损失函数为: 式中,A是一个mini-batch中文本的数量,g是计算得到的分数,e是自然常数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人宏龙科技(杭州)有限公司,其通讯地址为:310000 浙江省杭州市滨江区浦沿街道浦沿路88号1幢3楼31191室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。