Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜华东师范大学张敏获国家专利权

恭喜华东师范大学张敏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜华东师范大学申请的专利一种视觉-语言模型对齐限制的评估方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119249115B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411747937.5,技术领域涉及:G06F18/21;该发明授权一种视觉-语言模型对齐限制的评估方法是由张敏;江波;周爱民设计研发完成,并于2024-12-02向国家知识产权局提交的专利申请。

一种视觉-语言模型对齐限制的评估方法在说明书摘要公布了:本发明公开了一种视觉‑语言模型对齐限制的评估方法,包括:使用预训练模型CLIP的文本和图像编码器分别提取图像和文本特征嵌入;基于余弦相似度计算图像或文本之间的相似性,设置阈值筛选满足条件的数据;采用TT2I和II2T策略构建基准数据集;在Flickr30K和MSCOCO数据集上测试视觉‑语言模型性能,使用召回率R@K指标进行评估,分析模型在对齐限制基准与原始数据集上的性能差异;本发明即AlignVLM方法展示了在检测视觉‑语言模型对齐缺陷方面的卓越能力,并验证了不同模型和策略在复杂对齐任务中的表现。为开发更鲁棒的视觉‑语言模型提供了一种有效工具,提升模型泛化能力。

本发明授权一种视觉-语言模型对齐限制的评估方法在权利要求书中公布了:1.一种视觉-语言模型对齐限制的评估方法,其特征在于,所述方法包括以下步骤:步骤1:构建文本-文本到图像的对齐限制基准数据集即TT2I策略,具体包括:1.1:文本嵌入提取,使用预训练的CLIP文本编码器对输入的文本数据x进行嵌入提取,得到文本的表示向量:fx;1.2:通过相似度计算公式:其中dxv,xt表示文本xv与文本xt的相似度;表示xt的标准化特征;根据设定的相似度阈值,选择相似度大于阈值的文本对,构成文本过渡基准的数据集;1.3:对应于文本过渡基准数据集的文本对,选择与文本对关联的图像yv,yt,并采用公式来计算图像之间的相似度,dyv,yt表示图像yv与图像yt的相似度;表示yt的标准化特征;通过设定的相似度阈值筛选图像,保留相似度小于该阈值的图像对以及与其关联的文本对,形成文本-文本到图像的对齐限制基准数据集;所得到的数据集中的文本是相似的,但图像表征不相似;步骤2:构建图像-图像到文本的对齐限制基准数据集即II2T策略,具体包括:2.1:图像嵌入提取,使用预训练的CLIP图像编码器对输入的图像数据进行嵌入提取,得到图像的表示向量fy;2.2:使用相似度计算公式:来计算图像之间的相似度,选择相似度大于阈值的图像对,构成图像过渡基准的数据集;2.3:对应于图像过渡基准数据集中的图像对,选择与图像对关联的文本xv,xt,并采用公式来计算文本之间的相似度,保留相似度小于阈值的文本对以及与其关联的图像对,形成图像-图像到文本的对齐限制基准数据集;所得到的数据集中的图像是相似的,但文本不相似;步骤3:评估视觉-语言模型在所构建的两种对齐限制基准数据集上的性能,以召回率R@K作为评估指标,R@K定义为在前K个结果中正确检索到的图像或文本的比例;R@K越高则模型性能越好。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。