恭喜中国科学院成都文献情报中心杨帅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院成都文献情报中心申请的专利基于数据增强的多模态实体连接方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119128813B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411613963.9,技术领域涉及:G06F18/25;该发明授权基于数据增强的多模态实体连接方法是由杨帅;陆颖;洪怡敏;王艺蒙;王兴;卿立燕;史继强设计研发完成,并于2024-11-13向国家知识产权局提交的专利申请。
本基于数据增强的多模态实体连接方法在说明书摘要公布了:本发明公开了一种基于数据增强的多模态实体连接方法,涉及数据处理技术领域,包括:利用大语言模型对实体增强,通过设计指令对实体描述进行摘要处理,提取关键信息并优化;利用多模态大语言模型对语义信息增强,通过融合文本和视觉特征生成增强的信息描述,包括实体的名称、类型、功能及行为特征、物理或结构属性,以及从视觉信息中提取的空间结构、外观形态、颜色纹理等视觉特征;通过检索技术来扩展和优化候选实体集合,实现检索增强;使用大语言模型进行决策性选择,从检索增强得到的候选实体集合中选择最佳匹配项。本发明通过多层次的数据增强和精确的实体选择过程,显著提高了多模态实体链接的准确性和效率。
本发明授权基于数据增强的多模态实体连接方法在权利要求书中公布了:1.一种基于数据增强的多模态实体连接方法,其特征在于,包括以下步骤:步骤1、利用大语言模型对实体增强:通过大语言模型对实体描述进行摘要,设计指令明确指出摘要的目标,通过设计的指令对实体描述进行处理,提取关键信息同时生成摘要,并对摘要进行优化;步骤2、利用多模态大语言模型对语义信息增强:多模态大语言模型通过融合文本和视觉特征生成增强的信息描述,信息描述用于提炼和强调信息的关键方面,包括实体的名称、类型、功能及行为特征、物理或结构属性,以及从视觉信息中提取的空间结构、外观形态、颜色纹理的视觉特征,使用提示模板指导多模态大语言模型生成更准确和相关的信息描述,生成的增强信息描述用于在实体链接过程中,与候选实体进行匹配确定最佳链接;步骤3、检索增强:通过检索技术来扩展和优化候选实体集合,从而提高实体链接的准确性;所述步骤3具体包括以下步骤:步骤3.1、候选实体集合的初始化:利用字符串匹配算法对每个文本提及信息mtext_i进行处理,通过比较文本提及与知识库中实体的字符相似度,生成初始候选实体集合εinit,集合包含与文本提及具有字符重叠的实体;步骤3.2、使用预训练嵌入模型:采用在大规模文本语料上预训练的语言模型,将文本提及信息mtext_i和候选实体集合εinit中的每个实体映射到向量空间,得到文本提及的嵌入向量表示Vmention和候选实体的嵌入向量表示Ventity,向量用于捕获文本的语义特征;步骤3.3、检索和重排:计算增强后的提及描述msi的嵌入向量与候选实体集合εinit中每个实体的嵌入向量之间的余弦相似度,得到相似度分数,根据相似度分数对候选实体进行降序排序,获得排序后的候选实体集合εrank;步骤3.4、扩展候选实体集合:基于增强后的提及描述msi,在知识库中进行相似度检索,选取相似度分数超过预设阈值的实体,将这些在初始候选集合εinit之外的高相似度实体添加到候选集合中,得到扩展后的候选实体集合εexpand;步骤3.5、优化候选实体集合:对扩展后的候选实体集合εexpand应用实体消歧算法,通过分析实体间的语义关系和共现模式,剔除不相关的候选实体,得到最终优化后的候选实体集合ε',集合既包含了初始匹配的相关实体,也包含了经过语义扩展得到的候选实体,从而提高了实体链接的召回率和准确率;在步骤3中,检索增强的过程具体如下:εexpand=εinit∪fRetriverlεinit,msiεinit是步骤3.1中通过字符串匹配得到的初始候选实体集合,msi是步骤2.5中得到的增强后的提及描述,εexpand是检索扩展后的候选实体集合,与步骤3.4中的扩展候选实体集合对应,fRetriverl是检索函数,基于提及描述信息和候选实体的嵌入向量之间的相似度来检索和重排候选实体;扩展后候选实体集合εexpand通过实体消歧得到最终优化的候选实体集合:ε'=fDisambiguateεexpand,fDisambiguate是实体消歧函数,用于优化候选实体集合,对应步骤3.5中的优化过程;ε'是最终优化后的候选实体集合,即步骤3.5的输出结果,将用于步骤4中的决策性选择;步骤4、决策性选择使用大语言模型来从检索增强得到的候选实体集合中选择最佳匹配项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院成都文献情报中心,其通讯地址为:610000 四川省成都市天府新区群贤南街289号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。