买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出了一种低资源场景下多模态命名实体识别与定位方法,方法包括:通过计算相似度筛选语义相近的图文对,在低资源场景下,使用LLaMA作为核心结构,通过构造多模态实例,更加充分地利用模型预训练知识。在训练阶段,通过计算相似度筛选语义相近的图文对,构建实例辅助训练,并在训练过程中同时计算命名实体识别损失函数和实体定位损失函数帮助训练;在非训练阶段,通过语义相似度计算构建实例辅助推理,提升多模态命名实体识别与定位在低资源情景下的效果。
主权项:1.一种低资源场景下多模态命名实体识别与定位方法,其特征在于,在使用模型进行推理时,包括:步骤一、将测试集每个文本-图像对Ti,Ii中的文本Ti分词,使用预训练语言模型编码,将每个文本表示为向量形式vT;用视觉特征提取器编码图像,表示为向量vI;步骤二、计算测试集中每个文本-图像对和训练集中每个文本-图像对之间的文本语义相似度和图像语义相似度,结合为综合语义相似度,并组成相似度矩阵;步骤三、根据语义相似度矩阵,选取和测试集的文本-图像对Ti,Ii语义最相似的训练集文本-图像对Tj,Ij;步骤四、将Ti,Ii和Tj,Ij组合作为一组数据,其中Ti,Ii作为待推理内容,Tj,Ij用于构建示范实例;步骤五、Tj,Ij中,对于文本Tj,根据预定义的实体类型,使用自然语言模板填充方法对文本Tj进行示例创建,获得文本利用文本编码器将Tj和编码为文本向量和对于图像Ij,使用视觉特征提取器对每个包含实体的特定区域进行视觉特征提取,得到实体的视觉特征向量并提取整个图像的特征得到整个图像的视觉特征向量最终得到向量表示的图文对和共同构成示范实例;步骤六、Ti,Ii中,将文本Ti分词并使用文本编码器编码为文本向量利用视觉特征提取器从Ii中提取视觉特征,得到视觉特征向量以得到向量表示的图文对步骤七、将所有的图像特征向量经过线性投影层转换到和文本向量相同的维度;步骤八、将转换后的图像特征向量和文本向量进行拼接,作为输入向量;步骤九、将所述输入向量输入到LLaMA模型中进行实例学习,通过注意力机制学习将提取到的文本特征和视觉特征进行加权融合,生成联合特征表示;步骤十、利用LLaMA解码器对所述联合特征表示进行解码,获得对图文对Ti,Ii的预测输出;其中,所述方法进一步包括对模型的训练过程,包括:步骤十一、根据所述预测输出以及测试集的实际信息,分别基于交叉熵损失和IoU确定命名实体识别损失函数和图像实体定位损失函数;步骤十二、基于所述命名实体识别损失函数和所述图像实体定位损失函数,构建整体损失函数;步骤十三、利用整体损失函数,使用优化器更新参数。
全文数据:
权利要求:
百度查询: 中国电子科技集团有限公司电子科学研究院 北京邮电大学 中电科电科院科技集团有限公司 低资源场景下多模态命名实体识别与定位方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。