首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于主题引导的Transformer的遥感图像字幕生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安电子科技大学

摘要:本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法,主要解决现有技术生成的描述单一,且无法精确表示图像中的语义信息的问题。其实现方案为:搭建一个由Transformer和主题向量组成的主题编码器,并在分类数据集上进行预训练;搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器;将主题编码器和语义解码器进行连接,得到遥感图像字幕生成网络;设置训练参数,用标准RSICD数据集迭代训练遥感图像字幕生成网络;利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性,可用于地物图像检索、灾情预测、图像理解。

主权项:1.一种基于主题引导的Transformer遥感图像字幕生成方法,其特征在于,包括:1预训练主题编码器:1a从公开网站获取遥感字幕生成数据集RSICD中的训练集和测试集,并使用其训练集的图像名称作为类别标签y使用训练集的图像作为数据,获得分类数据集;1b搭建一个由嵌入层,Transformer编码器和主题向量T组成的主题编码器;1c使用分类数据集,采用梯度下降法预训练主题编码器,得到训练好的主题编码器;2搭建基于主题引导的Transformer遥感图像字幕生成网络:2a搭建由一个由随机掩码层,嵌入层,Transformer解码器和soft-max层级联组成的语义解码器;2b将训练好的主题编码器和语义解码器进行连接,得到基于主题引导的Transformer遥感图像字幕生成网络;3对基于主题引导的Transformer遥感图像字幕生成网络进行迭代训练:3a设置网络训练的最大迭代次数E,初始学习率Lr;3b将训练集中的图像从主题编码器输入,得到图像嵌入特征VI和主题嵌入特征VT;3c将文本数据输入到语义解码器,先经过其随机掩码层随机将一些文字替换为特殊标识符[Mask],再通过嵌入层输出掩码文字嵌入特征X;3d将主题嵌入特征VT和掩码文字嵌入特征X进行拼接,得到主题文字嵌入特征XT;3e将主题文字嵌入特征XT输入到语义解码器中的自注意力层,得到自注意力文字嵌入特征XS;3f将自注意力文字嵌入特征XS输入到语义解码器中的交互注意力层,并与图像特征VI进行交互注意力计算,得到交互注意力文字嵌入特征XI;3g将交互注意力文字嵌入特征XI作为下一个解码层的输入,使用XI作为3d中的掩码文字嵌入特征X;3h重复3d~3g,得到最终的语义解码器输出XF;3i将最终的语义解码器输出XF输入到语义解码器的soft-max层,得到生成描述的概率分布pθ;3j根据生成描述的概率分布pθ,计算交叉熵损失Loss;3k依据交叉熵损失Loss进行反向传播,以此更新网络参数;3l重复3b~3k,直到达到最大迭代次数E,得到训练好的基于主题引导的Transformer遥感图像字幕生成网络;4将测试集遥感图像输入到训练好的基于主题引导的Transformer遥感图像字幕生成网络,得到图像对应的字幕。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于主题引导的Transformer的遥感图像字幕生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。