基于主题引导的Transformer的遥感图像字幕生成方法

导航：龙图腾网> 最新专利技术> 基于主题引导的Transformer的遥感图像字幕生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西安电子科技大学

摘要：本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法，主要解决现有技术生成的描述单一，且无法精确表示图像中的语义信息的问题。其实现方案为：搭建一个由Transformer和主题向量组成的主题编码器，并在分类数据集上进行预训练；搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器；将主题编码器和语义解码器进行连接，得到遥感图像字幕生成网络；设置训练参数，用标准RSICD数据集迭代训练遥感图像字幕生成网络；利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性，可用于地物图像检索、灾情预测、图像理解。

主权项：1.一种基于主题引导的Transformer遥感图像字幕生成方法，其特征在于，包括：1预训练主题编码器：1a从公开网站获取遥感字幕生成数据集RSICD中的训练集和测试集，并使用其训练集的图像名称作为类别标签y使用训练集的图像作为数据，获得分类数据集；1b搭建一个由嵌入层，Transformer编码器和主题向量T组成的主题编码器；1c使用分类数据集，采用梯度下降法预训练主题编码器，得到训练好的主题编码器；2搭建基于主题引导的Transformer遥感图像字幕生成网络：2a搭建由一个由随机掩码层，嵌入层，Transformer解码器和soft-max层级联组成的语义解码器；2b将训练好的主题编码器和语义解码器进行连接，得到基于主题引导的Transformer遥感图像字幕生成网络；3对基于主题引导的Transformer遥感图像字幕生成网络进行迭代训练：3a设置网络训练的最大迭代次数E，初始学习率Lr；3b将训练集中的图像从主题编码器输入，得到图像嵌入特征VI和主题嵌入特征VT；3c将文本数据输入到语义解码器，先经过其随机掩码层随机将一些文字替换为特殊标识符[Mask],再通过嵌入层输出掩码文字嵌入特征X；3d将主题嵌入特征VT和掩码文字嵌入特征X进行拼接，得到主题文字嵌入特征XT；3e将主题文字嵌入特征XT输入到语义解码器中的自注意力层，得到自注意力文字嵌入特征XS；3f将自注意力文字嵌入特征XS输入到语义解码器中的交互注意力层，并与图像特征VI进行交互注意力计算，得到交互注意力文字嵌入特征XI；3g将交互注意力文字嵌入特征XI作为下一个解码层的输入，使用XI作为3d中的掩码文字嵌入特征X；3h重复3d～3g，得到最终的语义解码器输出XF；3i将最终的语义解码器输出XF输入到语义解码器的soft-max层，得到生成描述的概率分布pθ；3j根据生成描述的概率分布pθ，计算交叉熵损失Loss；3k依据交叉熵损失Loss进行反向传播，以此更新网络参数；3l重复3b～3k，直到达到最大迭代次数E，得到训练好的基于主题引导的Transformer遥感图像字幕生成网络；4将测试集遥感图像输入到训练好的基于主题引导的Transformer遥感图像字幕生成网络，得到图像对应的字幕。

全文数据：

权利要求：

百度查询：西安电子科技大学基于主题引导的Transformer的遥感图像字幕生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型暗埋不锈钢波纹管出墙组件

下一篇：含有内排土场的露天煤矿煤炭胶带运输系统

相关技术

一种新型暗埋不锈钢波纹管出墙组件

含有内排土场的露天煤矿煤炭胶带运输系统

油田管道防腐漆喷涂装置

一种桥台背路基沉降修复结构

桩孔孔径检测装置

一种农艺地表喷灌装置

一种牛角电容老化机排架错位检测机构

一种人体分区温度可调的供暖装置

一种带有烘干功能的金属件清洗池

一种具有汽相分布器的精馏塔

一种密封型储存罐

一种扒钉制作工装

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于主题引导的Transformer的遥感图像字幕生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务