买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东建筑大学
摘要:一种基于纹理信息引导的高分辨率耕地伪样本可控生成方法,涉及遥感影像技术领域,直接使用现有耕地地块标签捕捉耕地地块的纹理特征,剔除了非耕地区域的地物特征,直接避免了高分辨率遥感影像普遍存在的异物同谱的问题,控制单元能够只学习耕地自身的纹理特征,避免了其他地物的干扰,能为生成高质量耕地影像提供更加准确地信息引导,生成细节更丰富,更加真实的高分辨率耕地遥感影像。使生成影像满足遥感影像耕地地块语义分割任务所需样本的多样性和丰富性,提升遥感影像耕地地块分割的精度。
主权项:1.一种基于纹理信息引导的高分辨率耕地伪样本可控生成方法,其特征在于,包括如下步骤:a构建大尺寸高分辨率遥感影像耕地地块语义分割数据集D1-b,构建小尺寸高分辨率遥感影像耕地地块语义分割数据集D1-s;b将大尺寸高分辨率遥感影像耕地地块语义分割数据集D1-b划分为训练集和测试集;c利用小尺寸高分辨率遥感影像耕地地块语义分割数据集D1-s构建高分辨率遥感影像耕地地块提示词数据集D2;d建立条件扩散模型,条件扩散模型由编码器、解码器、条件控制单元、解耦交叉注意力、U-Net网络构成;e将训练集中的遥感影像输入到条件扩散模型的编码器中,得到低维潜在表示特征图Fimage;f将训练集中的遥感影像、二值耕地地块语义分割标签以及遥感影像的耕地提示词输入到条件扩散模型的条件控制单元中,输出得到输出影像嵌入分解特征FSp-I、特征图嵌入分解特征文本嵌入分解特征FSp-Text;g将特征图Fimage输入到条件扩散模型的U-Net网络中,输出得到特征Funet,将特征Funet输入到Linear线性层中,输出得到条件扩散模型的解耦交叉注意力的共用查询向量query,将影像嵌入分解特征FSp-I、特征图嵌入分解特征文本嵌入分解特征FSp-Text输入到条件扩散模型的解耦交叉注意力中,输出得到解耦交叉注意力Z;h利用解耦交叉注意力Z计算得到损失函数Lloss;i使用AdamW优化器利用损失函数Lloss训练条件扩散模型,得到优化后的条件扩散模型;j将训练集中的遥感影像输入到优化后的条件扩散模型中,输出得到耕地伪地块样本;步骤e包括如下步骤:e-1使用PIL库Image类读取训练集中的裁剪后的第i张遥感影像PiB,得到训练影像矩阵X′train-I,使用PIL库Image类读取训练集中的剪裁后的二值耕地地块语义分割标签得到训练标签矩阵X′train-L;e-2利用PyTorch中的ToTensor函数将训练影像矩阵X′train-I转化为张量Xtrain-I,Xtrain-I∈RC×W×H,R为实数空间,C为裁剪后的第i张遥感影像PiB的通道数,W为裁剪后的第i张遥感影像PiB的宽度,H为裁剪后的第i张遥感影像PiB的高度,利用PyTorch中的ToTensor函数将训练标签矩阵X′train-L转化为张量Xtrain-L,Xtrain-I∈RLC×W×H,LC为剪裁后的二值耕地地块语义分割标签的通道数;e-3条件扩散模型的编码器为预训练的AutoEncoderKL的编码器,将张量Xtrain-I输入到条件扩散模型的编码器中,得到影像的低维潜在表示特征图Fimage,ZC为低维潜在表示特征图的通道数;步骤f包括如下步骤:f-1条件扩散模型中的条件控制单元由影像控制模块、影像与标签控制模块、耕地提示词控制模块构成;f-2影像控制模块由预训练的CLIP图像编码器、投影网络构成,将张量Xtrain-I输入到预训练的CLIP图像编码器中,输出得到影像嵌入影像控制模块的投影网络由Linear线性层、LayerNorm层构成,将影像嵌入输入到投影网络的Linear线性层中,输出得到特征将特征输入到投影网络的LayerNorm层中,输出得到影像嵌入分解特征FSp-I;f-3影像与标签控制模块由耕地纹理特征增强模块、预训练的CLIP图像编码器、投影网络构成,将张量Xtrain-L输入到耕地纹理特征增强模块中,输出得到强化后的耕地纹理特征图M1′,将强化后的耕地纹理特征图M1′输入到影像与标签控制模块的预训练的CLIP图像编码器中,输出得到特征图嵌入影像与标签控制模块的投影网络由Linear线性层、LayerNorm层构成,将特征图嵌入输入到影像与标签控制模块的投影网络的Linear线性层中,输出得到特征将特征输入到影像与标签控制模块的投影网络的LayerNorm层中,输出得到特征图嵌入分解特征f-4耕地提示词控制模块由预训练的CLIP文本编码器构成,将第i张遥感影像的耕地提示词Proi输入到预训练的CLIP文本编码器中,输出得到本文嵌入分解特征FSp-Text,FSp-Text∈RK×text_embeddings_dim,其中K为文本最大编码长度,text_embeddings_dim为文本嵌入大小;将张量Xtrain-L输入到耕地纹理特征增强模块中,输出得到强化后的耕地纹理特征图M1′的方法为:f-31耕地纹理特征增强模块由耕地纹理捕捉单元、耕地纹理提取单元构成;f-32耕地纹理捕捉单元由第一平均池化层、第二平均池化层、2D卷积层、LeakyReLU函数构成,将张量Xtrain-L输入到耕地纹理捕捉单元的第一平均池化层中,输出得到特征将特征输入到耕地纹理捕捉单元的第二平均池化层中,输出得到边缘过渡平滑的耕地空间位置注意力图Map1,将张量Xtrain-I输入到耕地纹理捕捉单元的2D卷积层中,输出得到特征将特征输入到耕地纹理捕捉单元的LeakyReLU函数中,输出得到影像特征张量F1,F1∈[0,1]C′×W×H,C′为影像特征张量F1的通道数,将边缘过渡平滑的耕地空间位置注意力图Map1在通道维度上堆叠C′次后与影像特征张量F1进行逐元素相乘得到耕地地块准确的空间特征信息图M1,M1∈[0,1]1×W×H;f-33耕地纹理提取单元由第一残差卷积块、第一卷积块、第二残差卷积块、Softmax函数构成;f-34耕地纹理提取单元的第一残差卷积块由2D卷积层、BatchNormalization层、LeakyReLU函数构成,将耕地地块准确的空间特征信息图M1输入到第一残差卷积块的2D卷积层中,输出得到特征FI2-1,将特征FI2-1输入到第一残差卷积块的BatchNormalization层中,输出得到特征FI2-2,将特征FI2-2输入到第一残差卷积块的LeakyReLU函数中,输出得到特征FI2-3,将耕地地块准确的空间特征信息图M1与特征FI2-3进行相加操作,得到特征FI2;f-35耕地纹理提取单元的第一卷积块由2D卷积层、BatchNormalization层、LeakyReLU函数构成,将特征FI2输入到第一卷积块的2D卷积层中,输出得到特征FI3-1,将特征FI3-1输入到第一卷积块的BatchNormalization层中,输出得到特征FI3-2,将特征FI3-2输入到第一卷积块的LeakyReLU函数中,输出得到特征FI3-3;f-36耕地纹理提取单元的第二残差卷积块由2D卷积层、BatchNormalization层、LeakyReLU函数构成,将特征FI3-3输入到第二残差卷积块的2D卷积层中,输出得到特征FI4-1,将特征FI4-1输入到第二残差卷积块的BatchNormalization层中,输出得到特征FI4-2,将特征FI4-2输入到第二残差卷积块的LeakyReLU函数中,输出得到特征FI4-3,将特征FI4-3与特征FI3-3进行相加操作,得到特征FI4;f-37将特征FI4输入到耕地纹理提取单元的Softmax函数中,输出得到耕地纹理权重矩阵Map2,Map2∈[0,1]C′×W×H;f-38将耕地纹理权重矩阵Map2与影像特征张量F1进行逐元素相乘,得到强化后的耕地纹理特征图M1′;步骤g包括如下步骤:g-1条件扩散模型的解耦交叉注意力由影像嵌入分解特征交叉注意力、特征图嵌入分解特征交叉注意力、文本嵌入分解特征交叉注意力构成;g-2将低维潜在表示特征图Fimage输入到条件扩散模型的U-Net网络中,输出得到特征Funet,Funet∈{Fdowm1,Fdowm2,Fdowm3,Fup1,Fup2,Fup3},Fdowm1,Fdowm2,Fdowm3为U-Net网络三个下采样过程中的特征,Fup1,Fup2,Fup3为U-Net网络三个上采样过程中的特征;g-3解耦交叉注意力的影像嵌入分解特征交叉注意力由第一Linear线性层、第二Linear线性层、第三Linear线性层构成,将输出影像嵌入分解特征FSp-I输入到影像嵌入分解特征交叉注意力的第一Linear线性层中,输出得到影像嵌入分解特征交叉注意力的键向量keySp-I,将输出影像嵌入分解特征FSp-I输入到影像嵌入分解特征交叉注意力的第二Linear线性层中,输出得到影像嵌入分解特征交叉注意力的值向量valueSp-I,将特征Funet输入到影像嵌入分解特征交叉注意力的第三Linear线性层中,输出得到影像嵌入分解特征交叉注意力的查询向量query,将影像嵌入分解特征交叉注意力的查询向量query、键向量keySp-I、值向量valueSp-I输入到pytorch库的torch.nn.functional.scaled_dot_product_attention函数中,输出得到特征Fcatt-I;g-4解耦交叉注意力的特征图嵌入分解特征交叉注意力由第一Linear线性层、第二Linear线性层、第三Linear线性层构成,将特征图嵌入分解特征输入到特征图嵌入分解特征交叉注意力的第一Linear线性层中,输出得到特征图嵌入分解特征交叉注意力的键向量将特征图嵌入分解特征输入到特征图嵌入分解特征交叉注意力的第二Linear线性层中,输出得到特征图嵌入分解特征交叉注意力的值向量将特征Funet输入到特征图嵌入分解特征交叉注意力的第三Linear线性层中,输出得到特征图嵌入分解特征交叉注意力的查询向量query,将特征图嵌入分解特征交叉注意力的查询向量query、键向量值向量输入到pytorch库的torch.nn.functional.scaled_dot_product_attention函数中,输出得到特征g-5解耦交叉注意力的文本嵌入分解特征交叉注意力由第一Linear线性层、第二Linear线性层、第三Linear线性层构成,将文本嵌入分解特征FSp-Text输入到文本嵌入分解特征交叉注意力的第一Linear线性层中,输出得到文本嵌入分解特征交叉注意力的键向量keySp-Text,将文本嵌入分解特征FSp-Text输入到文本嵌入分解特征交叉注意力的第二Linear线性层中,输出得到文本嵌入分解特征交叉注意力的值向量valueSp-Text,将特征Funet输入到文本嵌入分解特征交叉注意力的第三Linear线性层中,输出得到文本嵌入分解特征交叉注意力的查询向量query,将文本嵌入分解特征交叉注意力的查询向量query、键向量keySp-Text、值向量valueSp-Text输入到pytorch库的torch.nn.functional.scaled_dot_product_attention函数中,输出得到特征Fcatt-Text;g-6将特征Fcatt-I、特征特征Fcatt-Text进行相加操作,得到解耦交叉注意力Z;步骤h包括如下步骤:h-1使用torch.randn_like函数将低维潜在表示特征图Fimage生成尺寸一致的随机噪声Noise;h-2将随机噪声Noise与低维潜在表示特征图Fimage进行相加操作,得到特征Fnoise-image,h-3将特征Fnoise-image输入到解耦交叉注意力Z与条件扩散模型中U-Net网络二者整合后的U-Net模型中,输出得到预估噪声Noiseθ;h-4计算随机噪声Noise与预估噪声Noiseθ的均方误差,将均方误差作为损失函数Lloss。
全文数据:
权利要求:
百度查询: 山东建筑大学 基于纹理信息引导的高分辨率耕地伪样本可控生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。