买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种基于视觉和文本的建筑图像分割方法及系统,基于Transformer架构,通过1提取输入图像的低分辨率特征图,生成视觉词;2利用语义路径的Transformer,提取所述视觉词之间的全局语义关系,得到一个语义特征图;3利用所述语义特征图得到高分辨率特征图,生成像素词;4利用像素路径的Transformer提取所述像素词之间的局部细节信息,得到一个像素特征图;5将所述语义特征图和所述像素特征图输入到双重注意力模块中进行特征表示,得到图像分割结果和建筑结构及周边环境信息。本发明通过建立基于Transformer架构的视觉‑文本多模态大模型,可以同时处理图像和文本信息,提取有用的建筑结构和环境信息,快速生成建筑结构图和周边街道环境信息的识别。
主权项:1.一种基于视觉和文本的建筑图像分割方法,其特征在于,包括以下步骤:S1、提取输入图像的低分辨率特征图,生成视觉词;S2、利用语义路径的Transformer,提取所述视觉词之间的全局语义关系,得到一个语义特征图;S3、利用所述语义特征图得到高分辨率特征图,生成像素词;S4、利用像素路径的Transformer,提取所述像素词之间的局部细节信息,得到一个像素特征图;S5、将所述语义特征图和所述像素特征图输入到双重注意力模块中进行特征表示,得到图像分割结果和建筑结构及周边环境信息;步骤S1中生成视觉词的过程为:利用卷积层,提取所述输入图像中的低层次特征,得到特征图;利用池化层,对所述特征图进行降采样,得到一个低分辨率特征图;将所述低分辨率特征图划分为多个小块,并将每个所述小块设置为一个特征向量,形成视觉词典;基于最近邻搜索的方法,在所述视觉词典中,查找与所述输入图像中的特征向量最相似或最近邻的视觉词,生成所述视觉词的序列;步骤S2中,通过在所述视觉词中添加位置嵌入,得到视觉词矩阵;在编码器层提取所述视觉词之间的全局语义关系,得到所述语义特征图;其中全局语义关系的提取过程为:利用自注意力子层对所述视觉词矩阵进行线性变换,得到视觉词查询矩阵、视觉词键矩阵和视觉词值矩阵;再通过计算所述视觉词查询矩阵和所述视觉词键矩阵的点积,得到一个视觉词注意力得分矩阵;再对所述视觉词注意力得分矩阵进行缩放、遮掩和归一化,得到一个视觉词注意力权重矩阵;最后通过计算所述视觉词注意力权重矩阵和所述视觉词值矩阵的乘积,得到一个视觉词输出矩阵,以表示视觉词之间的依赖关系;再利用前馈子层对所述视觉词输出矩阵进行两次线性变换和一次非线性激活,实现所述视觉词的非线性变换;添加残差连接到所述语义路径的Transformer的每个子层,再进行层归一化操作,使所述视觉词的特征向量归一化,实现全局语义关系的提取,得到所述语义特征图;步骤S3中像素词的生成过程为:基于反池化层,对所述语义路径的Transformer的输出特征图进行上采样,得到一个高分辨率特征图;将所述高分辨率特征图划分为多个小块,并将每个所述小块设置为一个特征向量,形成所述像素词的像素词典;步骤S4中,通过在所述像素词中添加位置嵌入,得到像素词矩阵;在编码器层提取所述像素词之间的局部细节信息,得到所述像素特征图;其中局部信息的提取过程为:利用自注意力子层对所述像素词矩阵进行线性变换,得到像素词查询矩阵、像素词键矩阵和像素词值矩阵;再通过计算所述像素词查询矩阵和所述像素词键矩阵的点积,得到一个像素词注意力得分矩阵;再对所述像素词注意力得分矩阵进行缩放、遮掩和归一化,得到一个像素词注意力权重矩阵;最后通过计算所述像素词注意力权重矩阵和所述像素词值矩阵的乘积,得到一个像素词输出矩阵;再利用前馈子层对所述像素词输出矩阵进行两次线性变换和一次非线性激活,实现所述像素词的非线性变换,以提取局部细节信息,得到所述像素特征图。
全文数据:
权利要求:
百度查询: 深圳市房地产和城市建设发展研究中心 一种基于视觉和文本的建筑图像分割方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。