一种基于多模态图像融合的微光夜视场景理解方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国矿业大学

摘要：本发明公开了一种基于多模态图像融合的微光夜视场景理解方法，属于人工智能技术，根据层级多模态特征信息的特点，构建不同特征校准和特征聚合模块以增强多模态特征信息的联合表示学习；构建跨模态全局特征描述模块以减少模态间的信息差异，实现多模态特征信息的校准；构建多模态交错稀疏自注意力模块来保证浅层网络层中多模态空间特征信息的聚合；构建对称金字塔池化交叉注意力模块与多模态跨通道通信模块用于聚合深层特征的空间层信息和通道层信息。本发明能够充分利用多模态特征信息互补优势，避免单一模态信息导致微光夜视场景理解能力不足，能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

主权项：1.一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，步骤如下：步骤1、对MFNet数据集中1569幅图像进行归一化处理，将像素大小统一为H×W，H表示长度，W表示宽度；将统一尺寸后的图像按照784393的比例划分为训练数据集和测试数据集，对训练数据集进行数据增强构成网络训练数据集；转入步骤2；步骤2、构建多模态高效融合网络：所述多模态高效融合网络包括：可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络；其中，可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成，作为提取特征的编码网络；跨模态全局特征描述模块用于校准多模态特征信息；浅层多模态特征聚合模块用于聚合浅层多模态特征信息；深层多模态特征聚合模块用于聚合深层多模态特征信息；解码网络由ALL-MLP模块构成，用于接收编码网络特征信息并对不同尺度的特征图进行特征重建；转入步骤3；步骤3、利用网络训练数据集对多模态高效融合网络进行训练，得到训练好的多模态高效融合网络模型：S31、将可见光编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的可见光特征，分别为H4×W4、H8×W8、H16×W16、H32×W32，将其中前三个阶段对应的特征为浅层可见光特征，第四个阶段的特征为深层可见光特征；相应地，将热图像编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的热图像特征，分别为H4×W4、H8×W8、H16×W16、H32×W32，将其中前三个阶段对应的特征为浅层热图像特征，第四个阶段的特征为深层热图像特征；转入S32；S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征；转入S33；S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为H4×W4的浅层解码特征，转入S34；S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为H4×W4的深层解码特征，转入S35；S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作，计算得到的输出特征与标签间的交叉熵损失，并以此对此网络的网络参数进行更新，最终获得训练好的网络，转入步骤4；步骤4、将测试数据集输入到训练好的多模态高效融合网络模型，输出测试集中每个样本对应的预测结果，测试训练好的多模态高效融合网络模型的准确率；S32中，将S31中前三个阶段不同尺度的可见光特征和热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将S32中第四个阶段得到的深层可见光特征与深层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到深层校准可见光图像特征和深层校准热图像特征，具体如下：首先，构建一个局部多头关系聚合器LocalMHRA：每个头包含一个乘法器，将每组通道的通过线性变换生成上下文的序列块Vb和序列块亲和力关系进行相乘，再通过Concat操作将每个头的信息进行拼接，公式表示如下：式中，b为通道组数，Xi为锚序列块，Xj为局部邻域Ωi的任一序列块，为可学参数矩阵，i-j为第i个节点和第j个节点的相对位置；然后，将可见光编码网络的前三个阶段中第d个阶段的浅层可见光特征drgb输入到局部多头关系聚合器LocalMHRA中得到可见光局部描述特征MHRAdrgb；将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征dthermal输入到局部多头关系聚合器LocalMHRA中得到热图像局部描述特征MHRAdthermal；将浅层可见光局部描述特征MHRAdrgb和浅层热图像局部描述特征MHRAdthermal拼接得到浅层多模态局部描述特征Ms，将Ms压缩得到跨模态通道描述Sr，t：式中，K表示特征数量，Np表示第p个特征的空间维度；2c表示通道数量，nK表示第K个特征；将跨模态通道描述Sr，t输入到多层感知机，得到可见光图像特征的预测zrgb和热图像特征的预测zthermal，利用这两种预测对可见光模态的第d个阶段的浅层可见光特征drgb和热图像模态的第d个阶段的浅层热图像特征dthermal重新校准，得到第d个阶段浅层可见光校准特征和浅层热图像校准特征公式表示如下：式中δ·表示Sigmod函数，⊙表示逐通道相乘操作；最后，将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加，并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完；相应地，将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加，并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完；同理，将第四个阶段的深层可见光图像特征和深层热图像特征，输入到局部多头关系聚合器LocalMHRA，分别得到深层可见光局部描述特征MHRAfrgb和深层热图像局部描述特征MHRAfthermal，将其进行拼接得到深层多模态局部描述特征Mf，再通过压缩、重新校准，得到深层校准可见光图像特征和深层校准热图像特征S33中，将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为H4×W4的浅层解码特征，具体如下：S33-A、利用多模态交错稀疏自注意力模块，提取交错稀疏自注意力特征Z：首先利用步骤3中的浅层多模态局部描述特征M，并使用排列函数Permute对浅层融合特征M进行交错排列，得到交错排列特征Mp＝PermuteM；然后，将Mp划分为N个分区，且每个分区大小相等，独立地将自注意力应用于每个分区并获得更新的分区特征；最后，合并所有更新后的分区特征，得到交错稀疏自注意力特征Z；S33-B、将交错稀疏自注意力输出特征Z通过卷积操作和批归一化层获得可见光模态与热图像模态的串联特征MCBN：MCBN＝ConvBNZ式中Cony表示卷积操作，BN表示正则化操作；利用Sobel卷积计算可见光模态的第d个阶段的浅层可见光特征drgb的可见光梯度幅值Rgra和热图像模态的第d个阶段的浅层热图像特征dthermal的热图像梯度幅值Tgra，用公式表示如下：式中代表水平方向上梯度信息，表示垂直方向上的梯度信息；S33-C、利用串联特征MCBN可见光梯度幅值Rgra以及热图像梯度幅值Tgra得到第d个阶段中使用浅层特征聚合模块的输出特征，即浅层聚合特征Skipd：Skipd＝MCBN+Rgra+TgraS33-D、将浅层聚合特征Skipd通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为H4×W4的浅层解码特征；S34中，将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和步骤4中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为H4×W4的深层解码特征，具体如下：S34-A、利用对称金字塔交错注意力机制提取多模态对称交错注意力融合特征：将深层可见光描述特征MHRAfrgb和深层热图像描述特征MHRAfthermal进行不同尺度的平均池化操作，分别生成a张可见光金字塔特征图和a张热图像金字塔特征图，表达式如下：式中AvgPool表示平均池化层，表示a张不同尺度的可见光金字塔特征图，表示a张不同尺度的热图像金字塔特征图；再将不同尺度可见光金字塔特征图的特征向量进行拼接，通过线性变换获得可见光模态的键和值；将不同尺度热图像金字塔特征图的特征向量进行拼接，通过线性变换获得热图像模态的键和值，表达式如下：式中KR，VR表示可见光图像的Key向量和Value向量，KT，VT表示热图像的Key向量和Value向量；最后直接从输入的深层可见光图像描述特征MHRAfrgb的特征图得到可见光图像查询QR，从深层热图像描述特征MHRAfthermal的特征图中得到热图像查询QT，利用KR、VR、KT、VT、QR、QT，进行交错注意力计算，构成对称金字塔交错注意力模块，输出可见光对称交错注意力特征Orgb、热图像对称交错注意力特征Othermal，公式表达如下： OS＝concatOrgb，Othermal式中，T表示转置，dk表示缩放因子，k表示通道维度，Softmax为指数归一化操作，oS表示可见光图像模态和热图像模态对称交错注意力融合特征；S34-B、利用多模态跨通道交流机制得到多模态通道交互通信特征：首先将深层可见光描述特征MHRAfrgb和深层热图像描述特征MHRAfthermal分别进行展平操作得到可见光模态的特征向量图节点和热图像模态的特征向量图节点 scorei，j＝Softmaxsr，t式中，i，j表示不同节点，分别表示不同节点特征信息的平均输出，是和每个模态特征映射中展平向量的第ele个元素，n表示节点数，h表示第h个像素在高度维度的位置，w表示第w个像素在宽度维度的位置，sr，t表示负平方距离，以避免每个模态节点与其他节点进行过多的通信，使模态特征信息更加多样化和互补，scorei，j表示注意力响应分数，将节点的最终计算输出定义为：式中，表示消息传递模块的通道输出；将通道输出特征进行全连接操作，将其大小转换为和对称交错注意力融合特征OS相同的大小，转换后的通道输出特征记为Ofc；S34-C、将对称金字塔交错注意力模块的输出特征对称交错注意力融合特征OS和多模态跨通道交流模块的输出特征Ofc的模块进行相加，经过卷积操作和批归一化处理与深层可见光输出特征和深层热图像特征进行相加，得到深层聚合模块的深层聚合特征，用公式表示如下： S34-D、将深层聚合特征Skip4传输到解码器网络并进行上采样操作，得到像素大小为H4×W4的深层解码特征。

全文数据：

权利要求：

百度查询：中国矿业大学一种基于多模态图像融合的微光夜视场景理解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种磨盘组件及谷物粉碎研磨装置

下一篇：一种调整桥梁现浇支架高度装置

相关技术

一种磨盘组件及谷物粉碎研磨装置

一种调整桥梁现浇支架高度装置

一种射频连接器外壳的制备方法以及射频连接器

基于额叶脑活动监测传感器的信息增强深度睡眠

虚拟形象生成方法、装置、设备、存储介质以及程序产品

一种用于基坑地表水降排重力式虹吸装置

一种基于视觉定位的无人机自适应高度调节方法

一种多向式的挂烫机蒸汽喷头结构

浏览内容的处理方法、装置和介质

一种含库伦摩擦的非线性结构阻尼摄动重分析方法

二咔唑苯基双膦配体及其制备方法、咔唑苯基双膦卤化亚铜及其制备方法和应用

一种磷酸铁锂-石墨烯强耦合材料及其制备方法

微光相关技术

一种半导体失效定位装置及微光显微探测设备_武汉楚兴技术有限公司_202420165700.5

配装微光夜视眼镜的红外组件和包含其的融合夜视眼镜_湖北华中长江光电科技有限公司_202410793688.7

一种高分辨率微光系统及电子设备_厦门力鼎光电股份有限公司_202410952733.9

一种具有防眩光微光栅结构的玻璃及其制造方法_江苏祥兆光电材料科技有限公司_202410745617.X

一种半刚性夹持共聚焦显微光纤探头检验工装_精微视达医疗科技(常州)有限公司_202323652413.1

一种微光纤波导集成超表面自由空间实现双焦点的元器件_安徽工业大学_202323608651.2

一种基于微光纤准直器的迈克尔逊干涉仪式光纤温度传感探针_桂林电子科技大学_202310248130.6

微光电子温湿度计_华能淮阴第二发电有限公司_202410760562.X

一种提高微光辐射定标光源光谱匹配精度的方法_南京理工大学_202310209036.X

微光衍射元件补偿方法、系统、光学装置及存储介质_上海至纯洁净系统科技股份有限公司_202411106780.8

融合相关技术

一种石英管件火焰融合装置_杭州泓芯微半导体有限公司_202411267199.4

一种多传感器数据融合方法_中国人民解放军96901部队25分队_202111505306.9

基于特征融合的人脸表情识别方法_杭州师范大学_202210645220.4

一种知识融合的方法和装置_昆仑数智科技有限责任公司_202310369898.9

一种CT-MRI图像融合方法_河南工业大学_202310376916.6

一种融合PH测量的改良胃管_代晟_202323171091.9

寰枢椎非融合内固定装置_中国人民解放军联勤保障部队第九〇〇医院_202411085497.1

声学超材料特征融合方法、装置和设备_中国人民解放军国防科技大学_202411286950.5

一种数据智能融合平台_广东纬德信息科技股份有限公司_202210983304.9

电容取电型深度融合电子箱式FTU机箱_天津浩源汇能股份有限公司_202323126395.3

夜视相关技术

一种基于机器视觉的红外热成像夜视辅助驾驶系统_浙江大立科技股份有限公司_202310349062.2

一种高清夜视相机产品生产用检测设备_上海唯成电子科技有限公司_202411239352.2

高清夜视记录仪_南方电网绿能科技(广东)有限公司_202420576552.6

一款微小型车载夜视DMS镜头_湖南博明英光学科技有限公司_202420461404.X

一种夜视镜用多挡旋钮开关组件_云南北方精密制造有限公司_202323462674.7

配装微光夜视眼镜的红外组件和包含其的融合夜视眼镜_湖北华中长江光电科技有限公司_202410793688.7

一种便携性热成像夜视仪_安徽瀚唐信息科技有限公司_202323082456.0

一种具有夜视功能的安防用视频监控装置_伊犁杰羽设备安装工程有限公司_202323654603.7

一种具有夜视效果的测绘水准尺_胡东_202420047457.7

一种头带调整结构及其夜视眼镜_苏州楚河电子科技有限公司_202420427512.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多模态图像融合的微光夜视场景理解方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务