首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Transformer架构的视频去摩尔纹方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院大学

摘要:本说明书实施例公开了一种基于Transformer架构的视频去摩尔纹方法,方案包括:首先提出了一个基于Transformer架构的视频去摩尔纹模型TSFT,使用了多尺度信息结合时序和空间注意力编码器来学习摩尔纹的动态变化,并使用基于自注意力方法的模块来学习不同帧之间的相关性并重构高频细节,而之前几乎没有模型将自注意力方法引入去摩尔纹领域。该模型在现有数据集上取得了优越的效果。然后,提出了TAE和SAE来拟合摩尔纹在不同尺度的分布,两个模块结合了多尺度方法和注意力机制,从不同的维度对特征进行加权,增强了模型学习的效率,并且可以输出可视化特征图来分析摩尔纹的变化。

主权项:1.一种基于Transformer架构的视频去摩尔纹方法,其特征在于,所述方法包括:将待处理视频中相邻的三帧和作为输入,以利用相邻帧的信息来辅助恢复当前帧的摩尔纹图像并输出复原图像Ot,具体包括:首先将所述相邻的三帧和输入到对齐模块PCD中,用于进行隐式特征对齐,接着利用一个卷积层进行特征通道扩展,最后通过卷积构成的下采样层来进行下采样,用于后续提取多尺度的特征信息,如公式1所示: 其中,符号h表示所述对齐模块PCD输出的特征图的高度,符号w表示所述对齐模块PCD输出的特征图的宽度,符号Down表示下采样层,符号Conv表示卷积层;所述相邻的三帧和中的每一帧图像通过卷积网络扩展至n通道特征;时序注意力编码器TAE是对对齐后的特征进行时序上注意力权重的学习,从而减少冗余信息的干扰,并且时序加权可以减少图像本身光照变化对恢复带来的影响;对于多尺度的输入特征按照时间维度t进行划分,分成三组,即: 然后基于时间维度进行avgpooling和concat操作,得到三组通道特征,并将它们输入到MLP中,最终划分得到三组时间权重,并分别对三个尺度的输入特征进行加权,得到时序注意力增强后的特征,如公式3所示:wt-1,wt,wt+1=σMLPAvgFt-1,AvgFt,AvgFt+1 空间注意力编码器SAE用于摩尔纹空间分布的学习,因此对于多尺度的特征,将SAE的输入按照空间维度进行划分: 然后基于空间维度进行avgpooling,得到三组空间特征权重,将他们输入到卷积神经网络中,得到三组不同尺度的空间权重,并对输入特征进行加权: 综上总结,在Encoder阶段,首先使用特征对齐,然后使用TAE得到中间特征再将中间特征输入到SAE中进行编码和加权,得到Encoder阶段的输出特征编码部分结合了跳跃连接保持梯度稳定,并增强模型的泛化能力,如公式6所示: 时序-空间融合解码器架构在Decoder阶段引入了分块操作和合并操作,并且加入了滑动窗口方法,以进行局部建模和注意力提取,通过调整注意力窗口的位置来学习图像不同局部的注意力信息,并且保持了计算的高效,先使用特征融合网络进一步学习Encoder阶段提取的特征,并且融合时序和空间注意力编码的输出,特征融合网络由卷积层构成,并使用多次交叉连接来融合不同尺度和不同时序的特征,在不同的尺度使用卷积来捕获不同大小的感受野,从而在更好地拟合摩尔纹在不同尺度的分布,有利于识别和去除不同形状、大小的摩尔纹;后续将模型输入到自注意力模块中,该模块有两个作用:第一,自注意力方法能够学习图像patch间以及不同时间帧的相关性,并且有效利用信息并学习由于摩尔纹强度变化等原因对图像造成的影响,并且基于窗口的自注意力拥有局部的归纳偏置,提升了训练的效率,同时降低了计算复杂度;第二,在模块中的多层感知机和卷积层可以用于图像纹理的重构以及高频细节的学习;具体的运算流程如公式7所示: 首先将Encoder阶段学习到的增强特征输入到特征融合网络中,融合两个不同维度的注意力信息,并且在这一步将图像分为互不重叠的Patch,便于后续学习自注意力权重;在结合使用多层感知机MLP和层归一化LN方法来提取特征并重构高频细节,最后将Patch合并,通过上采样层UP来获取复原图像同时还输出不同尺度的图像用于后续的多尺度监督策略。

全文数据:

权利要求:

百度查询: 中国科学院大学 一种基于Transformer架构的视频去摩尔纹方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。