Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于扩散模型和零样本训练的高动态范围图像色调映射方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明属于图像处理技术领域,具体涉及基于扩散模型和零样本训练的高动态范围图像色调映射方法。本发明包括构建色调映射网络模型,并将其集成到扩散模型的框架中,将结构信息和亮度大致分布图作为扩散模型的条件输入,利用原图的结构信息修正扩散模型反向采样的中间结果等。网络模型包括生成模型以及其控制模块;生成模型包括级联的四个尺度的编码模块、一个中间模块以及级联的四个尺度解码模块;控制模块包括和SD模型相同的四个尺度的编码模块,并在每个尺度的网络最后加入零卷积层。控制模块每个尺度的输出加至生成模型对应尺度输出的特征图上,以此控制生成模型的最终输出结果。本发明可以很好地保留原图信息,提高HDR图像色调映射效果。

主权项:1.一种基于扩散模型和零样本训练的高动态范围图像色调映射方法,其特征在于,包括构建一个色调映射网络模型并集成到扩散模型的框架中,将结构信息和亮度大致分布图作为扩散模型的条件输入,利用原图的结构信息修正扩散模型反向采样的中间结果;具体步骤为:1构建色调映射网络模型,用于扩散模型中的每一步;该网络模型结构包括用于预训练的生成模型以及该模型的控制模块;所述生成模型采用稳定扩散模型SD的网络结构,包括:级联的四个尺度的编码模块,一个中间模块,以及级联的四个尺度的解码模块;所述控制模块的结构包括和SD模型相同的四个尺度的编码模块,但在每个尺度的神经网络最后加入了一个零卷积层;控制模块每个尺度的输出加至生成模型对应尺度输出的特征图上,以此控制生成模型的最终输出结果;控制模块的输入包括输入图像每个像素处的结构信息和亮度大致分布图;其中:每个像素处的结构信息的计算式为: 式中,Iori表示原图,μori和σori分别表示图像的局部高斯均值和局部标准差,ε是为防止除以0而引入的一个较小的值,i,j是当前像素在图像中的坐标;μori和σori的具体计算式为: 其中,K表示高斯滤波的窗口大小,ω表示高斯滤波核;亮度大致分布图的计算方法为:在训练阶段,对图像的亮度通道进行均值滤波;在测试阶段,先将图像进行预处理,具体采用全局色调映射,再进行均值滤波,预处理的计算式为: 其中,log表示对数函数,max为取最大值的操作,Y表示输入图像的亮度通道,ε是为防止除以0而设置的一个较小的值,参数λ通过求解式5的优化问题得到: 其中,HlYc表示Yc的直方图,HlLDR为大量高质量自然LDR图像亮度通道的平均直方图;在训练阶段,将上述网络结构集成在去噪扩散概率模型DDPM中;在测试阶段,将上述网络结构集成在去噪扩散隐式模型DDIM中;在这两种扩散模型中,所述网络结构用于预测扩散模型每一步所加的噪声;2在步骤1中所描述的网络模型的基础上,将结构信息输入控制模块的第一个尺度的编码模块,将亮度大致分布图输入控制模块的第二个尺度的编码模块,以进一步增强输出图像的细节信息;3在步骤1中所述DDIM的基础上,对它的反向采样迭代过程的每次迭代或部分次迭代生成的中间结果进行修正,即:取生成结果的色调信息,将它和原图的结构信息进行组合,以进一步保护原图的结构信息;修正后的结果再根据扩散模型的公式进行反向采样过程后续的计算;具体地,对于DDIM反向采样的任意一次迭代,先用DDIM原始算法的公式算出对无噪数据的隐空间特征嵌入z0的初始估计,计算式为: 其中,为DDIM本次迭代得到的对无噪数据的隐空间特征嵌入z0的初始估计,zt为上一次迭代的结果,为DDIM预定义的权重,∈θzt,t,c为步骤1中所述的网络模型,t为当前迭代的时间步,c为网络模型的条件输入;然后,利用原图的结构信息对做修正,修正方法为: 其中,是将由SD模型的隐空间转到图像域的操作,TSD表示对图像进行色调-结构分解,即根据步骤1中的公式1~3计算图像的局部高斯均值、局部方差和结构信息,γ是一个控制图像细节增强程度的超参数,为原图的结构信息,ε是将图像转到SD模型的隐空间的操作;得到之后,将其作为本次迭代对z0的最终估计,根据DDIM原始算法的原理进行本次迭代后续的计算,得到本次迭代的结果;本次迭代后续计算的计算式为: 式中的也是DDIM预定义的权重;4网络的训练和测试;在LDR图像数据集上训练网络;训练时冻结生成模型的参数,仅训练控制模块;损失函数为,网络预测出的噪声和实际在无噪图像上所加的噪声的L2损失;训练完成之后的网络模型直接用于HDR图像的色调映射或其他类似任务;在测试时,对网络生成的图片仅取它的亮度分量,然后用下列公式转换成RGB图像: 其中,Ypred和Y分别是网络生成图和原图的亮度分量,i∈{R,G,B},和分别表示输入图像和最终输出结果的RGB三通道之一,s为超参数。

全文数据:

权利要求:

百度查询: 复旦大学 基于扩散模型和零样本训练的高动态范围图像色调映射方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。