买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉橡皮膜网络科技有限公司
摘要:本发明公开了一种高连贯性视频合成的稳定扩散模型方法,涉及视频合成技术领域,现提出如下方案,包括以下步骤:S1、数据输入:首先接收文本输入作为视频语义级别的内容条件,然后通过CLIP的交叉注意力机制控制基础模型和精修模型的生成,同时接收镜头、姿势和位置等作为视频细节相关的具体条件,将所有具体条件作为多个控制模型的输入;本发明保证视频的连贯性和一致性,针对高视效、高连贯性的视频,通过在精修模型更多的关注视频序列中的运动信息,从而生成更平滑和稳定的中间帧,生成更清晰和逼真的视频,有效地利用输入的条件来控制视频的内容和风格,让整体模型更加稳定和鲁棒,可靠地生成高质量的视频,有趣地生成不同的视频效果。
主权项:1.一种高连贯性视频合成的稳定扩散模型方法,其特征在于,包括以下步骤:S1、数据输入:首先接收文本输入作为视频语义级别的内容条件,通过CLIP和交叉注意力机制控制基础模型和精修模型的生成,同时接收镜头、姿势和位置作为视频细节相关的具体条件,将所有具体条件作为多个控制模型的输入,然后通过交叉注意力机制控制基础模型和精修模型的生成;S2、关键帧潜在变量生成:使用基础模型从条件生成一系列的关键帧潜在变量;S3、视频帧潜在变量生成:使用精修模型从关键帧潜在变量以及条件生成一系列的连续视频帧潜在变量;S4、视频序列输出:将视频帧潜在变量转换到像素空间,输出视频序列;所述基础模型是基于潜在扩散的文生图模型,该模型能够根据内容条件和具体条件从随机生成的潜在变量生成具有一定连贯性的关键帧潜在变量;所述精修模型是基于扩散的图生视频模型,它与基础模型在同一潜空间中训练,该模型能够根据所述基础模型生成的关键帧潜在变量以及内容条件和具体条件进一步从随机生成的潜在变量中生成高连贯性的视频帧潜在变量;所述基础模型与精修模型的关键帧与视频帧潜在变量是通过从噪声的逆向扩散过程生成的,所述基础模型与精修模型使用与稳定扩散模型的相同的框架并从原始稳定扩散模型中继承了权重,但是额外附加了时间注意力层,所述基础模型与精修模型利用原始稳定扩散模型的预训练图像特征建模能力,得到初始化良好的特征;所述控制模型使用镜头、姿势或风格对生成内容进行精细化控制,所述控制模型使用零卷积去噪的U-Net中引入了额外的控制特征,同时根据控制条件是否包含时间属性额外添加时间注意力层,让控制模型同时关注视频的时间与空间维度,利用扩散过程的潜在空间来实现视频之间的变形和过渡;所述控制模型由多个模型组成,每个模型用于控制视频生成的某个具体要素,包括视频的镜头移动、人物动作或风格滤镜,控制模型采用了与去噪U-Net的下采样部分相同的框架。
全文数据:
权利要求:
百度查询: 武汉橡皮膜网络科技有限公司 一种高连贯性视频合成的稳定扩散模型方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。