首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于GAN先验的从文本生成三维肖像的方法及装置 

申请/专利权人:浙江大学;OPPO广东移动通信有限公司

申请日:2024-04-16

公开(公告)日:2024-07-05

公开(公告)号:CN118298087A

主分类号:G06T15/00

分类号:G06T15/00;G06T17/00;G06N3/094;G06N3/045;G06N3/0475;G06T11/60;G06N3/096

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明公开了一种基于GAN先验的从文本生成三维肖像的方法及装置,属于三维肖像生成技术领域,包括:训练能生成粗糙三维肖像的三维感知GAN,作为高质量三维肖像生成的先验;将文本提示输入扩散模型,生成符合文本提示的二维肖像图像;将二维肖像图像投影到训练好的三维感知GAN模型的隐空间中,得到最佳隐码,根据最佳隐码生成目标三维表示;通过分数蒸馏采样,将扩散模型的知识蒸馏到目标三维表示中,得到目标三维肖像;渲染目标三维肖像,得到渲染图,再经过扩散模型优化后,作为训练数据对目标三维肖像进行进一步优化,得到高质量三维肖像。通过本发明提供的方法可以生成高质量、视图一致、逼真且与输入文字提示相符合的三维肖像。

主权项:1.一种基于GAN先验的从文本生成三维肖像的方法,其特征在于,包括以下步骤:步骤1:以金字塔结构的三维表示为数据存储格式,训练一个能生成粗糙三维肖像的三维感知GAN模型,所述三维感知GAN模型作为目标三维肖像的先验模型;步骤2:将描述目标三维肖像的文本提示输入扩散模型,生成对应的二维肖像图像,所述扩散模型作为指导模型;步骤3:将二维肖像图像投影到训练好的三维感知GAN模型的隐空间中,得到最佳隐码,根据最佳隐码生成二维肖像图像对应的目标三维表示,所述目标三维表示作为后续步骤中生成目标三维肖像的先验;步骤4:通过分数蒸馏采样,将扩散模型的知识蒸馏到目标三维表示中,得到目标三维肖像;步骤5:对目标三维肖像进行渲染,得到目标渲染图,将目标渲染图通过扩散模型进行优化,得到参考渲染图,根据所述参考渲染图优化目标三维肖像,当目标三维肖像和参考渲染图之间的损失函数最小化时,得到最终的高质量目标三维肖像。

全文数据:

权利要求:

百度查询: 浙江大学 OPPO广东移动通信有限公司 一种基于GAN先验的从文本生成三维肖像的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。