首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大脑启发式的文本驱动三维人脸方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种基于大脑启发式的文本驱动三维人脸方法,涉及三维人脸动画驱动技术,针对现有技术中缺乏文本驱动的问题提出本方案。获取三维人脸网格序列样本等信息并划分为训练集和测试集;建立文本驱动三维人脸动画整体模型;训练模型以同时生成三维动态人脸以及合成语音;获取性能最好的文本驱动三维人脸动画整体模型与大规模预训练语言模型连接,建立基于大脑启发式的文本驱动三维人脸动画模型;将文本描述输入基于大脑启发式的文本驱动三维人脸动画模型,输出指定的三维人脸动画。优点在于,借助大规模预训练语言模型,利用文本‑语音共享特征,同时回归生成三维动态人脸以及合成语音,达到增加文本生成的三维虚拟数字人脸真实性的目的。

主权项:1.一种基于大脑启发式的文本驱动三维人脸方法,其特征在于,包括以下步骤:S1.获取三维人脸网格序列样本,音频文件,与音频文件对应的语料,划分为训练集和测试集;S2.建立文本驱动三维人脸动画整体模型,所述文本驱动三维人脸动画整体模型包括文本编码器、文本合成语音模型、文本生成三维人脸动画模型、语音特征提取器;训练文本驱动三维人脸动画整体模型以同时生成三维动态人脸以及合成语音;S3.根据测试集样本衡量文本驱动三维人脸动画整体模型的性能,并获取性能最好的模型;S4.将性能最好的文本驱动三维人脸动画整体模型与大规模预训练语言模型连接,建立基于大脑启发式的文本驱动三维人脸动画模型;S5.将文本描述输入基于大脑启发式的文本驱动三维人脸动画模型,输出指定的三维人脸动画;所述步骤S2包括以下子步骤:S21.将语料输入文本编码器,得到文本-语音共享特征;S22.将文本-语音共享特征输入文本合成语音模型,得到合成语音波形;在合成语音与原始语音样本之间构建损失函数,通过梯度下降法不断训练优化模型,得到文本合成语音模型;S23.将文本-语音共享特征输入文本生成三维人脸动画模型,进一步提纯文本-语音共享特征,自回归预测三维人脸网格序列;在预测的三维人脸网格序列与原始的三维人脸网格序列样本之间构建损失函数,通过梯度下降法不断训练优化模型,得到文本生成三维人脸动画模型;S24.将原始语音输入预训练的语音特征提取器,得到语音特征;计算语音特征与文本生成三维人脸动画模型中进一步提纯的文本-语音共享特征的KL散度损失,通过梯度下降法不断训练优化模型。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于大脑启发式的文本驱动三维人脸方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。