买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于姿势对抗网络的人脸视频生成方法及系统,涉及图像处理技术领域,方法包括:构建人脸视频生成模型,包括图像编码器、音频编码器、头部运动预测模块、姿势编码器和解码器,所述人脸视频生成模型接收人脸图像和语音音频,生成人脸说话视频;获取训练数据集并对人脸视频生成模型进行预训练;构建唇型同步判别器作为判别器,对预训练人脸视频生成模型进行生成对抗训练;利用训练好的人脸视频生成模型实现人脸视频生成。本发明利用音频信号的动态特性对头部运动进行建模,并结合生成对抗网络与唇型同步判别器提高人脸视频的唇形同步精度,同时兼顾视频的逼真度,使得其更加真实、自然,从而为各种应用场景提供了更多的灵活性。
主权项:1.一种基于姿势对抗网络的人脸视频生成方法,其特征在于,包括:构建人脸视频生成模型,包括图像编码器、音频编码器、头部运动预测模块、姿势编码器和解码生成模块,所述人脸视频生成模型接收人脸图像和语音音频,图像编码器对人脸图像提取图像特征,音频编码器对语音音频提取语音特征,头部运动预测模块结合人脸图像和语音音频预测头部姿势序列,姿势编码器对头部姿势序列提取姿势特征;解码生成模块接收图像特征、语音特征、头部姿势序列和人脸图像,生成人脸说话视频;获取具有正面人脸的人脸说话视频并进行预处理,获得人脸图像和语音音频作为训练数据集;利用训练数据集对人脸视频生成模型进行预训练,获得预训练人脸视频生成模型;构建唇型同步判别器作为判别器,对预训练人脸视频生成模型进行生成对抗训练,获得训练好的人脸视频生成模型;利用训练好的人脸视频生成模型,根据输入的人脸图像和语音音频生成人脸说话视频;所述头部运动预测模块将头部运动建模为刚性的六自由度运动,采用双向长短期记忆网络预测连续的头部姿势序列;所述双向长短期记忆网络预测连续的头部姿势序列,包括以下步骤:接收人脸图像和语音音频,对人脸图像提取图像特征作为初始空间特征,将语音音频根据时间步骤分解为若干个音频ai;对于每个时间步骤i,使用编码器EA从音频ai中提取音频特征,对该音频特征与时间步骤i-1处的空间特征ei-1进行级联;i=1时,空间特征ei-1为初始空间特征;将级联的音频特征与空间特征输入到双向长短期记忆网络,得到当前空间特征ei;使用解码器ED将ei解码为头部姿势R7表示头部姿势包括7个维度,其中,3个维度表示旋转,3个维度表示平移,1个维度表示缩放;将所有时间步骤的头部姿势作为预测头部姿势序列输出。
全文数据:
权利要求:
百度查询: 华侨大学 一种基于姿势对抗网络的人脸视频生成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。