买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南昌航空大学;江西睿创科技有限公司;联想新视界(南昌)人工智能工研院有限公司
摘要:一种虚拟谈话数字人生成方法,包括:S1,基于获取的真实录像的谈话视频,通过编码器结合语音特征分离出身份特征和脸部表情特征;S2,将脸部表情特征编码到隐变量空间中,得到谈话视频中的每一帧图像对应的表情隐变量表示;S3,在得到表情隐变量表示后,通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量;S4,解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频;S5,根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组;S6,对谈话头像视频和动作组进行融合,得到全身的虚拟谈话数字人。本发明能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人。
主权项:1.一种虚拟谈话数字人生成方法,其特征在于,包括以下步骤:S1,基于获取的真实录像的谈话视频,通过编码器结合语音特征分离出身份特征和脸部表情特征;S2,将脸部表情特征编码到隐变量空间中,得到谈话视频中的每一帧图像对应的表情隐变量表示,所述隐变量空间是一个可学习的面部表情表征字典,代表面部运动的合集;S3,在得到表情隐变量表示后,通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量;S4,解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频,通过基于图像分块的对抗网络来提升图像质量;S5,根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组;S6,对谈话头像视频和动作组进行融合,得到全身的虚拟谈话数字人;步骤S1具体包括:S11,将获取的真实录像的谈话视频分离出每一帧图像,将每一帧图像中的人像根据眼部位置及嘴部位置裁剪并对齐头像位置,以得到多个谈话头像图片;S12,对得到的谈话头像图片提取对应的音频信号特征,根据音频信号特征和对应身份的无表情头像图片获取表情掩码特征;S13,编码器根据获取的表情掩码特征分离谈话头像图片的身份特征和脸部表情特征;步骤S2具体包括:S21,设计一个可学习的面部表情表征字典,将获取到的脸部表情特征投影到该面部表情表征字典的线性组合空间中;S22,联合优化面部表情表征字典及其线性组合系数,使面部表情表征字典能最大程度表示脸部表情特征,从而得到谈话视频中的每一帧图像对应的表情隐变量表示,进而得到包含了所有面部表情的动作合集;步骤S3具体包括:S31,根据步骤S2获取到的每一帧图像对应的表情隐变量表示,将其聚合到谈话视频的面部表情表征字典空间中作为训练时的监督;S32,获取谈话视频中的每一帧图像的对应的音频信号特征,设计一个基于注意力机制的Transformer神经网络,其输入为每一帧和其前面所有的图像对齐的音频信号特征,输出为这一帧图像的面部表情表征字典空间的拟合结果,迭代训练该神经网络,使拟合结果与步骤S31中的结果误差达到最小;S33,将谈话视频中的谈话音频输入到循环神经网络中,获取到谈话音频的表情隐变量,在测试时,将任意一段音频输入到神经网络中,获取到该音频未在面部表情表征字典空间中的表情隐变量。
全文数据:
权利要求:
百度查询: 南昌航空大学 江西睿创科技有限公司 联想新视界(南昌)人工智能工研院有限公司 一种虚拟谈话数字人生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。