买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本申请属于人工智能技术领域,本申请提供了一种基于音素文本的虚拟人脸构建方法、装置、计算机设备及计算机可读存储介质。本申请通过获取目标文本,并将目标文本通过预设TTS方式生成音频,将音频进行音素切分,以得到音频所对应的音素文本,将音素文本输入至预设循环神经网络模型,以得到音素文本所对应的预设真人主播的人脸特征,根据预设真人主播的人脸特征,构建音素文本所对应的预设真人主播的虚拟人脸,可直接根据输入的目标文本构建预设真人主播所对应虚拟人脸,简化了将真人主播转化成所对应的虚拟主播的生成程序,提高了虚拟主播的生成效率和准确性。
主权项:1.一种基于音素文本的虚拟人脸构建方法,其特征在于,包括:获取目标文本,并将所述目标文本通过预设TTS方式生成音频;将所述音频进行音素切分,以得到所述音频所对应的音素文本;将所述音素文本输入至预设循环神经网络模型,以得到所述音素文本所对应的预设真人主播的人脸特征;根据所述预设真人主播的人脸特征,构建所述音素文本所对应的所述预设真人主播的虚拟人脸;所述根据所述预设真人主播的人脸特征,构建所述音素文本所对应的所述预设真人主播的虚拟人脸的步骤之后,还包括:获取所述音频所包含的所有所述音素文本及所述音素文本所对应的虚拟人脸;按照所述音素文本在所述音频中的时间先后顺序,将所有所述虚拟人脸组合成视频帧序列;将所述音频与所述视频帧序列组合以得到虚拟视频;其中,所述音素是根据语音的自然属性划分出来的最小语音单位,一个发音动作构成一个所述音素;所述将所述音素文本输入至预设循环神经网络模型,以得到所述音素文本所对应的预设真人主播的人脸特征的步骤之前,还包括:获取预设真人主播所录制的训练视频样本,所述训练视频样本包括训练音频样本及所述预设真人主播的形象;将所述训练音频样本进行音素切分,以得到训练音素文本,并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征;将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型,以对所述预设循环神经网络模型进行训练;其中,所述训练视频样本的时长为2个小时至3个小时;所述将所述训练音频样本进行音素切分,以得到训练音素文本,并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征的步骤包括:获取所述训练视频样本所对应的训练音频样本;根据时间先后顺序,将所述训练音频样本按照预设音素进行音素切分,以得到按照所述时间先后顺序所排列的训练音素文本序列,所述训练音素文本序列包含若干个训练音素文本元素;按照所述时间先后顺序,从所述训练视频样本中获取所述训练音素文本元素所对应的视频帧,所述视频帧中包含所述预设真人主播的形象;提取所述训练音素文本元素所对应的视频帧中所包含的所述预设真人主播的外形特征、表情特征及姿势特征,以得到所述训练音素文本所对应的训练真人主播的人脸特征;其中,所述外形特征是指通过对人脸外形关键点的提取以描述人脸的外形,所述表情特征是指对人脸的器官特征、纹理区域和预定义的特征,所述姿势特征为人脸的姿势特点。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 虚拟人脸构建方法、装置、计算机设备及计算机可读介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。