买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于语音驱动的数字人构建方法,通过改进wav2lip模型的音频编码器、人脸编码器以及人脸解码器,用深度可分离卷积DSC和时频分解机制TFD优化音频编码器,减少模型的参数数量与计算量,同时增强模型捕捉关键特征的能力。通过添加特征金字塔FPN进一步提升人脸编码器对多尺度面部信息的处理能力,尤其是在捕捉嘴型动作和面部表达的细微变化方面的能力。此外,采用多尺度生成策略提高人脸解码器输出图像的清晰度和细节表现。整体系统还包括一个音唇同步判别器和视觉质量判别器,分别用于确保唇形动作与音频的高度同步和优化生成图像的视觉质量,从而实现更自然、更精确的数字人交互体验。
主权项:1.基于语音驱动的数字人构建方法,其特征在于,包括如下步骤:步骤1:获取中文唇语视频数据集,并进行预处理,得到预处理后的中文唇语视频数据集;步骤2:构建生成器,由wav2lip音频编码器、wav2lip人脸编码器、wav2lip人脸解码器三个模块构成;对wav2lip音频编码器改进,利用深度可分离卷积和时频分解机制优化音频编码器,用于获取音频特征;步骤3:对wav2lip人脸编码器添加特征金字塔FPN,用于获取唇形特征;步骤4:对wav2lip人脸解码器采用多尺度生成策略提高人脸解码器输出图像的清晰度和细节表现,用于将输入的音频信号和提取的面部特征,包括面部身份和姿势信息结合起来,生成准确匹配输入音频的唇部动作;步骤5:构建wav2lip音唇同步判别器,判断生成的视频帧中的唇部动作是否与输入的音频信号同步;步骤6:构建wav2lip视觉质量判别器,评估生成的视频帧的整体视觉质量,包括清晰度、颜色保真度以及是否存在视觉伪影,确保生成的结果既真实又高质量;步骤7:将预处理后的中文唇语视频数据集输入wav2lip网络中进行训练。
全文数据:
权利要求:
百度查询: 淮阴工学院 基于语音驱动的数字人构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。