基于语音驱动的数字人构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于语音驱动的数字人构建方法，通过改进wav2lip模型的音频编码器、人脸编码器以及人脸解码器，用深度可分离卷积DSC和时频分解机制TFD优化音频编码器，减少模型的参数数量与计算量，同时增强模型捕捉关键特征的能力。通过添加特征金字塔FPN进一步提升人脸编码器对多尺度面部信息的处理能力，尤其是在捕捉嘴型动作和面部表达的细微变化方面的能力。此外，采用多尺度生成策略提高人脸解码器输出图像的清晰度和细节表现。整体系统还包括一个音唇同步判别器和视觉质量判别器，分别用于确保唇形动作与音频的高度同步和优化生成图像的视觉质量，从而实现更自然、更精确的数字人交互体验。

主权项：1.基于语音驱动的数字人构建方法，其特征在于，包括如下步骤：步骤1：获取中文唇语视频数据集，并进行预处理，得到预处理后的中文唇语视频数据集；步骤2：构建生成器，由wav2lip音频编码器、wav2lip人脸编码器、wav2lip人脸解码器三个模块构成；对wav2lip音频编码器改进，利用深度可分离卷积和时频分解机制优化音频编码器，用于获取音频特征；步骤3：对wav2lip人脸编码器添加特征金字塔FPN，用于获取唇形特征；步骤4：对wav2lip人脸解码器采用多尺度生成策略提高人脸解码器输出图像的清晰度和细节表现，用于将输入的音频信号和提取的面部特征，包括面部身份和姿势信息结合起来，生成准确匹配输入音频的唇部动作；步骤5：构建wav2lip音唇同步判别器，判断生成的视频帧中的唇部动作是否与输入的音频信号同步；步骤6：构建wav2lip视觉质量判别器，评估生成的视频帧的整体视觉质量，包括清晰度、颜色保真度以及是否存在视觉伪影，确保生成的结果既真实又高质量；步骤7：将预处理后的中文唇语视频数据集输入wav2lip网络中进行训练。

全文数据：

权利要求：

百度查询：淮阴工学院基于语音驱动的数字人构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种自动化组装设备

下一篇：一种用于电力运维检修的多功能检测仪器

相关技术

一种自动化组装设备

一种用于电力运维检修的多功能检测仪器

一种降低针叶材化机浆废水中树脂酸含量的方法

一种环吊桥架模块化安装方法

靶向抑制狂犬病病毒G基因和/或L基因的siRNA在制备抑制狂犬病的药物中的应用

一种小型精密轴类零件加工设备

静脉血栓栓塞症相关SNP位点检测引物组及试剂盒

一种新能源与电网交互的实时监测系统

一种基于域控模块的单节点电源管理方法及系统

线切割机砂浆热交换器更换装置及方法

一种高附着力的防腐粉末涂料及应用

分布式锁控制方法、装置、计算机设备及介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于语音驱动的数字人构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务