首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

具有三维骨架正则化和表示性身体姿势的个性化语音到视频 

申请/专利权人:百度时代网络技术(北京)有限公司;百度(美国)有限责任公司

申请日:2020-06-12

公开(公告)日:2024-07-02

公开(公告)号:CN114144790B

主分类号:G06V40/20

分类号:G06V40/20;G06V10/774;G06V10/82;G06N3/0442;G06N3/0475;G06N3/08;G10L21/10;G10L25/30

优先权:

专利状态码:有效-授权

法律状态:2024.07.02#授权;2022.03.22#实质审查的生效;2022.03.04#公开

摘要:本文提出了是用于将给定的语音音频或文本转换为具有同步的、真实的、具有表现性的身体动力学的人逼真说话的视频的新颖的实施例。在一个或多个实施例中,使用递归神经网络从音频序列生成3D骨架运动,并且经由有条件的生成对抗网络合成输出视频。为了使运动逼真和具有表现性,可以在学习和测试管道中的生成过程中嵌入对关节式3D人体骨架和个人语音标志性姿势的学习字典的知识。前者防止产生不合理的身体变形,后者帮助模型利用较少的视频来快速学习有意义的身体运动。为了产生具有运动细节的逼真的高分辨率视频,在有条件的GAN中插入部分注意机制,其中每个具体部分被自动放大以具有它们自己的鉴别器。

主权项:1.一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的计算机实施的方法,包括:给定包括人说话和作姿势的输入视频,使用所述输入视频以及人体、面部和手部的关节三维3D模型来生成与所述输入视频中的所述人说话和作姿势相对应的一组3D姿势;使用神经网络模型和与所述输入视频中的所述人说话相关的语音信息来生成表示一组3D姿势的一组隐藏状态;将来自所述神经网络模型的所述一组隐藏状态与来自所述人体、面部和手部的所述关节3D模型的一组3D姿势进行比较,以训练所述神经网络模型,其中将来自所述人体、面部和手部的所述关节3D模型的一组3D姿势视为真实数据;使用所述输入视频、来自所述人体、面部和手部的所述关节3D模型的所述一组3D姿势和视频生成对抗网络GAN来训练所述视频GAN的生成网络以生成视频;以及输出经训练的神经网络和经训练的生成网络。

全文数据:

权利要求:

百度查询: 百度时代网络技术(北京)有限公司 百度(美国)有限责任公司 具有三维骨架正则化和表示性身体姿势的个性化语音到视频

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。