首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

从可视内容生成交互式音轨的系统和方法 

申请/专利权人:谷歌有限责任公司

申请日:2020-06-09

公开(公告)日:2024-07-02

公开(公告)号:CN114080817B

主分类号:H04N21/439

分类号:H04N21/439;H04N21/488

优先权:

专利状态码:有效-授权

法律状态:2024.07.02#授权;2022.03.11#实质审查的生效;2022.02.22#公开

摘要:提供了生成音轨。系统选择具有可视输出格式的数字组件对象。系统确定将数字组件对象转换为音频输出格式。系统为数字组件对象生成文本。系统基于数字组件对象的场境选择数字语音以渲染文本。系统利用由数字语音渲染的文本来构造数字组件对象的基线音轨。系统基于数字组件对象生成非话语音频提示。系统将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。系统将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。

主权项:1.一种用于生成音轨的系统,包括:包括一个或多个处理器的数据处理系统,所述一个或多个处理器用于:经由网络接收数据分组,所述数据分组包括由远离所述数据处理系统的计算设备的麦克风检测到的输入音频信号;解析所述输入音频信号以识别请求;基于所述请求,选择具有可视输出格式的数字组件对象,所述数字组件对象与元数据相关联;基于所述计算设备的类型,确定将所述数字组件对象的格式转换为音频输出格式;响应于将所述数字组件对象的格式转换为所述音频输出格式的确定,生成用于所述数字组件对象的文本;基于所述数字组件对象的场境,选择数字语音以渲染所述文本,其中选择所述数字语音包括:将所述数字组件对象的场境输入到语音模型中以生成语音特征向量,所述语音模型是由机器学习引擎利用包括音频和可视媒体内容的历史数据集来训练的;以及基于所述语音特征向量,从多个数字语音中选择所述数字语音,其中所述数字组件的场境包括以下中的至少一者:所述数字组件的文本,所述数字组件的元数据,与所述数字组件相关联的信息,以及与所述计算设备相关联的信息;利用由所述数字语音渲染的文本,构造所述数字组件对象的基线音轨;基于所述数字组件对象,生成非话语音频提示,包括:对所述数字组件对象执行图像识别,以识别所述数字组件对象中的可视对象;以及从在数据库中存储的多个非话语音频提示中选择与所述可视对象相对应的非话语音频提示;将所述非话语音频提示与所述数字组件对象的所述基线音轨相结合,以生成所述数字组件对象的音轨;以及响应于来自所述计算设备的请求,将所述数字组件对象的音轨提供给所述计算设备,以经由所述计算设备的扬声器输出。

全文数据:

权利要求:

百度查询: 谷歌有限责任公司 从可视内容生成交互式音轨的系统和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。