从可视内容生成交互式音轨的系统和方法

导航：龙图腾网> 最新专利技术> 从可视内容生成交互式音轨的系统和方法

申请/专利权人：谷歌有限责任公司

申请日：2020-06-09

公开（公告）日：2024-07-02

公开（公告）号：CN114080817B

主分类号：H04N21/439

分类号：H04N21/439;H04N21/488

优先权：

专利状态码：有效-授权

法律状态：2024.07.02#授权;2022.03.11#实质审查的生效;2022.02.22#公开

摘要：提供了生成音轨。系统选择具有可视输出格式的数字组件对象。系统确定将数字组件对象转换为音频输出格式。系统为数字组件对象生成文本。系统基于数字组件对象的场境选择数字语音以渲染文本。系统利用由数字语音渲染的文本来构造数字组件对象的基线音轨。系统基于数字组件对象生成非话语音频提示。系统将非话语音频提示与数字组件对象的基线音频形式相结合，以生成数字组件对象的音轨。系统将数字组件对象的音轨提供给计算设备，以经由计算设备的扬声器输出。

主权项：1.一种用于生成音轨的系统，包括：包括一个或多个处理器的数据处理系统，所述一个或多个处理器用于：经由网络接收数据分组，所述数据分组包括由远离所述数据处理系统的计算设备的麦克风检测到的输入音频信号；解析所述输入音频信号以识别请求；基于所述请求，选择具有可视输出格式的数字组件对象，所述数字组件对象与元数据相关联；基于所述计算设备的类型，确定将所述数字组件对象的格式转换为音频输出格式；响应于将所述数字组件对象的格式转换为所述音频输出格式的确定，生成用于所述数字组件对象的文本；基于所述数字组件对象的场境，选择数字语音以渲染所述文本，其中选择所述数字语音包括：将所述数字组件对象的场境输入到语音模型中以生成语音特征向量，所述语音模型是由机器学习引擎利用包括音频和可视媒体内容的历史数据集来训练的；以及基于所述语音特征向量，从多个数字语音中选择所述数字语音，其中所述数字组件的场境包括以下中的至少一者：所述数字组件的文本，所述数字组件的元数据，与所述数字组件相关联的信息，以及与所述计算设备相关联的信息；利用由所述数字语音渲染的文本，构造所述数字组件对象的基线音轨；基于所述数字组件对象，生成非话语音频提示，包括：对所述数字组件对象执行图像识别，以识别所述数字组件对象中的可视对象；以及从在数据库中存储的多个非话语音频提示中选择与所述可视对象相对应的非话语音频提示；将所述非话语音频提示与所述数字组件对象的所述基线音轨相结合，以生成所述数字组件对象的音轨；以及响应于来自所述计算设备的请求，将所述数字组件对象的音轨提供给所述计算设备，以经由所述计算设备的扬声器输出。

全文数据：

权利要求：

百度查询：谷歌有限责任公司从可视内容生成交互式音轨的系统和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：轨道移动式电动汽车充电系统

下一篇：气缸盖加工用的焊接工装

相关技术

轨道移动式电动汽车充电系统

气缸盖加工用的焊接工装

具有触摸传感器的透明显示装置

一种直流电机配件输送装置

线束加工输送装置

用于驱动器载体的手柄的闩锁组件

一种智能动感投影灯光装饰灯画灯箱

母座连接器、电子设备和母座连接器的制作方法

一种单组份水性丙烯酸涂料及其制备方法

一种金属钒的制备方法及金属钒

一种基于无人机高精度巡检的火灾检测方法

一种排泄物、垃圾燃烧发电系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

从可视内容生成交互式音轨的系统和方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务