一种用于语音特征描述的语音标注方法和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学

摘要：本发明提供一种用于语音特征描述的语音标注方法和装置，涉及语音处理技术领域，方法包括：获取原始音频数据；将所述原始音频数据输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性；其中，所述语音风格识别模型包括信号处理子模型、说话人身份识别子模型、情感标注子模型和韵律检测子模型；将所述语音风格属性和语音识别文本输入至预训练的自然语言模型中，得到所述原始音频数据对应的自然语言描述文本；其中，所述语音识别文本为：基于所述原始音频数据进行语音识别得到；所述自然语言描述文本为：对所述原始音频数据进行语音特征描述的文本。通过本发明提供的方法，形成针对原始音频数据详细和个性化的自然语言描述文本。

主权项：1.一种用于语音特征描述的语音标注方法，其特征在于，包括：获取原始音频数据；将所述原始音频数据输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性；其中，所述语音风格识别模型包括信号处理子模型、说话人身份识别子模型、情感标注子模型和韵律检测子模型；所述信号处理子模型用于识别所述原始音频数据的音高、音量和语速，所述说话人身份识别子模型用于识别所述原始音频数据的说话人年龄和说话人性别，所述情感标注子模型用于识别所述原始音频数据的情感语气，所述韵律检测子模型用于识别所述原始音频数据的重音；将所述语音风格属性和语音识别文本输入至预训练的自然语言模型中，得到所述原始音频数据对应的自然语言描述文本；其中，所述语音识别文本为：基于所述原始音频数据进行语音识别得到；所述自然语言描述文本为：对所述原始音频数据进行语音特征描述的文本；所述原始音频数据包括：原始音频；所述将所述原始音频数据输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性，包括：对所述原始音频进行语音音质增强处理，得到去噪音频，并将所述去噪音频输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性；所述将所述原始音频数据输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性，包括：将所述去噪音频输入至预训练的信号处理子模型中，得到所述原始音频数据的音高、音量和语速；将所述去噪音频输入至预训练的说话人身份识别子模型中，得到所述原始音频数据的说话人年龄和说话人性别；将所述去噪音频输入至预训练的情感标注子模型中，得到所述原始音频数据的情感语气；将所述去噪音频输入至预训练的韵律检测子模型中，得到所述原始音频数据的重音；所述语音风格识别模型还包括：话题识别子模型；所述原始音频数据还包括：所述原始音频的描述文本；所述将所述原始音频数据输入至预训练的语音风格识别模型中，得到所述原始音频数据的语音风格属性，包括：将所述原始音频的描述文本输入至预训练的话题识别子模型中，得到所述原始音频数据的话题；所述将所述语音风格属性和语音识别文本输入至预训练的自然语言模型中，得到所述原始音频数据对应的自然语言描述文本之后，所述方法还包括：获取多个基础语音数据集；将所述多个基础语音数据集输入至语音标注系统中，得到扩展语音数据集；其中，所述语音标注系统包括：所述语音风格识别模型和所述自然语言模型，所述语音标注系统用于对所述多个基础语音数据集进行语音风格属性扩展；所述将所述多个基础语音数据集输入至语音标注系统中，得到扩展语音数据集之后，所述方法还包括：基于所述扩展语音数据集对所述语音标注系统进行评估，以验证所述语音风格识别模型的属性识别准确性和所述自然语言模型的转写能力。

全文数据：

权利要求：

百度查询：清华大学一种用于语音特征描述的语音标注方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于协同强化学习的多无人机轨迹规划和数据收集方法

下一篇：一种符合CIE标准光源D照明体的LED发光装置

相关技术

一种基于协同强化学习的多无人机轨迹规划和数据收集方法

一种符合CIE标准光源D照明体的LED发光装置

压电负载的驱动控制方法、装置、空调器及介质

烘干消毒装置以及消毒柜

一种结合日志进行客户端仿真方法

一种预测纳米金属氧化物和抗生素在复合条件下迁移率的方法

一种对开机匣多向自适应浮动固定支撑夹具及其使用方法

车身总成及车辆

改性硬碳负极材料的制备方法及含其的负极片、钠离子电池

用于形成半导体器件的方法和半导体器件

一种涂层低温固化高效生产方式

用于深度学习网络的优化方法及运算系统

语音相关技术

一种用于语音特征描述的语音标注方法和装置_清华大学_202411037101.6

语音评测及语音识别方法、装置、设备及存储介质_阿里巴巴集团控股有限公司_201910496211.1

一种低延迟实时语音转文字及文字转语音传输方法_中国长江电力股份有限公司_202410950383.2

语音合成模型训练方法以及语音合成方法_北京达佳互联信息技术有限公司_202410986607.5

语音合成方法、装置、语音合成模型训练方法、装置_汉王科技股份有限公司_202410052370.3

语音合成模型训练方法、语音合成方法和装置_科大讯飞股份有限公司_202111221947.1

基于语音模型的诊断技术_科蒂奥医疗公司_202080017839.X

发酵灭菌设备语音提示控制装置_镇江鑫海自动化技术有限公司_202323495260.4

语音翻译方法、装置、电子设备_万兴科技(湖南)有限公司_202411154433.2

语音服务访问方法、系统和车辆_阿里巴巴集团控股有限公司_202011501833.8

描述相关技术

事件的描述文本预测方法、装置、设备及存储介质_平安科技(深圳)有限公司_202210082422.2

基于可提示分割模型的分割识别和文本描述方法及系统_北京智源人工智能研究院_202311676811.9

基于共同主结构的生产业务流程差异描述方法_浙江工业大学_202410800931.3

一种用于语音特征描述的语音标注方法和装置_清华大学_202411037101.6

基于语法结构嵌入学习的多样可控图像描述方法_徐州高新区安全应急装备产业技术研究院_202410882080.1

一种基于因果干预的多特征增强型图像描述方法_哈尔滨工业大学_202411149266.2

硬件描述语言代码生成方法、闪存控制器和集成电路_上海灵动微电子股份有限公司_202411345805.X

一种描述回弹效应的评估方法、系统、设备及介质_国网北京市电力公司_202310981136.4

基于模糊匹配的变电站自描述文件生成方法和系统_南京国电南自电网自动化有限公司_202410952151.0

基于标签体系的数据资产多维描述及管理方法_上海宝信软件股份有限公司_202410583220.5

特征相关技术

一种基于融合手工特征与深度特征的图像匹配方法_华南理工大学_202211296680.7

采集车辆移动特征的装置和分析车辆移动特征的系统_深圳市规划国土发展研究中心_202111374223.0

基于全局特征优化和形状特征感知聚合的车道线检测方法_闽江学院_202410851356.X

单分子光谱特征识别模型的训练方法、光谱特征识别方法_深圳湾实验室_202411365948.7

具有集成特征的软盒_泰尔茂比司特公司_202380028106.X

一种出行特征分析系统_中国城市规划设计研究院_202210636510.2

针对缺失输入特征的可缩放深度学习设计_高通股份有限公司_202380030037.6

图像特征表征方法、装置、设备、存储介质及产品_岚图汽车科技有限公司_202410999314.0

一种角色特征标签的生成方法_青岛聚看云科技有限公司_202111431633.4

园区环境大气特征气体监测仪_无锡高德环境科技有限公司_202420223012.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种用于语音特征描述的语音标注方法和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务