买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本发明涉及人工智能领域,揭露了一种语音合成方法,包括:获取训练文本,利用预构建的语音合成模型对训练文本进行位置向量编码和声音频谱编码,生成声音频谱;对声音频谱进行音高投影及持续时间投影,得到音高频谱和持续时间频谱,将音高频谱与声音频谱进行残差连接,生成残差声音频谱;将持续时间频谱和残差声音频谱进行汇总及平滑处理,得到目标声音频谱;计算目标声音频谱与对应标签值的损失值,根据损失值,调整语音合成模型的参数,得到训练完成的语音合成模型;利用训练完成的语音合成模型对待合成语音文本进行语音合成,得到合成结果。此外,本发明还涉及区块链技术,所述目标声音频谱可存储于区块链中。本发明可以提高语音合成的准确性。
主权项:1.一种语音合成方法,其特征在于,所述方法包括:获取训练文本,获取所述训练文本中的文本语句,利用预构建的语音合成模型中编码层对所述文本语句中的词语进行索引编码,得到词编码索引,对所述词编码索引构建向量矩阵,生成词向量,根据所述词向量,生成文本向量;利用所述语音合成模型中前馈注意力机制中的自注意力模块查询所述文本向量的词向量,利用所述前馈注意力机制中的卷积模块对所述词向量进行特征提取,得到特征词向量,利用所述前馈注意力机制中的编码器提取所述特征词向量的音素信息序列,利用所述前馈注意力机制中的解码器将所述音素信息序列转换成频谱信息序列,得到声音频谱;利用所述语音合成模型中音高识别模块中的卷积层对所述声音频谱进行声音频率提取,得到声音频率,利用所述音高识别模块中的全连接层对所述声音频率进行矩阵映射,得到音高频谱,利用所述语音合成模型中声音持续时间识别模块中的卷积层对所述声音频谱进行持续时间提取,得到声音持续时间,利用所述声音持续时间识别模块中的全连接层对所述声音持续时间进行矩阵映射,得到持续时间频谱,并将所述音高频谱与所述声音频谱进行残差连接,生成残差声音频谱;将所述持续时间频谱和所述残差声音频谱进行汇总,得到声音持续时间频谱;利用所述语音合成模型中的滤波函数对所述声音持续时间频谱进行平滑处理,得到目标声音频谱;利用所述语音合成模型中的损失函数计算所述目标声音频谱与对应标签值的损失值,根据所述损失值,调整所述语音合成模型的参数,直至所述损失值小于预设阈值时,得到训练完成的语音合成模型;利用所述训练完成的语音合成模型对待合成语音文本进行语音合成,得到合成结果。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。