买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中央民族大学
摘要:本发明公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的referenceencoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。
主权项:1.一种基于Transformer的个性化藏语语音合成方法,其特征在于,包括以下步骤:获取不同藏语文本,并将所述藏语文本分别转写成拉丁字母,得到拉丁字母文本集;获取不同的音频数据,分别通过给定的说话人语音提取出说话人特征,得到语音梅尔频谱图集;构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出合成的语音梅尔谱;其中,所述藏语语音合成模型包括:编码器模块、解码器模块、reference编码器、位置编码和Post-Net网络层;其中,将所述拉丁字母文本集传递给所述编码器模块,通过所述编码器模块进行卷积、批处理、归一化、ReLU激活以及Dropout操作,最终的ReLU激活后由所述位置编码保持中心一致性,得到一个文本嵌入textembedding;同时,输入的语音梅尔频谱图集经过所述reference编码器,通过所述reference编码器提取说话人的个性特征,通过与文本嵌入textembedding加和实现说话人特征嵌入;同时,输入的语音梅尔频谱图集传递给所述解码器模块,经过所述解码器模块得到带有新语音特征的梅尔谱,再经过所述Post-Net网络层得到带有说话人特征嵌入的个性化藏语语音梅尔谱;所述编码器模块包括:编码器前馈网络和第一自注意力机制运算块;所述编码器前馈网络的输入是拉丁字母文本集,所述编码器前馈网络包括:三层卷积层,归一化层、ReLU激活层以及一个dropout层;所述第一自注意力机制运算块包括6层相同的第一子模块堆叠,每个第一子模块的结构相同,均包括多头自注意力层和前馈神经网络层;所述解码器模块包括解码器前馈网络和第二自注意力机制运算块;所述解码器前馈网络的输入是语音梅尔频谱图集,所述解码器前馈网络包括两层全连接神经网络,其中,第一层网络以ReLU为激活函数做非线性运算,第二层没有激活函数;所述第二自注意力机制运算块包括6层相同的第二子模块堆叠,每个第二子模块的结构相同,均包括多头自注意力层、前馈神经网络层以及带Masked标记的多头注意力层;所述第一自注意力机制运算块和所述第二自注意力机制运算块学习参考嵌入referenceembedding和随机初始化嵌入库中每个令牌之间的相似度,其中,每组嵌入embedding用令牌嵌入tokenembeddings表示,在所有训练序列中共享,输出一组组合权重,表示每个风格标记对参考嵌入referenceembedding的贡献,所述组合权重用风格嵌入styleembeddings表示,并传递给所述模块编码器。
全文数据:
权利要求:
百度查询: 中央民族大学 一种基于Transformer的个性化藏语语音合成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。