买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请涉及一种基于BertVits2改进的语音合成方法、系统、计算机设备和存储介质,该方法包括:采集音频数据,通过对音频数据和文本数据进行预处理,并将音频数据和文本数据进行对齐,输入到经过基于BertVits2改进的语音合成模型进行训练,得到AI语音合成模型。在模型训练过程中,对模型进了三个方面的改进,包括对注意力机制的改进、位置编码的改进以及前馈神经网络激活函数的改进,其中,对注意力机制的改进可以有效地加速模型的训练和推理速度,而位置编码的改进以及前馈神经网络激活函数的改进可以进一步提升语音合成模型对文本的上下文信息的捕捉能力,以及神经网络的学习能力,从而提升语音合成模型的性能和提高生成音频的质量。
主权项:1.一种基于BertVits2改进的语音合成方法,所述方法包括:采集音频数据并对采集后的音频数据进行预处理;将文本数据与预处理后的音频数据进行对齐,将对齐后的音频数据和文本数据输入到基于BertVits2改进的语音合成模型中进行训练;在进行模型训练过程中,通过采用Flashattention机制将参与计算的矩阵进行分块并送入到GPU静态缓存;在计算Flashattention的分块注意力子矩阵块的注意力分值时,通过旋转位置编码RoPE对词向量进行旋转,将词的位置信息编码为旋转矩阵;在所述语音合成模型的前馈神经网络中采用SwiGLU激活函数,通过门控线性单元GLU配合应用Swish变换产生最终的输出;将待合成的文本输入到训练好的语音合成模型中合成语音。
全文数据:
权利要求:
百度查询: 深圳市方直科技股份有限公司 基于Bert Vits2改进的语音合成方法、系统和计算机设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。