恭喜华侨大学周浩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜华侨大学申请的专利一种基于改进Tacotron2模型的中文音节语音合成方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119049448B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411555105.3,技术领域涉及:G10L13/027;该发明授权一种基于改进Tacotron2模型的中文音节语音合成方法与系统是由周浩;马贺阳;戴朝;王华珍设计研发完成,并于2024-11-04向国家知识产权局提交的专利申请。
本一种基于改进Tacotron2模型的中文音节语音合成方法与系统在说明书摘要公布了:本发明公开了一种基于改进Tacotron2模型的中文音节语音合成方法与系统,涉及语音合成技术领域,方法包括如下步骤:构建并训练中文音节语音合成模型;将待合成的音素音频输入训练好的中文音节语音合成模型以实现语音合成;所述中文音节语音合成模型包括:音节音频初始嵌入模块,编码模块、注意力感知模块、预网络、注意力模块、解码模块、后置网络层和线性频谱转换层。本发明可利用声韵母音频合成未有汉字载体的中文音节发音的音频,通过这种方法,即使某些发音没有对应的汉字也能够通过组合声母、韵母和声调来合成相应的音节,这不仅能够丰富中文语音合成的技术和应用,还能够为语言学研究提供新的工具和视角。
本发明授权一种基于改进Tacotron2模型的中文音节语音合成方法与系统在权利要求书中公布了:1.一种基于改进Tacotron2模型的中文音节语音合成方法,其特征在于,包括如下步骤:构建基于改进Tacotron2模型的中文音节语音合成模型;采用包括音素音频和音节音频的数据集训练中文音节语音合成模型;将待合成的音素音频输入训练好的中文音节语音合成模型以实现语音合成;所述中文音节语音合成模型包括:音节音频初始嵌入模块,接收音节音频,输出音节音频初始嵌入矩阵用于训练中文音节语音合成模型;编码模块,接收音素音频,输出音素音频初始嵌入矩阵和编码隐藏状态;注意力感知模块,接收音素音频初始嵌入矩阵、编码隐藏状态、预网络序列以及解码隐藏状态,计算并输出上下文向量和注意力隐藏状态,其中,音素音频初始嵌入矩阵用于控制中文音节语音合成模型何时停止预测;预网络,接收上一个时间步的解码隐藏状态,输出预网络序列到注意力感知模块;解码模块,接收当前时间步的注意力隐藏状态,计算出解码隐藏状态,并利用线性投影层将解码隐藏状态转换为学习梅尔频谱特征;后置网络层,接收学习梅尔频谱特征,输出梅尔频谱特征矩阵;线性频谱转换层,接收梅尔谱特征矩阵,输出语音波形;所述编码模块获得音素音频初始嵌入矩阵的过程,包括以下步骤:接收中文音素音频语音序列,包括第一韵母语音序列第二韵母语音序列和声母语音序列以第一韵母语音序列作为输入序列X0,经过一系列操作得到输出P作为第一韵母低频音素频谱特征序列Pfv;以第二韵母语音序列作为输入序列X0时,经过一系列操作得到输出P作为第一韵母低频音素频谱特征序列Psv;以声母语音序列作为输入序列X0时,经过一系列操作得到输出P作为声母低频音素频谱特征序列Pit;对声母低频音素频谱特征序列Pit、第一韵母低频音素频谱特征序列Pfv和第二韵低频音素频谱特征序列Psv进行拼接,得到音素音频初始嵌入向量矩阵Pc={Pit,Pfv,Psv};所述一系列操作包括:输入序列X0={x0[1],x0[2],...,x0[n],...,x0[N]}通过预加重滤波器补偿高频部分在发声过程中的能量损失,表示为:x[n]=x0[n]-αx0[n-1];其中,x[n]是x0[n]预加重后的信号,α表示预加重滤波器的系数;其中,1≤n≤N,代表第n个采样点,N代表采样点的个数;将预加重后的信号分割成多个帧,相邻帧之间有一部分重叠,表示为:xk[t]=x[k-1·Q+t],t=0,....,T-1;1≤k≤K; 其中,xk[t]表示分割后的第k帧音频信号,K表示分割后的总帧数;t是帧内的样本点索引,T为帧内样本点总数;Q为帧移;对分割后的音频信号进行加窗操作,表示为:xk,wt=x[k-1·Q+t]·wt; 其中,xk,wt是第k帧加窗后信号,wt表示窗函数;对加窗后信号进行快速傅里叶变换得到频谱信号,表示为: 其中,Xk[f]表示第k帧频谱信号;频率索引f=1,2,...,fmax,fmax是FFT的窗口大小;j是虚数单位;计算每帧频谱信号在频率索引f处的功率谱密度Rk[f],表示为:Rk[f]=|Xk[f]|2;使用一组梅尔滤波器对每帧的功率谱密度进行滤波,获得帧频谱特征序列PI[k],遍历所有帧,得到音素频谱特征序列PI={PI[1],PI[2],...,PI[K]};根据DCT系数筛选得出低频音素频谱特征序列
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华侨大学,其通讯地址为:362000 福建省泉州市丰泽区城东城华北路269号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。