首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于遍历声母韵母及整体发音的训练的口型对齐方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中新金桥数字科技(北京)有限公司

摘要:本发明涉及数字人发音与口型的对齐方法领域,提供了一种基于遍历声母韵母及整体发音的训练的口型对齐方法,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块;本发明通过发音波形相似性,计算出最大相似性口型,从而有利于解决现有技术中数字人所有发音都要训练,进而产生巨大训练成本等问题,同时通过AI知识训练知识图谱大模型,节省大量人力标注,且模型具有学习能力可能比人标注更准确。

主权项:1.一种基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块和数据库;所述原始发音采集和口型计算过程包括以下步骤:S1:口型定位:通过采集设备采集一个人沉默时的口型图,并进行栅格处理,将其转换为空间坐标,得到该人物的原始口型数据;S2:音频采集:通过采集设备采集一个人的所有声母与韵母的所有发音音频及对应的口型变化图,得到该人物的原始发音数据;S3:获取并存储发音波形图:将采集到的发音音频进行波形分析,获取音频的波形图,并将波形图存储在数据库中;S4:计算波形图的数值:计算模块对波形图进行数值计算,提取出与口型相关的特征,并将特征数据存储在数据库中;S5:人类口型复制:通过对比分析已存储的声母和韵母发音音频及口型变化图,将人类口型通过空间坐标的映射,转换为数字人口型的坐标,并存储该数字人口型的坐标;所述数字人口型获取过程包括以下步骤:S1:人类再发音采集:选择一个人类发音的文字片段,该片段之前没有进行口型空间坐标映射的记录;S2:语音波形分析:通过音频采集设备,获取该文字片段的发音音频,并在计算模块中进行波形分析,得到音频的波形图;S3:波形图相似度:将计算得到的波形图与原始发音采集和口型计算过程中存储的声母和韵母发音波形图进行匹配,找出最匹配的声母和韵母发音;S4:口型空间映射:根据匹配结果,找到之前存储的对应的声母和韵母的口型图空间坐标,并利用这些坐标的信息将数字人口型进行展示;所述采集设备为摄像设备和录音机设备,且所述口型图为一系列连续的图像帧或离散的关键帧;所述摄像设备获取一个人在沉默时的口型图像,然后对口型图像进行栅格处理,将其转换为空间坐标,以表示口型在空间中的位置,同时,录音设备采集一个人发出的声母和韵母的各种发音音频;为了记录口型在不同发音阶段时的空间坐标,我们将整个时间段分成4个等分,并选择其中3个等分的开始点进行图像采集;采集到的发音音频使用傅里叶变换FFT波形分析方法进行波形分析,以获取音频在时间上的变化情况,并得到音频的波形图;傅里叶变换的公式如下:Fω=∫ft·e^-iωt·dt其中,ft为一个非周期函数,Fω为该函数在频域上的表示,e^-iωt为复指数函数,ω为角频率;所述波形图用x轴上下对称的二维直方图表示,并按照所述直方图盖度变化统计计算波形图的数值;所述口型相关的特征包括音频的频谱信息和能量信息,所述能量信息指的是声音的强度或振幅;所述计算模块的计算方式是通过RMSE均方根误差计算两个波形数值的数值差值,差值最小,则表示相似度最大,即表示匹配度最高;RMSE计算公式如下:RMSE=sqrt1NxΣi=1toNxi-yi^2其中,x和y分别表示两个波形序列的样本值,N表示样本点的总数。

全文数据:

权利要求:

百度查询: 中新金桥数字科技(北京)有限公司 一种基于遍历声母韵母及整体发音的训练的口型对齐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。