买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京听说科技有限公司
申请日:2024-07-24
公开(公告)日:2024-12-06
公开(公告)号:CN118553231B
专利技术分类:
专利摘要:本发明公开了一种用于多语言的语音识别方法,包括:对采集的多源数字语音信号进行预处理和特征提取,得到特征向量;将所述特征向量输入声学模型中进行解码处理,得到关于所述语音信号的文本表示;将所述文本表示输入自然语言处理模型中进行语法、语义的优化调整,得到由子序列构成的知识表示;对所述知识表示进行格式转换和纠错处理,输出最终的识别结果。本发明能够更精确地处理多源数字语音信号,并通过先进的声学模型和自然语言处理技术,有效地提高了语音识别的准确性和语义理解能力;同时,所提出的自然语言处理模型针对语法和语义进行深入的优化调整,特别是在复杂的语言环境中显示出较强的适应性。
专利权项:1.一种用于多语言的语音识别方法,其特征在于,包括:对采集的多源数字语音信号进行预处理和特征提取,得到特征向量;将所述特征向量输入声学模型中进行解码处理,得到关于所述语音信号的文本表示;所述解码处理包括:将所述特征向量作为输入,表示语音信号的特征;选择维特比算法作为解码算法进行计算;利用维特比算法对输入的特征向量序列进行解码处理,寻找最可能的文本表示序列;其解码处理的数学表达公式如下: 其中,A为文本表示序列,Viterbi·为维特比算法,为声学模型的函数表达式;所述特征向量的数学表达公式如下: 其中,N为N帧语音信号,即总帧数,v为特征向量,sit为第i帧的信号,Windowsit为对第i帧信号应用窗函数,FFT·为对信号应用的快速傅里叶变换,用于将时间域的信号转换为频域的信号,MFCC·表示从FFT变换后的频谱中提取的梅尔频率倒谱系数,即音频特征;将所述文本表示输入自然语言处理模型中进行语法、语义的优化调整,得到由子序列构成的知识表示;自然语言处理模型的数学表达公式如下:KT=O[GT,ST,LT,ET]其中,T为原始文本表示,KT为由子序列构成的知识表示,GT为语法分析函数,用于将T转换为语法结构,ST为语义分析函数,用于将T转换为语义表示,LT为预训练的语言模型,ET为学习函数,用于将T转换为高维向量表示;进行语法、语义的优化调整,包括:对输入的文本表示进行预处理,包括但不限于去除噪声、标点符号;将所述文本表示分解为单词或短语的序列;使用自然语言处理模型进行语法分析,识别句子中的各个成分,包括但不限于主语、谓语、宾语;基于语法规则进行结构分析,确保句子的结构合理;进行语义分析,理解句子的含义和逻辑关系;使用语义模型对单词或短语进行语义表示,考虑词义、上下文因素;基于语法和语义分析的结果,进行优化调整,以提高句子的表达准确性和连贯性;调整句子结构,确保语法正确性;优化单词或短语的语义表示,使之更加符合上下文和语境;对所述知识表示进行格式转换和纠错处理,输出最终的识别结果。
百度查询: 南京听说科技有限公司 用于多语言的语音识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。