首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于统计语言模型得分规整的语音识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院声学研究所;北京中科信利技术有限公司

摘要:本发明一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型;步骤2将待识别语音进行第一遍解码,得到L条候选语音s;步骤3利用步骤1的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性,能够有效的提升语音识别的正确率。

主权项:1.一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;步骤2将待识别语音进行第一遍解码,得到L条候选语音s;步骤3利用步骤1的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果;所述步骤1具体包括:步骤1-1确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型,记为kgramLM;步骤1-2采用步骤1的训练数据分别训练k+1gramLM,k+2gramLM,…,2k-1gramLM;给定训练语句W=w1,…,wT,T是语句W的长度,单词wt,1=t=T的kgram历史是kgramLM利用语句s中每个单词的kgram历史计算语句W的概率: 步骤1-3训练0skipkgramLM,1skipk+1gramLM,…,k-2skip2k-2gramLM;其中,iskipkgramLM,ik,i,k为正整数;为改进的统计N元文法语言模型;iskipkgramLM的具体定义如下:单词wt的iskipkgram历史是iskipkgramLM利用语句W中每个单词的iskipkgram历史计算语句W的概率:

全文数据:一种基于统计语言模型得分规整的语音识别方法及系统技术领域本发明涉及语音识别领域和自然语言处理领域,特别涉及一种基于统计语言模型得分规整的语音识别方法及系统。背景技术传统的统计语言模型LanguageModel,LM建模目标是学习训练数据的分布,即如何在给定正确的历史词序列的条件下,更加精确预测未来的词。对于统计N元文法语言模型NgramLM,国内外研究者已提出多种数据平滑DataSmoothing算法,例如加法平滑算法、古德-图灵Good-Turning平滑算法、Katz平滑算法、Witten-Bell平滑算法、Kneser-Ney平滑算法等。以上数据平滑算法可以归为插值Interpolation与回退Back-off两类,其目标都是利用有限的训练数据建立更符合真实数据分布的概率分布模型。对于基于神经网络NeuralNetwork的语言模型,尚未有学者提出有效的数据平滑算法,而是利用神经网络对历史词汇的低维表示隐含的对数据进行平滑。在语音识别中,语言模型作用的条件与其训练条件存在较大差异。在语音识别解码过程中,语言模型依赖的历史序列中包含由识别错误引入的非正确词汇序列。此处非正确词汇序列是指不符合语法、语义规则的词汇序列,正确的词汇序列则是符合语法、语义规则的词汇序列。而统计语言模型在训练和参数估计过程中,仅在输入正确词汇序列的条件下进行预测。因此,统计语言模型训练模式与应用目标的差异,导致了语言模型在语音识别任务中性能受限。发明内容本发明的目的在于克服现有语言模型的存在的识别错误的容错性低的缺陷,提出了一种基于统计语言模型得分规则的语音识别方法。为了实现上述目的,本发明提出了一种基于统计语言模型得分规则的语音识别方法,所述方法包括:步骤1建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;步骤2将待识别语音进行第一遍解码,得到L条候选语音s;步骤3利用步骤1的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。作为上述方法的一种改进,所述步骤1具体包括:步骤1-1确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型,记为kgramLM;步骤1-2采用步骤1的训练数据分别训练k+1gramLM,k+2gramLM,…,2k-1gramLM;给定训练语句W=w1,...,wT,T是语句W的长度,单词wt,1<=t<=T的kgram历史是kgramLM利用语句s中每个单词的kgram历史计算语句W的概率:步骤1-3训练0skipkgramLM,1skipk+1gramLM,…,k-2skip2k-2gramLM;其中,iskipkgramLM,ik,i,k为正整数;为改进的统计N元文法语言模型;iskipkgramLM的具体定义如下:单词wt的iskipkgram历史是iskipkgramLM利用语句W中每个单词的iskipkgram历史计算语句W的概率:作为上述方法的一种改进,所述步骤3具体包括:步骤3-1利用k阶统计N元语言模型计算每条候选语音s的原始语言模型得分ls,并记录该候选语音的声学模型得分as,以及语言模型缩放因子lm_sc;步骤3-2对于每一条候选语音s,根据k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型计算规整后的语言模型得分rs;步骤3-3将规整后的语言模型得分rs与原始的语言模型得分ls按照比例m进行加权,得到新的语言模型得分ps=m*rs+1-m*ls;步骤3-4重新计算每条候选语音s的得分Scores=as+lm_sc*ps。作为上述方法的一种改进,所述步骤3-2具体实现过程为:其中,Pks表示利用kgramLM计算得到的候选语音s的得分,表示利用iskipi+kgramLM计算得到的候选语音s的得分,rs表示利用规整后的语言模型计算得到的候选语音s的得分。一种基于统计语言模型得分规整的语音识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。本发明的优点在于:1、本发明的方法提供的语言模型得分规整算法,在语音识别应用中,对于识别错误具有良好的容错性,即依据包含解码错误的词历史序列依然可以稳健的对当前词进行预测;从而能够有效的提升语音识别的正确率;2、本发明的方法与传统的统计语言模型数据平滑算法具有叠加性,即可以进一步提升平滑后的语言模型的性能;3、本发明的方法可应用于基于加权有限状态转换器WeightedFiniteStateTransducer,WFST的一遍解码过程中,只需要将各个kgramLM、iskipkgramLM按照一般的方法插值后,建立WFST解码图即可。附图说明图1为本发明的一种基于统计语言模型得分规整的语音识别方法流程图。具体实施方式下面结合附图和实施例对本发明的方法进行详细说明。如图1所示,一种基于统计语言模型得分规整的语音识别方法,包括:步骤1建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;步骤1-1确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型kgramLM;步骤1-2采用步骤1的训练数据分别训练不同阶数的统计N元文法语言模型:k+1gramLM,k+2gramLM,…,2k-1gramLM;给定训练语句W=w1,...,wT,T是句子长度单词,wt1<=t<=T的kgram历史是wt的iskipkgram历史是:kgramLM利用语句W中每个词的kgram历史计算语句W的概率:步骤1-3训练0skipkgramLM,1skipk+1gramLM,…,k-2skip2k-2gramLM;其中,iskipkgramLMik,i,k为正整数指一种改进的统计N元文法语言模型;iskipkgramLM的具体定义如下:iskipkgramLM利用语句W中每个词的iskipkgram历史计算语句W的概率:例如给定句子“一二三四五上山打老虎”,0skip3gramLM在预测词汇“老虎”时,依赖历史词汇“上山”,而3gramLM在预测词汇“老虎”时,依赖历史词汇“上山”和“打”。步骤2将待识别语音进行第一遍解码,得到L条候选语音s;步骤3利用kgramLM计算每条候选语音的原始语言模型得分ls,声学模型得as,以及语言模型缩放因子lm_sc;步骤4对于每一条候选语音s,按照如下公式计算规整后的语言模型得分:其中,Pks表示利用kgramLM计算得到的候选语音s的得分,表示利用iskipi+kgramLM计算得到的候选语音s的得分,rs表示利用规整后的语言模型计算得到的候选语音s的得分;步骤5将规整后的语言模型得分rs与原始的语言模型得分ls按照比例m0m1加权,得到新的语言模型得分ps=m*rs+1-m*ls;步骤6重新计算每条候选语音s的得分Scores=as+lm_sc*ps;步骤7选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。实例:本实例采用英文Switchboard公开数据集,利用kaldi语音识别工具搭建识别系统,SRILM工具训练统计语言模型。Switchboard数据集包含Dev和Hub5两个测试集,其中Hub5又包含switchboardSWB和callhomeCH两个子集。1.搭建基线识别系统:声学模型为3层LSTM-RNN神经网络模型,语言模型为采用Kneser-Ney平滑的2gram统计语言模型KN2。2.抽取100候选:利用基线识别系统对测试集Dev和Hub5分别进行解码,并对每条测试语音保留前100候选。记录每条候选的原始语言模型得分l和声学模型得分a,以及语言模型缩放因子lm_sc。一般来说,一个语音测试集包含若干条测试语音。3.训练规整后的语言模型得分所需的辅助模型:依据发明内容步骤1-2中的公式,规整2gram语言模型的得分,需要训练3gram语言模型和0skip2gram语言模型。4.计算规整后的语言模型得分:依据发明内容步骤4中的公式和步骤4中的模型可以计算得到每条测试语音每条候选规整后的语言模型得分r。5.重新计算候选语言模型得分:选取权重比例m=0.5,依据发明内容步骤5中公式计算新的语言模型得分ps=0.5*rs+0.5*s。6.重新计算候选总分:取语言模型权重因子lm_sc=9,计算每条测试语音每条候选的最终得分Scores=as+9*ps。对于每条测试语音,选取Score最高的候选作为重估解码结果。7.计算重估结果的识别错误率:对Dev、HUB5、SWB、CH,分别依据各自的参考答案语音转录文本,计算重估结果的识别词错误率WordErrorRate,WER,具体结果见表1。其中,KN2表示2gram基线语言模型,KN2-r表示规整后的2gram语言模型。表1:2-gramLM得分规整前后的识别词错误率DevHub5SWBCHKN216.421.216.126.1KN2-r15.920.615.425.6最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

权利要求:1.一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;步骤2将待识别语音进行第一遍解码,得到L条候选语音s;步骤3利用步骤1的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。2.根据权利要求1所述的基于统计语言模型得分规整的语音识别方法,其特征在于,所述步骤1具体包括:步骤1-1确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型,记为kgramLM;步骤1-2采用步骤1的训练数据分别训练k+1gramLM,k+2gramLM,…,2k-1gramLM;给定训练语句W=w1,...,wT,T是语句W的长度,单词wt,1<=t<=T的kgram历史是kgramLM利用语句s中每个单词的kgram历史计算语句W的概率:步骤1-3训练0skipkgramLM,1skipk+1gramLM,…,k-2skip2k-2gramLM;其中,iskipkgramLM,ik,i,k为正整数;为改进的统计N元文法语言模型;iskipkgramLM的具体定义如下:单词wt的iskipkgram历史是iskipkgramLM利用语句W中每个单词的iskipkgram历史计算语句W的概率:3.根据权利要求2所述的基于统计语言模型得分规整的语音识别方法,其特征在于,所述步骤3具体包括:步骤3-1利用k阶统计N元语言模型计算每条候选语音s的原始语言模型得分ls,并记录该候选语音的声学模型得分as,以及语言模型缩放因子lm_sc;步骤3-2对于每一条候选语音s,根据k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型计算规整后的语言模型得分rs;步骤3-3将规整后的语言模型得分rs与原始的语言模型得分ls按照比例m进行加权,得到新的语言模型得分ps=m*rs+1-m*ls;步骤3-4重新计算每条候选语音s的得分Scores=as+lm_sc*ps。4.根据权利要求3所述的基于统计语言模型得分规整的语音识别方法,其特征在于,所述步骤3-2具体实现过程为:其中,Pks表示利用kgramLM计算得到的候选语音s的得分,表示利用iskipi+kgramLM计算得到的候选语音s的得分,rs表示利用规整后的语言模型计算得到的候选语音s的得分。5.一种基于统计语言模型得分规整的语音识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~4所述方法的步骤。

百度查询: 中国科学院声学研究所 北京中科信利技术有限公司 一种基于统计语言模型得分规整的语音识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。