一种基于回译的无声语音识别方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国人民解放军军事科学院国防科技创新研究院

摘要：本发明公开了一种基于回译的无声语音识别方法和系统，方法包括：采集无声说话状态下的无声表面肌电信号；将无声表面肌电信号进行预处理和特征提取，得到无声肌电特征；将无声肌电特征送入SAEM模型得到对应的有声肌电特征；将对应的有声肌电特征送入到语音转换模型得到对应的音频特征；使用语音合成模型将对应的音频特征转化为生成的音频信号，使用语音识别模型将生成的音频信号转为文本。本发明所设计的一种基于回译的无声语音识别方法和系统，利用编码器‑解码器网络进行无声肌电信号和有声肌电信号间的转换，并且有创新性地将机器翻译中回译的方法迁移到肌电信号上，从而利用非平行数据提升无声语音识别效果，最终提升无声语音识别效果。

主权项：1.一种基于回译的无声语音识别方法，其特征在于，所述无声语音识别方法包括：采集无声说话状态下的无声表面肌电信号；将无声表面肌电信号进行预处理和特征提取，得到无声肌电特征；将无声肌电特征送入SAEM模型得到对应的有声肌电特征；将对应的有声肌电特征送入到语音转换模型得到对应的音频特征；使用语音合成模型将对应的音频特征转化为生成的音频信号，使用语音识别模型将生成的音频信号转为文本；所述SAEM模型，通过如下方式训练获得：采集无声说话状态下的无声表面肌电信号及对应的信息，采集有声说话状态下的有声表面肌电信号和对应的音频信号；对采集的无声表面肌电信号、有声表面肌电信号进行预处理和特征提取，得到无声肌电特征、有声肌电特征；将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练SAEM模型和ASEM模型；使用回译的方法优化SAEM模型；所述编码器-解码器网络为一个Seq2Seq网络，网络以Conformer为编码器、自回归循环网络为解码器；编码器由多个Conformer模块组成，Conformer模块由前馈神经网络子模块、多头注意力子模块，卷积子模块三个子模块组成，每个子模块之间使用残差连接；所述前馈神经网络子模块，包括一个LayerNorm层，一个线性层，一个Swish激活函数和Dropout，计算方式如式9所示：其中，xi表示第i个维度输入；x'i、x″i、x″′i都是中间变量；其中Swish激活函数如下所示：fx＝x·sigmoidxx是变量，sigmoid函数为所述多头注意力子模块，包括一个LayerNorm，一个相对位置编码，一个Dropout和一个自注意力机制，计算方式如式10所示：其中，xi表示第i个维度输入；x'i、x″i都是中间变量；所述卷积子模块，包括一个LayerNorm，两个point-wise卷积，一个线性门单元，一个Depth-wise卷积、一个BatchNorm和一个Dropout，计算方式如式11所示：其中，xi表示第i个维度输入；x'i、x″i、x″′i都是中间变量；整个Conformer块的计算方式如式12所示：其中，x是解码器的输入序列，x＝{x1,x2,…,xi,…xN}，xi表示第i维信号特征输入，FFN表示前馈神经网络子模块，MHSA表示多头自注意力子模块，Conv表示卷积子模块，yi表示第i维Conformer块的计算结果；x'i1、x″i1都是中间变量；解码器是一个自回归循环神经网络，由一层Pre-net网络、两层LSTM、Attention层、线性层和sigmoid组成，其计算方式如式13所示：其中，x是解码器的输入序列，x＝{x1,x2,…,xi,…xN}，x'都是中间变量，context是上下文向量，初始时被初始化为0；ha、hi是循环神经网络的隐藏向量；ca、ci是循环神经网络的记忆单元向量；s是编码器的输出，s＝{s1,s2,…,si,…sM}；frame是解码器预测的信号特征，stop_token是解码的终止条件，在进行预测时，当stop_token大于某一阈值时，就终止预测；Pre-net是双层全连接网络，每层由256个隐藏ReLU单元组成，表示为式14所示：Prenetx＝ReLUReLUxWA+bAWB+bB14其中，WA是x的权重系数，bA是xWA的偏移量，WB是ReLUxWA+bA的权重系数，bB是ReLUReLUxWA+bAWB的偏移量，ReLU·是激活函数，x是输入序列；所述将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练生成SAEM模型和ASEM模型，包括：输入进入编码器网络和输入进入解码器网络；所述输入进入编码器网络包括：输入进入Confromer模块；在Conformer模块中，输入通过前馈神经网络子模块并乘以0.5进行缩放，加上原始输入，作为多头注意力子模块的输入；然后经过多头注意力子模块后，与输入相加，作为卷积子模块输入；再通过卷积子模块提取特征信息，与卷积子模块的输入相加，作为另一个前馈神经网络子模块的输入；最后输入经过前馈神经网络子模块，与输入相加，对结果进行归一化后，获得编码器网络的输出；输入进入解码器网络包括：解码器网络的输入和编码器网络的输出一起进入解码器网络进行解码；首先解码器网络的输入进入Pre-net网络；Pre-net的输出和注意力上下文向量拼接在一起，送入第一层LSTM网络；第一层LSTM的隐藏层结果和编码器网络的输出一起送入Attention层得到注意力上下文向量，将第一层LSTM的隐藏层结果和注意力上下文向量再次拼接在一起，送入第二次LSTM网络，得到第二层LSTM网络的隐藏层向量，将隐藏层向量与注意力上下文向量拼接，通过线性层得到输出，每一帧输出通过sigmoid层得到终止值；当输入为无声肌电特征，输出为有声肌电特征时，编码器-解码器网络用于训练无声肌电到有声肌电转换的SAEM模型；当输入为有声肌电特征，输出为无声肌电特征时，编码器-解码器网络用于训练有声肌电到无声肌电转换的ASEM模型；所述使用回译的方法优化SAEM模型包括：将有声肌电特征aEmg输入ASEM模型中生成无声肌电特征sEmg'，将伪无声肌电特征sEmg'——aEmg作为伪平行语料，和原来的平行语料sEmg——aEmg一起作为训练数据，训练SAEM；使用MSELOSS作为损失优化函数；MSELOSS如下式15所示：其中，yi是真实结果，是模型预测结果，N是样本数目。

全文数据：

权利要求：

百度查询：中国人民解放军军事科学院国防科技创新研究院一种基于回译的无声语音识别方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种油茶粕提取物及其提取方法与在制备抗结肠癌药物中的应用

下一篇：使用双像素阵列的像素传感器

相关技术

一种油茶粕提取物及其提取方法与在制备抗结肠癌药物中的应用

使用双像素阵列的像素传感器

一种新型卷边手推车塑料车斗

一种新型输送对齐装置

一种电路板安装机构

一种喷油器总成压紧机构

光掩模以及半导体元件的制造方法

用于生产3-羟基己二酸和/或α-氢化己二烯二酸的基因修饰微生物以及该化学品的制造方法

成像镜头与电子装置

一种优化机器人外呼系统打断效果的方法及装置

用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

一种卫浴防滑地板切割装置

识别相关技术

近场天线及识别装置_中国铁塔股份有限公司_202410627665.9

喷墨头芯片识别电路_研能科技股份有限公司_202311075055.4

一种基于声纹数据的智能故障识别系统与识别方法_国网安徽省电力有限公司电力科学研究院_202210898430.4

一种人脸识别装置及高精准度人脸识别门禁_西安鑫诺翔电子科技有限公司_202420010021.0

基于视觉识别的灌胶自动识别方法及装置_深圳市维象智能科技有限公司_202410699125.1

语音识别模型的训练方法、语音识别方法及相关设备_马上消费金融股份有限公司_202310207425.9

目标对象的识别方法及海关综合识别评估系统_深圳市天彦通信股份有限公司_202410633075.7

设备识别匹配模型训练方法、设备识别匹配方法及设备_合肥工业大学_202410710619.5

基于图像识别的高空作业车生产缺陷识别分析系统_济宁久邦工程机械设备有限公司_202411059916.4

一种具有角度识别和图像识别的回弹仪装置_中建正大科技有限公司_202410381803.X

语音相关技术

语音识别模型的训练方法、语音识别方法及相关设备_马上消费金融股份有限公司_202310207425.9

语音合成方法、语音合成装置和可读存储介质_南京硅基智能科技有限公司_202411059814.2

语音控制方法及电子设备_华为技术有限公司_202310256205.5

动态语音辨识方法及其装置_瑞昱半导体股份有限公司_201911242880.2

语音识别装置和拾音设备_天津讯飞极智科技有限公司_202110963369.2

语音控制方法及电子设备_华为技术有限公司_202310241895.7

终端设备和语音唤醒方法_海信视像科技股份有限公司_202280085596.2

车载语音翻译系统、方法和车辆_一汽-大众汽车有限公司_202310194072.3

语音处理方法、装置及电子设备_抖音视界有限公司_202310233791.1

一种便于放置的语音遥控器_深圳市福斯特瑞祺电子有限公司_202420155988.8

方法相关技术

干燥方法_乔治费歇尔管路系统公开股份有限公司_202410236019.X

哺乳动物精子的制备方法、人工授精方法和体外受精方法_国立大学法人广岛大学_202380018296.7

喷液头、喷液装置、喷液方法、物品的制造方法、记录方法_佳能株式会社_202410225782.2

土壤气取样器、取样方法、检测方法及动态变化监测方法_河北高斯环保科技有限公司_202410801067.9

LED灯板及其制备方法、基板及其制备方法_深圳市艾比森光电股份有限公司_202410601499.5

推荐方法、推荐模型训练方法及相关装置_行吟信息科技(上海)有限公司_202410630521.9

工业程序的编译方法、运行方法及相关装置_北京和利时系统工程有限公司_202410839364.2

苦白蹄多糖制备方法、鉴定方法和应用_南开大学_202310183021.0

轻量级加密方法、解密方法、相关设备及车辆_北京邮电大学_202410739174.3

加密存储方法、解密提取方法、装置、设备及介质_苏州元脑智能科技有限公司_202410635594.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于回译的无声语音识别方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务