嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

导航：龙图腾网> 最新专利技术> 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：兰州大学

摘要：本发明涉及学习设备技术领域，尤其是一种嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置。本发明采集用户口述的待学习语句作为输入语音，通过说话人声纹识别模型从输入语音提取目标用户语音，将目标用户语音转换为拼音表达式；结合目标用户语音的拼音表达式和标准语音的拼音表达式，获取将目标用户语音纠正到标准语音的发音纠正要点并输出。本发明通过模拟沟通场景为听障人士提供在真实生活中的对话场景模拟，使得学习者在学习过程中能够更好地适应实际语境，增加学习的实用性和可操作性。本发明能实现噪音背景环境下的目标用户语音信息精准提取，避免传统方法对发音学习环境安静的要求，极大方便了听障人士随时随地进行发音学习和训练。

主权项：1.一种嘈杂环境下听障人士汉语发音计算机辅助学习方法，其特征在于：设置模拟沟通场景以及待学习语句，获取待学习语句的标准语音以及拼音表达式；采集用户说出的待学习语句作为输入语音，通过说话人声纹识别模型从输入语音提取目标用户语音，将目标用户语音转换为拼音表达式；结合目标用户语音的拼音表达式和标准语音的拼音表达式，获取将目标用户语音纠正到标准语音的发音纠正要点并输出；说话人声纹识别模型包括顺序连接的声纹特征提取模块、注意力特征提取模块和分类器，声纹特征提取模块用于从输入语音中提取符合目标用户声纹特征的语音作为说话人语音；注意力特征提取模块用于提取说话人语音的注意力特征，分类器基于注意力特征对说话人语音进行分类；说话人声纹识别模型的训练过程为：采用无监督学习方式对声纹特征提取模块进行预训练，然后组合预训练后的声纹特征提取模块、注意力特征提取模块和分类器作为基础模型，最后采用有监督学习方式对基础模型进行训练，固定收敛后的基础模型作为说话人声纹识别模型，其输入为语音数据，输出为目标用户语音；声纹特征提取模块包括顺序连接的输入层，频率特征嵌入网络和上下文特征融合网络；输入层用于提取语音数据的时域信息并窗口化处理，频率特征嵌入网络从各窗口化的时域信息中提取语音的频率特征并生成指定长度的特征向量，上下文特征融合网络用于将频率特征嵌入网络输出的所有特征向量融合为上下文特征向量；上下文特征融合网络采用多层卷积神经网络，上下文特征融合网络中卷积层的卷积核大小随着卷积层逐层递增；注意力特征提取模块包括顺序连接的卷积层、ResNet特征提取网络、注意力层和全连接层；采用无监督学习方式对声纹特征提取模块进行预训练时：在无噪音环境下采集的目标用户的语音作为正样本，对正样本进行窗口化处理后作为正样本训练数据；负样本的生成方式为：对正样本进行多频段调频以生成多个相同内容不同声纹的用户语音作为备选样本；将备选样本调频后再叠加随机噪声，形成负样本，再对负样本进行窗口化处理后作为负样本训练数据；采用有监督学习方式对基础模型进行训练时，学习样本为标注说话人标签的样本数据；样本数据为：正样本、增强后的正样本、负样本或者增强后的负样本；正负样本的增强方式包括加混响、音频调速和或频谱增强；说话人标签包括：目标用户以及非目标用户；基于预先构建的汉语语音样本数据集，获取标准语音和目标用户语音的拼音表达式；汉语语音样本数据集用于存储标注有拼音表达式的语音样本，语音样本包括标准发音样本和发音障碍者的样本，拼音表达式涵盖声母、韵母和声调；语音样本的拼音表达式通过预训练的语音转拼音模型生成，语音转拼音模型的输入为语音，输出为输入的语音的拼音表达式；语音转拼音模型包括特征提取模块、多层LSTM深度学习架构、注意力机制模块和输出层；特征提取模块、多层LSTM深度学习架构和输出层顺序连接，注意力机制模块设置在语音转拼音模型的输入端与输出层之间；特征提取模块用于提取输入语音的声学声调特征，多层LSTM深度学习架构捕捉语音特征中声学声调特征的时序关系特征，注意力机制模块基于输入语音生成表征音节和声调变化的注意力特征，输出层基于时序关系特征和注意力特征生成输入语音的拼音表达式；通过检索预先设置的发音纠错数据集获取将目标用户语音纠正到标准语音的发音纠正要点；发音纠错数据集存储有标注发音纠正要点以及参照语音向量的拼音组合，拼音组合包括待纠正语音的拼音表达式和纠正后标准语音的拼音表达式，参照语音向量为对应的拼音组合中两个拼音表达式合并后对应的标准语音的语音向量；检索发音纠错数据集时，首先获取目标用户语音的拼音表达式与标准语音的拼音表达式构成的目标拼音组合，再将目标拼音组合中的两个拼音表达式合并后向量化，作为待检索语音向量，然后根据待检索语音向量与参照语音向量的相似度进行检索；当待检索语音向量与参照语音向量的相似度达到设定的第二阈值，判断两者一致；当发音纠错数据集中不存在与待检索语音向量一致的参照语音向量时，根据以下步骤生成将目标用户语音纠正到标准语音的发音纠正要点：在发音纠错数据集中筛选N个与待检索语音向量最相似的参照语音向量所指向的发音纠正要点作为待排序发音纠正要点；结合目标用户语音和标准语音，使用预训练的重排序模型对N个待排序发音纠正要点进行重排序；将重排序后的发音纠正要点与目标用户语音、标准语音输入预训练的大语言模型，大语言模型输出最终发音纠正要点，用于将目标用户语音纠正到标准语音；发音纠正要点用于指导用户将待纠正语音的音调纠正为纠正后标准语音的音调；发音纠正要点包括针对音标、文字、词组、句子、声调和声韵的发音部位和送气方式的调整建议。

全文数据：

权利要求：

百度查询：兰州大学嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种商用电动汽车充电效率提升的装置及方法

下一篇：化合物、有机电致发光元件用材料、有机电致发光元件和电子设备

相关技术

一种商用电动汽车充电效率提升的装置及方法

化合物、有机电致发光元件用材料、有机电致发光元件和电子设备

适用于不同功能空间声场控制的音频处理系统及方法

塔式光热发电背板冲压平直度仿真模拟评价方法

一种玻璃瓶裂纹检测装置

用于对数据中心的PUE值的预测方法及系统

一种精密铜铝铸件切割装置

用于工业环境中对象的质量评估的方法和系统

一种竹浆纸制备用破碎分削切片装置

一种1-溴乙基乙酸酯的制备方法

一种热网加热器换热管泄漏在线定位系统及方法

一种多光子显微镜中光亮强度的自动调节装置

汉语相关技术

一种针对汉语语素的训练系统、方法、电子设备和存储介质_北京喜阅童乐教育科技有限公司_202411074229.X

确定汉语文本合成语音时韵律结构的方法及计算机可读存储介质_清华大学深圳国际研究生院_202111525128.6

基于现代汉语语法经济安全领域训练的语言模型构建方法_广西民族大学_202411057220.8

一种汉语盲文语音合成方法及系统_中国科学院计算技术研究所_202110749716.1

一种英语单词汉语词义对照学习装置_黑龙江生态工程职业学院(中共黑龙江省森林工业总局委员会党校)_202323505581.8

一种基于高密度皮层脑电的汉语单音节字解码及语音合成方法_复旦大学附属华山医院_202310422496.0

一种仿汉语言文学古卷的装订装置_咸宁职业技术学院_202411018604.9

一种汉语言文学古卷保护装置_姚佳俊_202420460206.1

基于神经网络模型的汉语言翻译方法及系统_烟台核一过滤设备有限公司_202410814663.0

一种基于汉语言发音的语音识别方法_成都启英泰伦科技有限公司_202411133707.X

计算机相关技术

视频处理方法、计算设备、计算机存储介质及计算机程序产品_五八畅生活(北京)信息技术有限公司_202411252623.8

降低计算机设备功耗的方法及计算机设备_惠州佳达隆电子科技有限公司_202411221757.3

订单处理方法、装置、计算机设备及计算机可读存储介质_深圳市元征科技股份有限公司_202410981799.0

资源访问方法、计算机设备以及计算机可读存储介质_广东爱智存科技有限公司_202410989557.6

一种计算机机箱_王佳音_202322596969.7

一种计算机机箱_广东省泓毅研发科技有限公司_202420510958.4

一种计算机机箱_西安方舟力特信息科技有限公司_202420422004.8

方法、装置和计算机程序_上海诺基亚贝尔股份有限公司_202080106983.0

视频剧本模板的生成方法、计算设备、计算机存储介质及计算机程序产品_五八畅生活(北京)信息技术有限公司_202411252633.1

视频生成方法、计算设备、计算机存储介质及计算机程序产品_五八畅生活(北京)信息技术有限公司_202411253353.2

发音相关技术

到多个无线音频输出设备的并发音频流式传输_苹果公司_202411095907.0

英语发音测评方法、网络参数更新方法、装置及电子设备_成都佳发安泰教育科技股份有限公司_202411355603.3

一种发音预测方法及相关装置_合肥智能语音创新发展有限公司_202410846834.8

发音准确度确定方法、装置、计算机设备及存储介质_顺丰科技有限公司_202310465432.9

一种便于清理发音孔的蓝牙耳机_湖北省云沃智能科技有限公司_202420291344.1

一种提升音素发音时长准确性的语音合成方法、装置_厦门蝉羽网络科技有限公司_202410873940.5

发音音素序列生成方法、电子设备及存储介质_广州视源电子科技股份有限公司_202310418998.6

一种大模型发音偏误检测及发音动作图像反馈方法及装置_北京语言大学_202410139244.1

一种基于语音的日语发音评测方法和系统_北京爱语吧科技有限公司_202011115349.1

一种英文发音评测方法、装置、设备和可读存储介质_广州市信息技术职业学校_202410033763.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务