恭喜西安电子科技大学广州研究院梁雪峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安电子科技大学广州研究院申请的专利一种跨模态唇语识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113851131B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110941080.0,技术领域涉及:G10L15/25;该发明授权一种跨模态唇语识别方法是由梁雪峰;黄奕洋设计研发完成,并于2021-08-17向国家知识产权局提交的专利申请。
本一种跨模态唇语识别方法在说明书摘要公布了:本发明提供了一种跨模态唇语识别方法,包括S1,数据预处理:获取视频数据的嘴唇区域和音频数据的特征矩阵;S2,模型训练:依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛;S3,模型部署:仅输入待识别的非训练数据视频序列,使用视觉识别分支获取说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下,能够提取到具有更好可区分性的视觉特征,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。
本发明授权一种跨模态唇语识别方法在权利要求书中公布了:1.一种跨模态唇语识别方法,其特征在于,包括:S1,数据预处理:对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;S2,模型训练:S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征,然后进行音视频跨模态对比学习;S23,仅输入音频序列,去除说话人音色特点,标准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;S3,模型部署:仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学广州研究院,其通讯地址为:510700 广东省广州市黄埔区中新知识城海丝中心B5、B6、B7栋;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。