Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多线索相互蒸馏和自蒸馏的连续手语识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河北工业大学;天津理工大学

摘要:本发明为基于多线索相互蒸馏和自蒸馏的连续手语识别方法,包括获取手语视频,从手语视频中提取脸部、左手手部以及右手手部视频并进行预处理,从视频中提取空间特征,再从空间特征中提取具有短期时间联系的手语词级特征,从手语词级特征中提取具有长期时间联系的上下文级特征,再利用全连接层和激活函数,获得归一化的分类概率矩阵;基于获得的分类概率矩阵构建总损失函数,并训练神经网络;将训练后的神经网络用于预测手语,并输出手语标签。该方法利用了原始手语图像中的脸部信息和手部信息,通过相互蒸馏的方式充分利用脸部信息和手部信息的知识,解决了局部信息利用不充分的问题,提高了神经网络的泛化能力;通过自蒸馏的方式增加了神经网络中不同模块之间的协调性。

主权项:1.一种基于多线索相互蒸馏和自蒸馏的连续手语识别方法,其特征在于,该方法包括以下内容:获取手语视频,从手语视频中提取脸部、左手手部以及右手手部视频;对手语视频、脸部视频、左手手部视频和右手手部视频进行包括随机裁剪、随机翻转和归一化在内的预处理;将手语视频输入到残差网络Resnet50中进行特征提取,得到全局空间特征;将脸部视频、左手手部视频和右手手部视频输入到残差网络Resnet18中,得到脸部空间特征、左手手部空间特征和右手手部空间特征;将左手手部空间特征和右手手部空间特征按照第二个维度进行拼接,得到手部空间特征;利用一维卷积模块分别从全局空间特征、脸部空间特征和手部空间特征中提取具有短期时间联系的全局手语词级特征、脸部手语词级特征和手部手语词级特征;一维卷积模块由一维卷积和时序最大池化构成,一维卷积模块的结构为Conv1D,MaxPooling1D,Coonv1D,MaxPooling1D,Conv1D为卷积核大小为5的一维卷积,MaxPooling1D为大小为2的时序最大池化;从全局手语词级特征、脸部手语词级特征和手部手语词级特征中提取具有长期时间联系的全局上下文级特征、脸部上下文级特征和手部上下文级特征,再利用全连接层和softmax激活函数,获得归一化的全局分类概率矩阵、脸部分类概率矩阵、手部分类概率矩阵和全局手语词级分类概率矩阵;基于获得的分类概率矩阵,构建总损失函数,训练神经网络;总损失函数包含链接时序分类损失函数、多线索相互蒸馏损失和自蒸馏损失三部分;将训练后的神经网络用于预测手语,并输出手语标签;链接时序分类损失函数的构建过程为:将全局分类概率矩阵Yfull、脸部分类概率矩阵Yface、手部分类概率矩阵Yhand和全局手语词级分类概率矩阵Ygloss分别与手语对应的真实标签l输入到各自的链接时序分类网络,得到预测概率;输入为全局分类概率矩阵Yfull的预测概率Pl|Yfull、输入为脸部分类概率矩阵Yface的预测概率Pl|Yface、输入为手部分类概率矩阵Yhand的预测概率Pl|Yhand和输入为全局手语词级分类概率矩阵Ygloss的预测概率Pl|Ygloss表达为如下公式33~36所示; 公式33~36中,Π=π1,…,πi,…πs表示所有可能路径的合集,pΠ|Yfull、pΠ|Yface、pΠ|Yhand和pΠ|Ygloss分别表示输入为Yfull、Yhead、Yhand和Ygloss时输出路径Π的概率,B是一种多对一的映射,用于去除路径Π中的空标签和重复标签;为了最大化预测概率,链接时序分类网络使用预测概率的对数的负数作为损失函数,则链接时序全局分类损失链接时序脸部分类损失链接时序手部分类损失和链接时序全局手语词级分类损失表达为如下公式37~40所示; 公式37~40中,log·表示以自然数e为底数的对数函数;综上,链接时序分类网络损失函数共包含四部分的损失,表达为如下公式41所示; 多线索相互蒸馏损失的构建过程为:利用全局分类概率矩阵Yfull、脸部分类概率矩阵Yface和手部分类概率矩阵Yhand构建KL散度损失DKL,表达为如下公式42~47所示; 公式42~47中,和分别表示全局分类概率矩阵Yfull、脸部分类概率矩阵Yface和手部分类概率矩阵Yhand中的第t个向量对应概率分布中的第m个概率值,M表示概率值数量,即全连接层输出特征大小;综上,多线索相互蒸馏损失表达为如下公式48所示; 构建自蒸馏损失的构建过程为:利用全局分类概率矩阵Yfull和全局手语词级分类概率矩阵Ygloss构建自蒸馏损失自蒸馏损失表达为如下公式49所示; 公式49中,DKLpfull||pgloss和DKLpgloss||pfull均为KL散度损失,表示全局手语词级分类概率矩阵Yaloss中的第t个向量对应概率分布中的第m个概率值;因此,整个神经网络的总损失函数为三个部分损失之和,表达为如下公式50所示; 公式50中,α和β表示用于调整损失比例的超参数。

全文数据:

权利要求:

百度查询: 河北工业大学 天津理工大学 基于多线索相互蒸馏和自蒸馏的连续手语识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。