买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市视壮科技有限公司
摘要:本申请设计计算机技术领域,提供一种基于视频流的远程教育监督方法及其系统,方法包括:对获取到的待处理视频流数据进行过滤,得到目标视频流数据;接收辅助教育设备发送的手部肢体各个肢体节点的节点坐标,对手部肢体各个肢体节点的节点坐标进行拟合,得到人体形态特征;将人体形态特征输入至动作识别网络,得到动作识别网络输出的动作识别结果;接收音频采集设备发送的用户音频数据,对用户音频数据进行声学识别,得到用户音频特征;将用户音频特征输入至情绪识别模型中,得到情绪识别模型输出的情绪识别结果;基于目标视频流数据、动作识别结果和情绪识别结果进行远程教育监督。本申请提供的远程教育监督方法提高了远程教育监督的准确性。
主权项:1.一种基于视频流的远程教育监督方法,其特征在于,包括:实时获取预设区域的待处理视频流数据;对所述待处理视频流数据进行过滤,得到目标视频流数据;接收辅助教育设备发送的手部肢体各个肢体节点的节点坐标,并对所述手部肢体各个肢体节点的节点坐标进行拟合,得到人体形态特征;所述手部肢体各个肢体节点的节点坐标是所述辅助教育设备的多个肢体传感器采集得到的;将所述人体形态特征输入至动作识别网络,得到所述动作识别网络输出的动作识别结果;所述动作识别网络是基于样本人体形态特征及其对应的动作识别结果训练得到;接收音频采集设备发送的用户音频数据,并对所述用户音频数据进行声学识别,得到用户音频特征;将所述用户音频特征输入至情绪识别模型中,得到所述情绪识别模型输出的情绪识别结果;所述情绪识别模型是基于样本用户音频特征及其对应的情绪识别结果训练后得到;基于所述目标视频流数据、所述动作识别结果和所述情绪识别结果进行远程教育监督;其中,所述对所述待处理视频流数据进行过滤,得到目标视频流数据,包括:获取所述待处理视频流数据中的任一帧视频流数据;基于特征属性模型对任一帧视频流数据进行过滤,得到所述目标视频流数据;特征属性模型是基于样本图像及其属性标签训练得到的;特征属性模型包括特征提取子模型和特征分类子模型;特征提取子模型包括第一特征提取层、语义分割层、特征融合层和第二特征提取层;第一特征提取层包括人体特征检测子层和深度特征提取子层;相应地,所述基于特征属性模型对任一帧视频流数据进行过滤,得到所述目标视频流数据,包括:基于所述人体特征检测子层对任一帧视频流数据进行人体特征检测,得到人体特征框;基于所述深度特征提取子层对任一帧视频流数据的人体特征框所在区域的图像特征进行深度特征提取,得到人体初始特征;基于所述语义分割层对任一帧视频流数据的人体初始特征进行语义分割,得到人体分割特征;所述人体分割特征用于表征任一帧视频流数据中人体所在的区域内每个像素点属于人体或者属于人体中某个部位的概率;基于所述特征融合层将任一帧视频流数据的人体分割特征和人体初始特征进行逐像素点乘,得到人体目标特征;基于所述第二特征提取层对任一帧视频流数据的人体目标特征进行人体特征提取,得到人体特征属性;基于所述特征分类子模型对任一帧视频流数据的人体特征属性进行属性分类,得到属性识别结果;根据任一帧视频流数据的属性识别结果对任一帧视频流数据进行过滤,得到所述目标视频流数据;所述多个肢体传感器包括弧度传感器、指尖传感器、腕关节传感器和肘关节传感器;所述弧度传感器用于采集手指与腕关节间的弧度和弯曲度,所述指尖传感器用于采集手指坐标,所述腕关节传感器用于采集腕关节坐标,所述肘关节传感器用于采集肘关节坐标;所述对所述手部肢体各个肢体节点的节点坐标进行拟合,得到人体形态特征,包括:基于所述手指坐标和所述腕关节坐标,计算手指与腕关节之间的轴长;基于手指与腕关节之间的弧度、弯曲度和轴长,确定手掌轮廓;基于所述腕关节坐标和所述肘关节坐标,确定前臂肢体与所述辅助教育设备在水平方向的肢体夹角;将所述手掌轮廓和所述肢体夹角进行拟合,得到人体形态特征;所述基于所述手指坐标和所述腕关节坐标,计算手指与腕关节之间的轴长,包括:根据5个手指坐标和所述腕关节坐标,分别计算5个手指坐标与腕关节之间的距离;根据5个手指坐标与腕关节之间的距离进行计算,得到手指与腕关节之间的轴长,手指与腕关节之间的轴长的计算公式为: ;其中,(,,)为腕关节坐标,(,,)为小指坐标,(,,)为无名指坐标,(,,)为中指坐标,(,,)为食指坐标,(,,)为拇指坐标;所述对所述用户音频数据进行声学识别,得到用户音频特征,包括:对所述用户音频数据进行声学识别,提取出所述用户音频数据中的音频特征向量和待处理音频语句,并对所述待处理音频语句进行分词,基于预设词向量模型获取所述待处理音频语句的音频词向量;将所述音频特征向量输入至音频识别模型,得到所述音频识别模型输出的音频嵌入向量;所述音频识别模型是基于样本音频特征向量及其对应的音频嵌入向量训练得到;将所述音频词向量输入至文字识别模型,得到所述文字识别模型输出的词嵌入向量;所述文字识别模型是基于样本音频词向量及其对应的词嵌入向量训练得到;将所述音频嵌入向量和所述词嵌入向量输入至向量融合模型中进行融合,得到所述用户音频特征;相应地,所述向量融合模型包括语义信息提取层、音频信息提取层和特征融合层;所述将所述音频嵌入向量和所述词嵌入向量输入至向量融合模型中进行融合,得到所述用户音频特征,包括:基于所述语义信息提取层对所述词嵌入向量进行平均池化和最大池化,得到池化结果,将所述池化结果进行拼接,得到词信息特征;基于所述音频信息提取层对所述音频嵌入向量按照预先设定的多个组合音频长度分别进行组合,得到多个组合音频向量集;对所述多个组合音频向量集中的各个组合音频向量分别进行卷积操作,对卷积结果分别进行平均池化和最大池化,拼接平均池化和最大池化的池化结果,得到音频信息特征;不同组合音频向量集中的组合音频向量具有不同的组合词长度;基于所述特征融合层将所述词信息特征和所述音频信息特征进行融合,得到所述用户音频特征;所述将所述用户音频特征输入至情绪识别模型中,得到所述情绪识别模型输出的情绪识别结果,包括:将所述用户音频特征输入至所述情绪识别模型中,得到所述情绪识别模型输出的所述用户音频特征在各个情绪结果上的概率分布;所述情绪结果包括疑惑情绪结果和反问情绪结果;获取所述用户音频特征在各个情绪结果上的概率分布中数值最大的目标概率值;若确定所述目标概率值大于或者等于预设阈值,则确定所述情绪识别模型输出的情绪识别结果为疑惑情绪结果;若确定所述目标概率值小于所述预设阈值,则确定所述情绪识别模型输出的情绪识别结果为反问情绪结果;所述目标视频流数据中的属性识别结果包括静坐姿态识别结果和站立姿态识别结果;所述动作识别结果包括举手姿势识别结果和平放手部姿势识别结果;所述情绪识别结果包括疑惑情绪结果和反问情绪结果;所述基于所述目标视频流数据、所述动作识别结果和所述情绪识别结果进行远程教育监督,包括:若确定所述属性识别结果为静坐姿态识别结果,且所述动作识别结果为举手姿势识别结果,且所述情绪识别结果为疑惑情绪结果,则基于远程AI引擎模拟进行解答并确定解答后的结果;若确定所述属性识别结果为静坐姿态识别结果,且所述动作识别结果为举手姿势识别结果,且所述情绪识别结果为反问情绪结果,则接入远程在线老师进行解答并确定解答后的结果;若确定所述属性识别结果为静坐姿态识别结果,且所述动作识别结果为平放手部姿势识别结果,且所述情绪识别结果为疑惑情绪结果,则基于远程AI引擎模拟进行解答;若确定所述属性识别结果为静坐姿态识别结果,且所述动作识别结果为平放手部姿势识别结果,且所述情绪识别结果为反问情绪结果,则接入远程在线老师进行解答;若确定所述属性识别结果为站立姿态识别结果,则远程控制提示设备发出静坐的提示信息。
全文数据:
权利要求:
百度查询: 深圳市视壮科技有限公司 基于视频流的远程教育监督方法及其系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。