首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于运动目标语义增强的多模态中学实验步骤检测方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京师范大学

摘要:本发明公开了一种基于运动目标语义增强的多模态中学实验步骤检测方法及系统,首先对视频帧预处理,通过帧差分获取运动区域,利用目标检测技术获取运动目标并使用BERT模型提取语义时序特征,再在编码器中对视频特征进行时序依赖建模获取步骤级别的视觉时序特征,在解码器中与运动目标语义特征进行融合,构建实验步骤与对应目标的联系,实现对中学实验视频中实验步骤的准确检测。本专利方法能够更有效地捕捉实验步骤的独特运动特征,有效区分不同步骤,实现了对实验步骤的准确判断,具有广阔的应用前景。

主权项:1.基于运动目标语义增强的多模态中学实验步骤检测方法,其特征在于,包括如下步骤:S1,数据预处理:对输入的中学实验视频数据进行预处理,将视频转换为视频帧序列,以每帧作为锚点中心获得16帧一组的视频帧片段;S2,语义时序特征提取:获取运动目标并使用YOLOV8获取运动目标的语义,使用BERT模型对运动目标的语义编码生成运动目标语义时序特征;S3,视频帧级别的视觉时序特征获取:使用视觉大模型VideoMAE对视频帧片段进行特征提取,获取视频帧级别的视觉时序特征;S4,步骤级别的视觉时序特征获取:将步骤S3获得的视频帧级别的时序特征输入编码器中,学习步骤级别的视觉时序特征;所述编码器中至少包括时序融合模块,将视频序列中不同帧之间的时间关系形成学习步骤级别的视觉时序特征;S5,特征融合:将步骤S4获得的步骤级别的视觉时序特征与步骤S2获得的运动目标语义时序特征输入到解码器中进行融合;所述解码器用运动目标语义特征对视觉特征进行增强,通过全连接层输出视频帧的分类结果;S6,结果输出:使用融合步骤级别的视觉时序特征与运动目标的语义时序特征的多模态特征进行分类,输出视频帧的分类结果。

全文数据:

权利要求:

百度查询: 南京师范大学 基于运动目标语义增强的多模态中学实验步骤检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。