买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:吉林大学
摘要:本发明公开了一种基于多模态大模型的家务助理机器人,属于机器人控制、自然语言处理、计算机视觉的交叉领域,包括:静态场景处理模块、动作模块和控制模块;静态场景处理模块用于扫描工作环境,并对工作环境进行3D建模;动作模块用于实现机器人的水平方向的运动,以及对物体的交互动作;控制模块用于控制动作模块的动作,并基于多模态大模型LLaVa‑13B构建监督模型,基于监督模型对动作进行评价,再基于评价结果对动作进行调整。本发明的机器人对家用场景的泛化能力更强,比如家用场景中对特定物体的捡取、擦拭清洁、整理等任务高效的执行,在积累特定任务数据后,扩展机器人的能力,极大的提高用户的生活幸福指数。
主权项:1.一种基于多模态大模型的家务助理机器人,其特征在于,包括:静态场景处理模块、动作模块和控制模块;所述静态场景处理模块用于扫描工作环境,并对工作环境进行3D建模;所述动作模块用于实现所述机器人的水平方向的运动,以及对物体的交互动作;所述控制模块用于控制所述动作模块的动作,并基于多模态大模型LLaVa-13B构建监督模型,基于所述监督模型对所述动作进行评价,再基于评价结果对所述动作进行调整;所述静态场景处理模块包括:场景扫描单元、模型构建单元和物体识别单元;所述场景扫描单元用于扫描工作环境,得到环境信息;所述模型构建单元用于基于所述环境信息进行3D建模,得到环境3D模型;所述模型构建单元还用于在动作模块完成动作后,更新环境3D模型;所述物体识别单元用于基于所述环境信息识别场景中的物体,并获取物体的映射信息;所述物体识别单元的工作流程包括:利用SAM算法对物体的进行识别,得到物体的识别结果;基于所述识别结果计算物体间的欧式距离,并基于计算结果进行聚类;基于聚类结果进行voxel区域分割建图,得到若干区域voxel;利用CLIP-Fields模型构建与所述区域voxel相关的语义向量,得到物体的所述映射信息;所述动作模块包括:运动单元和机械臂单元;所述运动单元用于实现所述机器人水平方向的运动,以到达工作位置;所述机械臂单元用于完成对物体的交互动作;所述控制模块包括:动作指令生成单元、路径规划单元和动作指令评价单元;所述动作指令生成单元用于基于用户指令和所述映射信息,从所述工作环境的3D模型中筛选出目标物体,并确定目标物体位置;所述路径规划单元用于基于所述环境3D模型和所述目标物体位置,生成最优路线,并生成控制指令控制所述运动单元,实现所述机器人向目标物体运动到达指定位置;所述动作指令生成单元还用与基于所述用户指令生成机械臂操作指令,并控制所述机械臂单元完成对所述目标物体的交互动作;所述动作指令评价单元用于构建监督模型,并利用所述多模态大模型LLaVa-13B对所述监督模型进行微调,基于微调后的所述监督模型对所述交互动作进行评价,判断所述机械臂是否正确执行指令,若判断为执行失败,则向所述动作指令生成单元发出重新执行指令;所述生成机械臂操作指令的流程包括:基于用户指令和所述映射信息,从所述工作环境的3D模型中筛选出目标物体,并确定目标物体位置;通过大语言模型对所述用户指令进行分解,得到完成指令的低级指令技能X;对于所述低级指令技能X,给定一个低级技能x∈X,对应描述语言为lX,低级技能x的指令为i;计算低级技能x的语言描述lx∈lX,得到能执行的指令操作,根据大语言模型得到低级技能x对应似然公式;迭代选择低级技能x并将其附加到操作指令中,得到所述机械臂操作指令。
全文数据:
权利要求:
百度查询: 吉林大学 一种基于多模态大模型的家务助理机器人
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。