买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:之江实验室
摘要:本发明公开了一种计算机集群的NPU容错调度系统,基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑,实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态,实现了考虑硬件亲和性和实时负载的任务调度。此外,系统针对推理任务和训练任务提出了不同的容错机制,能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式,本发明的系统在资源利用效率、实时性、自适应性等方面有了显著提升,更适应大规模、复杂的计算环境。
主权项:1.一种计算机集群的NPU容错调度系统,其特征在于,所述系统包括若干节点组成的多节点集群拓扑,其中一个所述节点为一个具有卡群拓扑的计算机设备,所述卡群拓扑由若干NPU卡组成,所述NPU卡支持健康度查询和运行状态查询,其中所述健康度为NPU卡正常运行的能力,根据处理深度学习任务时的性能参数评估得到,运行状态是指NPU卡的实时计算资源使用率、存储资源使用率和温度信息;所述节点分为控制节点和工作节点;所述工作节点上运行有节点状态收集单元,所述节点状态收集单元用于周期性收集NPU卡的运行状态和健康度;所述控制节点上运行有任务调度单元,所述任务调度单元用于在NPU卡状态异常的条件下,根据所述节点状态收集单元收集的运行状态和健康度信息,结合自身存储的已分配任务,节点列表,对任务进行调度;其中,所述任务调度单元中的任务分为深度学习推理任务和深度学习训练任务,并针对以下两种类型错误进行容错:在高辐射环境下单事件翻转带来的瞬时错误;由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启的宕机错误;对于所述深度学习推理任务在高辐射环境下单事件翻转带来的瞬时错误,所述任务调度单元的容错调度包括如下步骤:对于接收到的一个新的深度学习推理任务,所述任务调度单元在任务队列中进行该深度学习推理任务的拷贝,以确保任务的三模冗余执行;根据所述深度学习推理任务所对应的待部署模型的最小资源要求,筛选当前空闲资源大于等于所述最小资源要求的NPU卡并根据当前的工作负载从低到高排序生成备选NPU卡列表;若所述备选NPU卡列表的长度小于3,则结束容错调度,该深度学习推理任务在所述任务队列中继续等待;反之则基于NPU卡的工作负载和NPU卡之间的亲和度,使用贪心算法选择NPU卡组合并将所述待部署模型部署到所述NPU卡组合上;若三张选定的NPU卡分布在不同的工作节点上,则选择其中一个工作节点作为主控节点,如果都在相同的工作节点,则由该工作节点作为主控节点;所述主控节点接收所述深度学习推理任务的输入数据,并将所述输入数据分发到三张NPU卡上的模型,每张NPU卡完成推理后将各自的结果返回给主控节点,所述主控节点收集三个推理结果,并通过多数投票机制来确定最终的推理结果。
全文数据:
权利要求:
百度查询: 之江实验室 一种计算机集群的NPU容错调度系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。