首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的移动充电车服务调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公开了一种基于深度强化学习的移动充电车服务调度方法,用于优化利用移动充电车对若干电动车进行充电服务时所面临的服务顺序,充电量的决策问题。所述方法主要通过移动充电车、电动汽车和控制中心之间社交关系的网络拓扑结构,根据各自的位置信息与充电需求信息,将其作为基于深度强化学习的神经网络的输入,由控制中心的神经网络经计算得出最优化的策略,实现服务调度。本发明所述方法综合考虑了移动充电车、电动汽车和控制中心之间的决策影响,最后实现高效的服务调度策略,通过神经网络得出在不同状况下的最优服务顺序和充电数量,以求消耗最少的时间和最短的路途,并达到整体充电收益最大化,从而实现节约能源和保护环境的目的。

主权项:1.一种基于深度强化学习的移动充电车服务调度方法,其特征在于:所述方法基于电动汽车向控制中心提出的充电需求信息,计算移动充电车为其充电的服务顺序和充电量,包括如下步骤:1构建关系网络模型,包括建立移动充电车、电动汽车和控制中心之间社交关系的网络拓扑结构;2根据移动充电车的充电服务信息和电动汽车的充电需求信息确定整体效益函数,所述的充电服务信息包括移动充电车的电池容量信息和当前位置信息,所述的充电需求信息包括电动汽车的位置信息、电池容量信息、初始电量、剩余电量信息和最低所需电量信息,所述整体效益函数由平均充电收益和平均服务时长确定;步骤2所述的整体效益函数对应的目标函数f表达式如下: 其中表示所有电动汽车所实际接收的电量,ρ表示充电目标,f1表示平均充电收益,f2表示平均服务时长;所述平均充电收益f1的表达式如下: 约束条件表达式包括: 其中表示第k辆电动汽车的电池容量,表示第k辆车的初始电量,表示第k辆车的实际所充电量,表示第k辆车的最低所充电量;所述平均服务时长的公式如下: 其中表示请求到达的时间,而为充电完成的时间,需要根据移动充电车的服务顺序得到,的计算公式为: 其中distρj,ρj+1表示从充电目标ρj到充电目标ρj+1的移动距离,v表示移动充电车的移动速度,ε表示移动充电车提供充电服务的充电速度;所述步骤2中,以X={x1,…,xN}表示N个电动汽车的充电需求信息,表示第i辆电动汽车的静态信息si与动态信息其中静态信息si表示在整个充电流程中不会变化的信息,包括第i辆电动汽车的所在位置、电池容量、初始电量和最低所需电量;动态信息表示在整个充电流程中会变化的信息,表示在t时刻的剩余所需电量;最初的剩余所需电量等于最低所需电量,在该辆电动汽车的最低所需电量被满足后,剩余所需电量会变为0;移动充电车的充电服务信息表示为其包括静态信息与动态信息,静态信息smcv为移动充电车的电池容量,包含移动充电车当前所在位置与剩余电池容量,所述移动充电车的位置信息随着时间变化;3构建神经网络模型并训练,将充电服务信息和充电需求信息作为输入,通过神经网络计算,输出移动充电车为电动汽车的充电服务顺序;步骤3中所述神经网络基于整体效益函数及目标函数,对最大化平均收益与最小化平均等待时间设定权重,神经网络的结构和训练过程如下:31设置一组权重λ1,…,λM,q其中表示平均收益所占权重,表示平均等待时间所占权重;32将目标函数求解问题被转换为M个优化子问题,M个子问题通过基于邻居的参数迁移策略来合作计算,在训练过程中,以前一个神经网络的训练参数作为下一个神经网络的初始参数;33在将整个充电顺序决策问题分解为M个子问题通过深度强化学习进行求解,包括通过指针网络来构建子问题,并使用Actor-Critic算法来训练网络;网络的输入为X={x1,…,xN},输出为所有电动汽车和充电车站的访问顺序Y={ρt,t=0,1,…,T}以及给每辆车的实际充电量其中T表示决策步骤的长度,ρt表示某辆电动汽车或是充电车站;其中,输入Xt会随着决策步骤的更新而变化,变化部分为不同电动汽车的电量需求与移动充电车的自身电量;34基于指针网络决策分析,采用概率链规则来确定下一个访问的目标,其目标的表达式如下: 由于前一步的访问顺序ρ1,…,ρt对当前的访问目标有影响,解码网络采用RNN结构,其中解码网络的隐藏层dt包含之前访问目标ρ1,…,ρt的信息,再加上输入的编码信息共同用于计算下一个访问目标的概率PY|X0,则下一个访问目标的编号由注意力机制得到,进而得到相关性最大的会成为下一个访问目标,其计算公式如下: Pρt+1|ρ1,…,ρt,Xt=softmaxut其中v,W1和W2是可训练参数;4控制中心调配移动充电车为电动汽车进行充电服务,并根据整体效益函数决定具体的充电量,完成充电任务。

全文数据:

权利要求:

百度查询: 南京航空航天大学 一种基于深度强化学习的移动充电车服务调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。