首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于可变时间常数梯度算法的综合能源系统优化调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了基于可变时间常数梯度算法的综合能源系统优化调度方法。该方法首先基于综合能源系统经济调度特性建立马尔可夫决策过程模型,并建立目标优化函数。然后应用双延迟深度确定性策略梯度算法构建并训练神经网络,在更新目标网络前确定有效经验,根据当前回合的奖励值为与上一轮软更新时的奖励值的大小,设置可变时间常数,使目标网络的更新权重能根据当前系统状态灵活调节,从而显著增强模型的训练效率,减少计算资源的消耗。最后使用训练好的智能体进行综合能源系统日内调度,从而实现综合能源系统最优经济成本运行。本方法在复杂多变的综合能源系统环境中,帮助模型更快的适应新情况,做出更好的决策,有助于综合能源系统的推广应用。

主权项:1.基于可变时间常数梯度算法的综合能源系统优化调度方法,建立综合能源系统模型,将针对该模型的优化调度过程描述为一个马尔可夫决策过程,其特征在于:以运行综合能源系统运行成本最小为目标,应用双延迟深度确定性策略梯度算法训练神经网络,在对目标网络进行软更新前,对当前回合的奖励值rt与上一轮软更新时的奖励值rt-3进行比较,设置可变时间常数τt: 其中τt-3为上一轮更新使用的可变时间常数,τ0=0.005,ρ为时间常数变化量;t表示目标网络当前回合的更新时刻,t-3表示目标网络上一回合的更新时刻;根据可变时间常数τt进行目标策略网络和目标价值网络的更新:φ’t=τtφ’t-3+1-τtφ’tθ’i_t=τtθ’i_t-3+1-τtθ’i_t其中,φ’t、θ’i_t分别表示当前轮次更新后的目标策略网络参数和目标价值网络参数,φ’t-3、θ’i_t-3分别表示上一轮次更新的目标策略网络参数和目标价值网络参数;使用训练后的神经网络进行综合能源系统日内调度,从而实现综合能源系统最优经济成本运行。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 基于可变时间常数梯度算法的综合能源系统优化调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。