首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合样本扩增和双值深度确定性策略梯度算法的充电站动态定价方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北师范大学

摘要:本发明提出了一种融合样本扩增和双值深度确定性策略梯度算法的充电站动态定价方法,即D3PGSA,以解决单个充电站的动态定价问题。该算法通过融合经验生成模型和基于特征生成模型的DBCSAN聚类方法,以及双值网络,来实现Agent策略网络的高效学习,进而实现价格的合理调控,为动态定价决策提供了坚实的理论基础。首先,经验生成模型的引入增强了用于Agent训练的样本的多样性,有效克服了传统DDPG中经验样本利需求量高问题。通过构建基于特征生成模型的DBCSAN聚类方法,模型能够在经验回放机制中更好地平衡不同类别样本的使用,以上改进使得模型在未见状态下也能做出高质量的决策。其次,本发明采用了双值网络,分别对目标值进行估计,这种设计有效减少了单一估计网络可能带来的误差,提高了模型训练的稳定性和鲁棒性。通过这些改进,D3PGSA不仅提升了模型对复杂环境的适应能力,还提高了定价策略的准确性和效率。实验结果表明,D3PGSA在大多数情况下能够灵活调整价格,以响应市场需求,获取的收益值显著优于其他算法,并且在求解速度和求解精度方面表现出色。这些优势使得D3PGSA成为充电站动态定价问题中一个高效且实用的解决方案。

主权项:1.一种融合样本扩增和双值深度确定性策略梯度算法的充电站动态定价方法,其特征在于包括下述步骤:定义:本发明提出了一种融合样本扩增和双值深度确定性策略梯度算法的充电站动态定价方法,即D3PGSA。该模型通过融合经验生成模型和基于特征生成模型的DBCSAN聚类,以及双值网络来实现Agent策略网络的有效学习,进而实现价格的合理调控,为动态定价决策提供了有效的理论基础。这些改进保证了用于Agent训练的经验样本有足够的多样性,并解决了在传统DDPG中经验样本利用率低的问题。双值网络的设计减少了单一估计网络可能带来的误差,提高了模型训练的稳定性,进而提高了定价策略的准确性。步骤1:对充电站动态定价进行问题建模。本发明构建了一个详细的模型,用于模拟EV在一天内对充电站的使用情况。模型考虑了多种因素,包括车辆的电池状态、充电需求、充电时长、用户对价格的敏感度以及用户性格差异等。在本发明中,假定充电站无法获取有关未来电动车到达情况以及未来时段电价的任何信息,包括它们的分布信息。这种情况下,充电站无法预测电动车何时到达及未来时段的需求,因此这些事件对充电站来说是非因果的。充电站动态定价问题的核心问题是确保电价在用户能接受的范围内且使得充电站所有者能获得最大收益。因此在本发明中,将充电站收益设定为优化目标,其目标函数为: 其中R表示充电站的总收益,pT-1表示T-1时刻的充电站价格,cti表示第i辆车的充电时间。考虑一个充电站在一天内的运行情况,将其划分为24个时间步,以模拟不同时段内EV的充电需求和行为。在每个时间步内,EV的产生是随机的,其数量大致符合现实情况,将每个时间步所有的EV记作集合VT。本发明分别用bsi、cti和emi表示EV的电池状态、充电时长以及车辆的紧急程度,电池状态是指剩余电量与电池总容量bci的比值,充电时长cti的计算方式为: 其中P表示充电站的充电功率。车辆紧急程度emi根据当前电池状态计算: 假设用户做充电决策时对充电价格比较敏感,因此结果将受到当前充电价格的显著影响。用户的决策模型中包含了三个关键参数:wq,wp和αi,wq表示用户在做决策时充电站的等候区排队长度的影响权重,wp表示当前价格的影响权重。此外,αi为模拟不同EV用户的性格特征而引入的参数,其服从均值为1,标准差为0.3的正态分布。wq和wp的计算公式为:wq=0.5+β×emiwq+wp=1其中β为调整紧急程度权重的参数。最终的决策结果基于这些参数计算的综合评分确定,当评分达到决策阈值ν时,则用户选择充电,若有空闲充电桩,EV直接开始充电,反之在等候区排队等待。决策函数为: 其中rq表示当前充电站等待区的占用率,pmax表示用户能接受的最高充电价格。充电站根据先来先服务原则为等候区及集合VT中的车辆进行充电,充电完成后收取充电费用计入充电站总收益。步骤2:马尔可夫决策过程建模。在充电站动态定价问题中,每个时间段的车辆到达充电站并且充电站执行定价动作可以看作是一个决策序列,本发明中将这样的定价过程建模为马尔可夫决策过程MarkovDecisionProcess,MDP,由四元组S,A,R,η表示,S表示状态空间,A为智能体的动作,R为奖励函数,η为用于探索的噪声。MDP的元素,即状态空间、动作空间、奖励函数和探索噪声定义如下:步骤2.1:状态。S表示状态空间,每个时间步的状态信息sT∈S包括充电站当前电价,充电站的充电桩占用率,等待区占有率以及当前时间步信息;在环境中,每个时间步的状态记作集合其中表示在T时间步等候区的占用率,表示在T时间步充电桩的使用率。环境在每个时间步接受Agent基于sT做出的动作aT以调整充电价格pT,这些动作将会影响未来时间步的状态演变。进一步定义环境的状态转移方式sT+1=FsT,aT,sT+1为下一个时间步的系统状态,F为状态转移函数,具体定义为: 其中为使用中的充电桩数量,为等候区的EV数量。sT+1中的信息由如下方式更新: 其中Nc为充电桩总数,Nq为等候区总车位数。步骤2.2:动作。A表示动作集合,在状态为sT时,智能体采取的动作aT∈[-0.5,0.5]表示每个时间步价格的调整方式,正数为涨价,负数为降价。Agent每次与环境交互前,首先初始化环境、转移字典等。Agent将环境在每个时间步反馈的状态sT作为模型的输入通过策略网络求出相应的定价动作aT并传递到环境。智能体的核心目标是确定一个行为策略μθ,该策略指导智能体在每个时间步不同的状态sT下采取最佳的动作aT。最终找到一个最优策略μθ*,旨在整个过程中最大化累积的折现回报。即: 其中γ为是衰减因子,用于衡量未来回报的重要性,且0≤γ<1,RT为T时间步的奖励。步骤2.3:奖励函数。R表示环境与Agent交互过程中的奖励函数,即目标值。每个时间步有车辆充电完成后都会将收益计入该步的奖励。在环境的奖励设计上,本发明引入了“延迟奖励”机制,即环境会将T-1步到达充电站的EV在T步完成充电后产生的收益作为T步的奖励RT。此设计考虑到充电站定价策略的特殊性,即充电服务的定价与车主的实际支付在时间上存在一定的延迟。这种奖励结构有助于Agent学习如何优化长期收益,而不是仅仅追求即时的经济利益。此外,这种设计还模拟了现实世界经济决策中常见的收益延迟现象,增加了模型的现实适用性。因此奖励RT的计算方式如下: 步骤2.4:探索噪声。η表示随机噪声,其取值范围为η∈[-0.5,0.5],且会随着训练次数的增加逐渐减小。由于DDPG算法采用的是确定性策略,它本身的探索仍然十分有限,所以需要在行为策略上引入一个随机噪声η来增强智能体的探索能力:aT=μθInputT+η步骤3:构建基于U-Net的经验生成模型。该核心是一个结构化的U-Net神经网络,通过综合利用时间信息和空间特征来增强数据的多样性和表示能力。模型的架构如图3所示。本发明采用了ConsistencyTrainingCT方式训练该模型。首先对输入的x添加高斯噪声: 其中tn为较早的时间点,tn+1为较晚的时间点,均属于同一个时间点序列,ti由如下公式生成: 其中ξ用于对时间尺度进行非线性变化,N为生成离散时间点的总数,Τ为时间离散化的最大范围。其次对tn进行时间编码:temb=concatsintn·freq,costn·freq其中freq为一组在对数空间中均匀分布的频率,其目的是为了将时间tn转换到一个正弦和余弦函数能够处理的形式,使得时间信息能够以一种连续周期的方式被嵌入到数据中。最后将temb和输入到模型的特征提取部分。特征提取主要用到了由多层卷积和非线性激活函数构成的模块DSC来处理数据,具体处理过程如下: 特征提取的第一层为下采样层,该层由一个二维卷积网络和3个DSC组成。通过下采样可以保留输入数据中的重要特征,同时过滤掉冗余信息。此外,在下采样过程中,每经过一层都会对进行时间嵌入操作: 同时,每隔一层对数据进行残差连接: 随着网络深度的增加,这些特征在后续的上采样过程中可能难以重建,因此在下采样层中,模型跳跃式保存了某些关键特征。特征提取的第二层为中间层,该层同样使用了DSC。经过下采样的再通过中间层加深数据特征的提取,中间层是模型中处理信息的核心,为后面的上采样过程提供了丰富的上下文信息。特征提取的第三层为上采用层,该层结构与下采样层类似。模型需要在上采样层重建接近原始输入数据的细节,因此将下采样过程中对应时间点保存的特征与当前特征进行融合,以确保在特征重建过程中既有高层的抽象信息,也有来自较低层的具体信息。其余处理方式与下采样层基本一致。模型最终的输出层通过计算权重和结合原始输入和通过网络处理后的特征,对生产的数据进行修正,增强了模型输出的细节和质量,其过程如下: 其中xori为模型原始输入。模型参数通过最小化Loss函数来拟合,Loss函数定义为: 其中λ用来对不同的时间步赋予不同的重要性,为模型的EMA版本的权重。在使用训练好的模型生成经验时,为避免生成的数据误差较大,本发明选择了5步采样方法而放弃了速度更快的1步采样。具体采样过程如26所示: 即先对给定的x加噪τn步得到通过得到output,然后再对output加噪τn步得到并输入循环执行上述操作5次即为5步采样,以此来减小生成数据的误差。步骤4:构建基于SimSiam的特征生成模型。本发明构建了基于SimSiam的特征生成模型,目的是通过无监督的学习方法,为后续的聚类操作提供有效的特征表示,其结构如图4所示。本发明对于该模型的训练方式为: ymasked=ynoised⊙1-M,M~Bernoullimask_prob首先对输入的经验样本y进行数据增强得到两个扰动的版本。其中是一个均值为0,标准差为noise_level的正态分布随机变量,I为单位矩阵,表示噪声是独立同分布的。元素M是一个伯努利随机变量,以mask_prob的概率取值1,以1-mask_prob的概率取值0。随后将两个扰动版本的ymasked1和ymasked2输入到相同的Encoder进行特征提取,得到两个不同的向量k1,k2,用一个预测网络从k1预测k2的特征,以及从k2预测k1的特征,分别得到特征向量o1,o2。最后计算这两个预测结果的对称损失余弦相似度。对称损失确保了网络不仅能从一个经验的特征准确预测另一个经验的特征,而且反过来也有同样的效果。其损失函数定义为: 其中stopgrad为一种“停止梯度”的技术,目的是防止模型陷入退化解即特征坍塌到一个常数,进一步提高学习的稳定性。D为余弦相似度,计算公式为: 保存训练好的模型参数后,Agent再将y输入特征生成模型对其进行特征表示:{o1,o2,...,ow}={fsy1,fsy2,...,fsyw}并将所有的特征记作集合O={o1,o2,...,ow},特征oi按照对应经验的索引储存在经验池中以便后续聚类使用。步骤5:构建基于聚类平衡采样的经验回放池。为了进一步提升样本的利用效率与训练效果,当Agent执行完上述样本扩增的操作后,将采用DBSCAN算法基于集合O对经验样本进行聚类。聚类过程如下:对于任一经验样本的特征o∈O,首先由以下方式确定其ε邻域:Yεo={j∈O|disto,j≤ε}其中disto,j表示o和j之间的距离。如果o的ε邻域内至少包含MinPts个点,即|Yεo|≥MinPts,|Yεo|为o的ε邻域中的数据点个数,则将该点标记为核心点。随后创建一个新簇,并将o及其邻域内的所有点标记为属于同一个簇。对邻域内的每个点进行遍历,如果存在其他核心点,则将其邻域内的所有点也标记为属于同一个簇。对于非核心点的其他样本点,由如下公式分别定义为边界点和噪声点:|Yεo|<MinPtsand|Yεo|<MinPtsandój∈O|o∈|Yεj|从任一未被标记的点开始,重复上述步骤,直到所有的点都被标记为已访问并归类到簇或标记为噪声点。此外,本发明提出了CBSampling对经验样本进行采样,即每次采样前先计算出每个簇应抽取的样本数: 其中为向下取整符,B为需要抽取的总样本数,K为聚类后的簇的数量,这样确保了每个簇中至少有一个样本被选中。根据H在每个簇中随机采样后,如果最终样本数量不足,则从整个经验池中随机补充样本,直到达到所需的样本数量。这种采样策略旨在平衡各类样本在模型训练中的出现频率,从而避免由于某些类别样本过多导致的模型偏差。通过有针对性的样本利用,增强模型对关键状态的响应能力和适应性。与此同时,Agent还会定期对后续存入经验池的新经验样本进行更新聚类。步骤6:构建基于双值深度确定性策略梯度的强化学习训练框架。为使得模型训练过程尽可能稳定,本发明构建了双值网络以减少估计误差,其结构如图5所示。完成上述所有操作的Agent会在每个时间步都更新策略网络和价值网络的参数,更新包括以下过程。Agent在当前时间步与环境完成交互后,通过CBSampling取出用于训练的经验样本,由于有两个Critic网络,因此由下面公式估计在这些经验样本中的状态sT+1下采取动作aT+1的价值: 随后根据该估值计算经验样本的时序差分目标targetT,计算公式如下:targetT=RT+γminQ1sT+1,aT+1,Q2sT+1,aT+1进而根据targetT分别计算两个网络的Loss值: 价值网络的梯度计算公式如下: 为了最大化奖励,策略网络的损失函数定义为: 其中为计算targetT时取最小值的价值网络。策略梯度计算公式如下: 此外,目标网络采用软更新的方式,即让目标网络缓慢更新,逐渐接近Critic网络及Actor网络,其公式如下: θ-←τθ+1-τθ-通常τ是一个比较小的参数,当τ=1时,等价于直接将Critic网络参数复制给目标网络。而目标网络也使用这种软更新的方式。

全文数据:

权利要求:

百度查询: 西北师范大学 一种融合样本扩增和双值深度确定性策略梯度算法的充电站动态定价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。