CN116128543B

CN116128543B - 一种售电公司负荷申报与出清的综合模拟运行方法及系统

Info

Publication number: CN116128543B
Application number: CN202211622614.4A
Authority: CN
Inventors: 梁波; 杨明; 员江洋; 王鑫; 张海静; 王旭东; 孙小斌; 李函奇; 王所钺; 王孜旭; 刘畅; 冯延坤
Original assignee: Shandong University; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Current assignee: Shandong University; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2024-05-24
Anticipated expiration: 2042-12-16
Also published as: CN116128543A

Abstract

本发明公开一种售电公司负荷申报与出清的综合模拟运行方法及系统，包括：根据获取的电力市场出清信息，以最小化售电公司综合成本为目标，构建马尔科夫决策模型；采用双深度Q网络算法，得到售电公司负荷申报最优策略；以最小化电力系统运行成本为目标，考虑系统约束、机组约束和网络安全约束，构建市场出清模型，根据售电公司负荷申报最优策略，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略。采用双深度Q网络算法智能化模拟售电公司的负荷申报决策行为；通过提供市场出清模型，在市场出清模型中嵌入数据驱动的决策策略，以降低售电公司在市场交易中的出清成本。

Description

一种售电公司负荷申报与出清的综合模拟运行方法及系统

技术领域

本发明涉及电力市场技术领域，特别是涉及一种售电公司负荷申报与出清的综合模拟运行方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

面对各类售电公司参与电力市场交易的新形势，研究智能决策方法，对于售电公司优化自身行为策略，实现收益最大化以及电力市场资源的优化配置具有十分重要的意义和价值。

在电力市场环境中，售电公司直接参与市场交易，并通过改变自身决策行为来降低购电成本；其主要业务是在各个交易市场中进行电能采购，并以零售的方式出售给各类终端用户。其中，售电公司通常情况下向用户提供固定价格的电力供应，费率的调整并不频繁。在此背景下，为了保证自身收益，售电公司必须在满足用户需求的基础上，最小化电力采购的成本，维持平均购电价格低于售电价格。因此，售电公司面临的主要挑战是波动的电力价格与随机的用户负荷需求。

国内外许多学者对售电公司的购电决策进行了研究，系统的介绍了电力市场不确定性下的决策问题。研究主要包括负荷预测、购电策略和零售定价策略等。负荷预测是售电公司做出最优决策的基本依据；但是，在实际电力市场中，由于数据质量的限制和许多变量的影响，负荷预测的精度仍然是售电公司的难题。

电能采购过程是决策的关键步骤，并且国内外在这一相关领域有许多研究成果，主要集中在采购过程中的影响因素分析以及采购优化策略制定。但是在不同情况下，上述方法缺乏通用性。

零售定价策略是零售商提高盈利能力的核心挑战之一，但现有方法的实现需要依赖于固定模型，且缺乏适应复杂和动态环境的能力。

发明内容

为了解决上述问题，本发明提出了一种售电公司负荷申报与出清的综合模拟运行方法及系统，采用双深度Q网络算法智能化模拟售电公司的负荷申报决策行为；通过提供市场出清模型，在市场出清模型中嵌入数据驱动的决策策略，以降低售电公司在市场交易中的出清成本。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种售电公司负荷申报与出清的综合模拟运行方法，包括：

根据获取的电力市场出清信息，以最小化售电公司综合成本为目标，构建马尔科夫决策模型，并制定售电公司的状态空间、动作空间和累计奖励函数；

对马尔科夫决策模型采用双深度Q网络算法，生成售电公司代理的动作值，经迭代训练至售电公司代理的累计奖励最大，得到售电公司负荷申报最优策略；

以最小化电力系统运行成本为目标，考虑系统约束、机组约束和网络安全约束，以构建市场出清模型；

根据售电公司负荷申报最优策略，采用市场出清模型，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略。

作为可选择的实施方式，所述电力市场出清信息包括：当前负荷预测、日前电价、实时电价和实时负荷需求。

作为可选择的实施方式，所述市场出清模型的目标函数为：

式中：λ_i,t为发电机i单位边际成本；p_i,t为机组i在t时段出力；分别表示机组i的空载成本、启动成本和停发成本；u_i,t为机组启停状态；λ_j,t为售电公司j在t段对应的电价；q_j,t为售电公司j在t段购买电量。

作为可选择的实施方式，所述系统约束包括系统有功功率平衡约束；系统有功功率平衡约束为：

∑q_j,t-∑p_i,t＝0

其中，q_j,t为售电公司j在t段购买电量；p_i,t为机组i在t时段出力。

作为可选择的实施方式，所述系统约束包括系统旋转备用约束；系统旋转备用约束为：

其中，p_i,t为机组i在t时段出力；u_i,t为机组启停状态。

作为可选择的实施方式，所述累计奖励函数为：

式中：为售电公司d在t时段通过智能体获得的最优策略；/>为日前市场综合电价；/>为实时市场综合电价；/>为售电公司代理在日前市场获得负荷预测曲线；为实时负荷曲线；k_d为售电公司代理的动作值，M为均匀等分次数；D为售电公司集合；为实时负荷需求。

作为可选择的实施方式，所述状态空间由最新综合价格曲线、96点负荷预测曲线和历史实际负荷曲线组成；所述动作空间由售电公司代理生成的动作值组成。

第二方面，本发明提供一种售电公司负荷申报与出清的综合模拟运行系统，包括：

决策模型构建模块，被配置为根据获取的电力市场出清信息，以最小化售电公司综合成本为目标，构建马尔科夫决策模型，并制定售电公司的状态空间、动作空间和累计奖励函数；

负荷申报策略优化模块，被配置为对马尔科夫决策模型采用双深度Q网络算法，生成售电公司代理的动作值，经迭代训练至售电公司代理的累计奖励最大，得到售电公司负荷申报最优策略；

出清模型构建模块，被配置为以最小化电力系统运行成本为目标，考虑系统约束、机组约束和网络安全约束，以构建市场出清模型；

模拟模块，被配置为根据售电公司负荷申报最优策略，采用市场出清模型，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出一种售电公司负荷申报与出清的综合模拟运行方法及系统，有效地应用深度强化学习来模拟售电公司的市场报价行为，制定马尔科夫决策行为，进而形成售电公司智能报价决策系统；针对不同类型市场用户，售电公司决策模型依旧可稳定地提升决策水平；开发快速出清模型，在售电公司获得最优负荷申报策略后进行市场出清，进而对比分析自身出清成本，提高售电公司决策与出清综合系统使用效率。

本发明提出一种售电公司负荷申报与出清的综合模拟运行方法及系统，制定了基于马尔科夫决策模型的动作空间、状态空间和累计奖励函数，采用高效、可靠的双深度Q网络算法，迭代模拟售电公司代理的负荷申报决策行为。所提供基于深度强化学习的售电公司智能决策模型具备数据驱动、无模型和闭环控制等特点，不仅可以克服与精确模型相关的复杂计算和扩展性问题，还可以满足售电公司智能决策的实时要求。

本发明提出一种售电公司负荷申报与出清的综合模拟运行方法及系统，针对日前市场中的售电公司，为智能化模拟售电公司负荷申报决策行为，采用双深度Q网络算法模拟售电公司智能体决策行为，并提供数据驱动的智能决策策略；其次，提供市场出清模型，在市场出清模型中嵌入数据驱动的决策策略，以降低售电公司在市场交易中的出清成本。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的售电公司负荷申报智能决策模型实现机理图；

图2为本发明实施例1提供的基于深度强化学习的售电公司负荷申报决策与出清一体化实现原理图；

图3为本发明实施例1提供的基于深度强化学习的售电公司负荷申报决策与出清综合系统整体框架图；

图4为本发明实施例1提供的售电公司负荷申报与出清的综合模拟运行方法流程图；

图5为本发明实施例1提供的实例验证中IEEE 8节点系统拓扑结构图；

图6为本发明实施例1提供的实例验证中最新历史实时负荷曲线图；

图7为本发明实施例1提供的实例验证中历史日前、实时电价曲线图；

图8为本发明实施例1提供的实例验证中当前负荷预测曲线图；

图9为本发明实施例1提供的实例验证中训练过程的智能体累计奖励、平均奖励变化曲线图；

图10为本发明实施例1提供的实例验证中训练结束后售电公司的最优决策曲线图；

图11为本发明实施例1提供的实例验证中售电公司1的最优申报曲线与负荷预测对比图；

图12为本发明实施例1提供的实例验证中售电公司2的最优申报曲线与负荷预测对比图；

图13为本发明实施例1提供的实例验证中售电公司3的最优申报曲线与负荷预测对比图；

图14为本发明实施例1提供的实例验证中售电公司根据负荷预测获得的购电成本与基于DDQN算法的购电费用之比图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于深度强化学习的售电公司决策出清综合模拟运行方法，包括：

下面结合图1-图4对本实施例方法进行详细说明。

在本实施例中，电力市场发出的各类出清信息包括：当前负荷预测、日前电价、实时电价和实时负荷需求；

根据上述各类出清信息，以最小化售电公司综合成本为目标，构建马尔科夫决策模型，并制定售电公司的动作空间、状态空间和累计奖励函数；

对马尔科夫决策模型采用双深度Q网络(DDQN)算法，动态生成售电公司代理的动作值，迭代训练负荷申报决策曲线，直至售电公司代理的累计奖励最大，得到售电公司负荷申报最优决策曲线。

在本实施例中，在日前市场中，售电公司可以根据负荷预测、历史实时负荷、日前电价、实时电价等信息制定出负荷申报最优策略。电力市场可以看作是售电公司的竞争环境，每个售电公司都是对市场环境变化做出反应的代理人。事实上，这是典型的马尔可夫决策行为，强化学习(RL)是解决马尔可夫决策问题(MDP)的有效方法。根据售电公司负荷申报决策的特点，设计MDP模型如下：

状态空间：MDP的状态空间由电力调度机构发布的最新综合价格曲线、96点负荷预测曲线和历史实际负荷曲线组成，如式(1)所示。

动作空间：动作值是由售电公司d代理生成，其动作空间表示为：

A＝{k_d,min,...,k_d,...,k_d,max}|k_d＝(k_d,max-k_d,min)/M (2)

奖励函数：电力市场环境下，优化控制目标是最小化售电公司的长期购电成本。在当前工作中，考虑到市场发布信息的时序性，采用延迟奖励作为控制器的优化依据。

售电公司日前申报负荷曲线，即控制器输出的工作指令将指导售电公司未来一小时内的申报负荷量。由于日前市场阶段发布信息有限，在负荷申报过程中状态空间仅存在日前市场预测负荷和日前综合电价，因此在该阶段市场需结合上一时段市场发布最新的实时负荷和实时综合电价等信息，开展市场申报电量成本结算。

基于以上流程，控制器每一次动作的奖励函数为：

式中：为日前市场综合电价；/>为实时市场综合电价；/>为售电公司代理在日前市场获得负荷预测曲线；/>为实时负荷曲线；k_d为售电公司代理的动作值，M为均匀等分次数；/>为售电公司d在t时段通过智能体获得的最优策略；D为售电公司集合；为实时负荷需求。

在本实施例中，采用DDQN算法构架决策模型，利用马尔科夫决策模型，确定最优策略的学习方法，根据最优策略的学习方法模拟售电公司负荷申报最优策略。DDQN算法是一种基于Q学习和DQN的深度强化学习方法，不仅继承了Q学习的基于价值特性，而且引入了神经网络来预测行为的价值，以避免Q学习易出现的问题。此外，DDQN将选择过程和评估过程解耦，避免了Q值的过高估计问题。DDQN算法在训练过程中通过外部环境返回的奖励值来更新智能体参数。智能体通过不同的状态空间动态地选择动作值，以获得最高的奖励。

事实上，DDQN算法与DQN算法的区别体现在选择Q值的过程中。DQN总是选择目标网络的最大Q值；而DDQN首先使用式(4)从在线网络中选择具有最大Q值的动作，然后通过目标网络计算相应的目标Q值来评估动作策略，通过式(5)来进行评估，DDQN的时间差误差(TDerror)表示为式(6)。

a^*＝argmax_aQ(S_t+1,a；θ_t) (4)

式中：Q(S_t+1,a；θ_t)为由在线Q网络输出的状态S_t+1下动作a_t的当前Q值；Q(S_t+1,argmax_aQ(S_t+1,a；θ_t)；θ′_t)为目标Q网络输出的目标Q值；θ_t和θ′_t分别为在线Q网络和目标Q网络参数；γ为衰减系数；r_t+1为累计奖励值。

在DDQN算法中，为了打破样本数据间的关联关系，采用经验回放池等概率抽取样本学习并更新神经网络参数。然而，对于奖励稀疏的情况，能够激励控制器正确动作的样本较少，导致均匀采样机制的训练效率较低。因此，在抽取经验回放池样本数据进行训练时，采用优先级采样的方式，根据每个经验样本的质量确定其被采样的概率，使得优先级较高的样本被更频繁地提取学习。这种采样方式能够显著提高DDQN算法的收敛速度，减少神经网络收敛所需要的样本数量。上述过程可以定义为式(7)：

式中：P(i)是样本i处的转换优先级，具有指数幂分布特征，指数决定了优先级；可以根据TD误差的绝对值来获得；p_i可以表示为p_i＝1/rank(i)，并且rank(i)是转换的秩。

当采用优先回放的概率分布采样时，期望值的估计存在偏差。为了纠正这种偏差，通常将其乘以重要性抽样权重，如式(8)所示：

式中：N为容量重放缓冲器；β为指数值；δ_j+1通过式(6)获得；η为步长。

在本实施例中，考虑系统平衡、电网安全和机组运行的约束条件，建立市场出清模型，并在市场出清模型中嵌入上述售电公司负荷申报的决策模型，以对售电公司负荷申报最优策略进行市场出清模拟；

根据售电公司负荷申报最优策略，通过市场出清模型，进行电力市场出清模拟，得到售电公司当前出清成本，以进行对比评估；同时形成下一阶段的电力市场出清信息，以便售电公司在下一阶段制定负荷申报最优策略；用于实现市场供给量和需求量的平衡，满足用户的负荷需求，同时在满足用户负荷需求的同时，控制电网中发电机组的出力、负载的启停等电网运行策略，实现对电网供电需求和用户用电需求的平衡。

在本实施例中，基于深度强化学习的售电公司负荷申报智能决策模型，在满足售电公司申报负荷满足约束条件的同时，调整智能体动作值，使得售电公司成本最小化；同时，采用以最小化电力系统运行成本为目标的市场出清模型，在一定的调度周期内，满足所给定负荷平衡的同时并符合一定的边界条件与备用要求，合理分配机组的开停状态，使得发电成本达到最小。

在日前市场中，独立运行商首先向各售电公司发布日前市场和实时市场交易的相关信息；其次，售电公司通过智能决策模型优化自身策略并形成申报负荷曲线。然后，调用市场出清程序计算出所申报策略的交易出清结果，并同预测方法所获得交易出清结果进行对比评估。

在本实施例中，计及多类型电源接入电力系统，考虑系统平衡、电网安全以及机组运行等约束条件，建立以最小化电力系统运行成本为目标的市场出清模型；其中，目标函数表示为：

在本实施例中，市场出清模型的约束条件包括系统约束、机组约束和网络安全约束；

其中，所述系统约束包括系统有功功率平衡约束和系统旋转备用约束；

(1)系统有功功率平衡约束为：

Σq_j,t-Σp_i,t＝0 (11)

(2)系统旋转备用约束为：

所述机组约束为：

式中：i＝1,2,...,N。

所述网络安全约束为：

F_l-F_l ^M≤0 (15)

-F_l-F_l ^M≤0 (16)

式中：F_l为线路l的功率潮流；F_l ^M为线路l功率限制。

在本实施例中，所述市场出清模型采用混合整数规划建模求解，根据售电公司负荷申报最优策略，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略。

如图5所示，本实施例引入IEEE 8节点系统作为算例，验证本实施例方法的可行性。其中，每条线路传输容量设置为300MW，发电机组相关参数如表1所示，表2列出了DDQN超参数的详细信息。在动作空间中，每个售电公司代理的容量设置k_min为-50MW，k_max设置为50MW。动作空间以相等的间隔离散为20个动作，即M为20。如图6所示为售电公司的历史实时负荷，如图7所示为日前电价、实时电价，如图8所示为售电公司的预测负荷曲线。

表1发电商相关机组参数

表2 DDQN超参数

超参数	值
		E	300
T	96
		Batch size	32
经验池大小	5000
		衰减率	0.9
K	50
		α	0.6
β	0.4
		学习率	0.001

在每一次迭代中，代理在训练过程中根据外部环境返回的奖励值来调整其参数的更新，并从动作空间获得更好的动作。图9显示了奖励值随着训练次数的增加而增大，这说明代理从先前经验中获得到有效的学习。可以看出，在样本积累阶段，由于存储在经验池中的样本数量不足，Q值的评估和神经网络的训练都不理想，因此该阶段的收入较低。随着样本的积累，智能体学习不断优化，因此收入也明显地上升，并且随着训练次数的增加最终达到稳定值。这意味着智能体的参数已经收敛，可以应用到实际场景中。图10显示了售电公司的最优决策曲线。

在实际应用场景中，训练集的数据样本可被用作测试集，并截取训练稳定状态下的96点测试集作为售电公司的最优策略。为了凸显优化效果，将DDQN得到的96点最优决策曲线与负荷预测曲线进行比较，如图11-图13所示；同时，图14显示了售电公司根据负荷预测获得的购电成本与基于DDQN算法的购电费用之比。可以观察到，该比率几乎大于1，可以说明通过使用DDQN算法获得的电力购买成本通常小于使用预测方法获得的电力采购成本。因此，这表明所提出的方法可以显著提升售电公司的决策水平。

为进一步验证所提方法的性能，本实施例开展以下两个场景进行仿真，如下：(1)售电公司使用所提出的方法来优化自身策略，然后进行市场出清。(2)售电公司根据ISO发布的负荷预测曲线运行市场出清。售电公司的最优决策曲线和负荷预测曲线如图11-图13所示。售电公司在两种情况下的出清结果如表3所示，很明显，售电公司通过DDQN方法获得的电力出清成本低于使用预测方法的出清成本。

表3市场出清结果分析

实施例2

本实施例提供一种售电公司负荷申报与出清的综合模拟运行系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种售电公司负荷申报与出清的综合模拟运行方法，其特征在于，包括：

根据售电公司负荷申报最优策略，采用市场出清模型，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略；

所述市场出清模型的目标函数为：

式中：λ_i,t为发电机i单位边际成本；p_i,t为机组i在t时段出力；分别表示机组i的空载成本、启动成本和停发成本；u_i,t为机组启停状态；λ_j,t为售电公司j在t段对应的电价；q_j,t为售电公司j在t段购买电量；

所述累计奖励函数为：

式中：为售电公司d在t时段通过智能体获得的最优策略；/>为日前市场综合电价；/>为实时市场综合电价；/>为售电公司代理在日前市场获得负荷预测曲线；/>为实时负荷曲线；k_d为售电公司代理的动作值，M为均匀等分次数；D为售电公司集合；/>为实时负荷需求。

2.如权利要求1所述的一种售电公司负荷申报与出清的综合模拟运行方法，其特征在于，所述电力市场出清信息包括：当前负荷预测、日前电价、实时电价和实时负荷需求。

3.如权利要求1所述的一种售电公司负荷申报与出清的综合模拟运行方法，其特征在于，所述系统约束包括系统有功功率平衡约束；系统有功功率平衡约束为：

∑q_j,t-∑p_i,t＝0

4.如权利要求1所述的一种售电公司负荷申报与出清的综合模拟运行方法，其特征在于，所述系统约束包括系统旋转备用约束；系统旋转备用约束为：

其中，p_i,t为机组i在t时段出力；u_i,t为机组启停状态。

5.如权利要求1所述的一种售电公司负荷申报与出清的综合模拟运行方法，其特征在于，所述状态空间由最新综合价格曲线、96点负荷预测曲线和历史实际负荷曲线组成；所述动作空间由售电公司代理生成的动作值组成。

6.一种售电公司负荷申报与出清的综合模拟运行系统，其特征在于，包括：

模拟模块，被配置为根据售电公司负荷申报最优策略，采用市场出清模型，进行电力市场出清模拟，并得到下一阶段的电力市场出清信息，以制定售电公司在下一阶段的负荷申报最优策略；

所述市场出清模型的目标函数为：

所述累计奖励函数为：

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。