CN119148501A

CN119148501A - 一种烘涂机烘箱监控系统及方法

Info

Publication number: CN119148501A
Application number: CN202411235923.5A
Authority: CN
Inventors: 陶宝健; 梁镇淦; 谭房基
Original assignee: Guangzhou Jianhong Machinery Equipment Co ltd
Current assignee: Guangzhou Jianhong Machinery Equipment Co ltd
Priority date: 2024-09-04
Filing date: 2024-09-04
Publication date: 2024-12-17
Anticipated expiration: 2044-09-04
Also published as: CN119148501B

Abstract

本发明涉及温度监控技术领域，具体涉及一种烘涂机烘箱监控系统及方法，其方法包括：获取上一时刻的烘箱内温度；根据所述烘箱内温度，采用预先获取的当前烘箱内环境的最佳策略，获取当前烘箱内的PID控制参数；根据当前烘箱内的PID控制参数，计算出相应的控制输出信号，并将控制输出新信号发送给加热系统，PLC控制器控制加热系统的工作状态和功率，以实烘箱的温度监控。即本发明的方案能够更精准地控制烘箱内的温度，以实现烘涂机烘箱的监控。

Description

一种烘涂机烘箱监控系统及方法

技术领域

本发明涉及温度监控技术领域。更具体地，本发明涉及一种烘涂机烘箱监控系统及方法。

背景技术

千层蛋糕涂烘机包括注浆机、注浆机传动部分、加热系统以及控制系统等；其中注浆机采用大齿轮传动，对蛋糕浆气泡损坏较少，且注浆机传动部分采用无缝钢轨，令每层蛋糕更均匀；加热系统采用远红外发热管，以使烘烤更均匀；控制系统对传动、速度、温度进行控制，以保证的蛋糕的质量。

其中，影响蛋糕的质量的关键因素之一为温度，现有的千层蛋糕涂烘机的控制系统通常采用一个闭环反馈调节系统，如PLC控制系统，即由温度传感器对烘箱温度进行检测，并将温度转换为电信号输送给PLC，PLC根据需要设定不同的控制策略，如比例控制、比例－积分－微分(PID)控制等，以确定如何基于温度输入信号调整输出信号以达到所需的温度目标，PLC内部使用特定的控制算法对温度进行计算和调整，根据测量到的温度信号计算出相应的控制输出信号，并将其发送给加热系统，PLC控制加热系统的工作状态和功率；PLC对温度进行监测和反馈控制，通过与温度传感器的实时通信，持续监测温度值，并根据测量结果进行调整，以实现精确的温度控制。

一般来说，对于环境温度的控制通常采用比例－积分－微分(PID)控制，即通过比例(P)、积分(I)和微分(D)三种控制作用的组合，对系统的温度进行调整。

但是，PID算法的参数调整困难，需要依赖于经验和反复试验，才能找到最优的参数组合，这一过程往往耗时且繁琐。另外，静态的PID参数难以适应变化的温度环境，鲁棒性较差。

因此，如何快速、精准地进行千层蛋糕涂烘机环境的温度的控制是尤为重要的。

发明内容

本发明的目的在于提出一种烘涂机烘箱监控系统及方法，用以解决现有的温度控制鲁棒性较差且调整过程繁琐的问题；为此，本发明在如下的两个方面中提供方案。

在第一方面中，本发明提供了一种烘涂机烘箱监控方法，包括：

获取上一时刻的烘箱内温度；

根据所述烘箱内温度，采用预先获取的当前烘箱内环境的最佳策略，获取当前烘箱内的PID控制参数；

根据当前烘箱内的PID控制参数，计算出相应的控制输出信号，并将控制输出新信号发送给加热系统，PLC控制器控制加热系统的工作状态和功率，以实现烘箱的温度监控。

上述方案中能够通过对烘涂机烘箱内的温度进行监控，并通过预先获取的最佳策略自动调整当前烘箱内的温度，以实现烘箱的温度监控。

在一个实施例中，所述最佳策略的获取过程为：

确定蒙特卡洛法中的状态空间、动作空间和动作策略函数；所述状态空间为提取的获取历史烘箱内的PID控制曲线的特征值；所述动作空间为P±λ、I±λ、D±λ，λ为动作调整步长，P、I、D分别为控制系统中的比例、积分和微分；所述动作策略函数分别与当前权重、当前状态的行为值函数正相关；所述行为值函数为多个完整状态序列中当前状态的值函数的平均值；所述当前权重τ_k(S_n,a)为：τ_k-1(S_n,a)表示状态动作对＜S_n,a＞所在的第k-1个完整状态序列的权重，S_n为第n次状态，k≥2，a为状态S_n对应的动作；

选取动作策略函数最大时对应的动作时序作为最佳策略。

上述方案中，通过获取烘箱内的环境的控制曲线，来表征改进型强化学习模型的状态空间，并在后续构建策略函数时，通过对历史烘箱内的数据进行分析，能够得到多个完整状态序列，并基于多个完整状态序列的值函数以及更新的权重，构建策略函数，并得到最佳策略函数，相比于现有技术来说，引入权重，能够考虑到多个完整状态序列中的动作序列的全局变化的情况，进而获取全局的最佳策略，有利于提高后续烘箱的温度获取的精准性。

在一个实施例中，动作策略函数为：

其中，τ_k(S_n,a)为第k个完整状态序列的当前权重，为状态动作对＜S_n,a＞所在的k个完整状态序列的行为值函数，λ、μ为比例系数，用于调控权重和值函数的重要比例，其中k大于等于2，argmax()为求自变量最大的函数，*为乘号。

上述方案中，引入行为值函数以及第k次迭代停止后的权重这一参数，能够兼顾到不同完整状态序列对应的状态、动作的变化情况，为获取最佳策略提供了数据依据。

在一个实施例中，所述完整状态序列的获取过程为：

基于初始状态和终止状态，多次模拟实际的环境互动，得到多次完整状态序列；其中环境互动为：以初始状态出发，随机选取动作空间中的任一动作，个体与环境交互直到终止状态，得到一个完整状态序列；每个完整的状态序列对应一组动作序列和终止状态对应的值函数；其中，设定初始状态为历史烘箱内实际温度所对应的状态，终止状态为历史烘箱内环境达到的目标温度对应的状态。

上述方案中，将一个完整状态序列作为烘箱内温度从初始状态调控至结束状态的路径，由于动作空间有多种动作，因此，从初始状态到结束状态的过程中，其存在多种动作的组合，也即存在多种路径，一种路径对应一组动作，且上述中的一个完整状态序列的值函数是在每个完整状态序列结束后更新得到的值函数，无需反馈一次动作就更新值函数，提高了获取值函数的效率。

在一个实施例中，在一个完整的状态序列中，值函数的更新规则如下：

设置初始值函数，并进行初始化；

根据设置的奖赏值函数，得到智能体每选取一次动作时对应的奖赏值，直至奖赏值的累加和最大，得到完整的状态序列，并更新初始值函数；具体更新为：

Q(S_n,a)＝r(S_n,a)+γQ(S_n+1,a′)；

其中，γ为折扣因子，用于衰减未来奖赏的重要性，Q(S_n,a)为状态动作对＜S_n,a＞的值函数，r(S_n,a)为状态动作对＜S_n,a＞的奖赏值函数，其中奖赏值函数为当前状态与下一状态的差值与当前状态的比值，Q(S_n+1,a′)为状态动作对＜S_n+1,a′＞的值函数，a′为状态S_n+1对应的动作，S_n为第n次状态，S_n+1为第n+1次状态。

在一个实施例中，所述状态空间为S＝[S₁,S₂,…,S_n,S_n+1,…,S_N]，在烘箱内的温度控制系统中，智能体从烘箱内获取的特征值Z_n，其中Z_n为状态S_n对应的控制曲线的特征值，在状态S_n时执行动作a，得到状态S_n+1，对应的控制曲线的特征值为Z_n+1；N为状态的总次数。

在一个实施例中，所述控制曲线的特征值为：Z＝t*exp(h+β)；

其中，t为PID控制的输出从初始值变化到设定值所需的调节时间，h为超调量，是指调控过程中输出温度与目标值的差异的最大值与调控目标值的比值；h_max为输出温度的最大值，h_min为输出温度的最小值，h_goal为调控的目标值，β为震荡频率，是指输出在达到稳定状态之前震荡的频率，b是指输出达到稳定状态之前振荡的次数，*为乘号。

由于在使用PID算法进行温控时，不同的控制比例将得到不同的控制曲线，且控制曲线可以直观地反映使用当前PID参数时烘箱内的温度变化的过程。因此对控制曲线进行分析，提取控制曲线的特征值有利于判断当前PID参数是否适合。

在第二方面中，本发明还提供了一种烘涂机烘箱监控系统，包括：

处理器；

存储器，其存储有烘涂机烘箱监控的计算机指令，当所述计算机指令由所述处理器运行时，使得系统执行上述第一方面中的烘涂机烘箱监控方法。

本发明的有益效果为：

本发明的方案通过借助环境强化学习模型，可以自适应地寻找控制系统内合适的PID参数，并对烘箱温度进行控制，提高了温度监控的精准度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1示意性示出了本实施例中的一种烘涂机烘箱监控方法的步骤流程图；

图2示意性示出了本实施例中的多个完整状态序列的示意图；

图3示意性示出了控制曲线示意图；

图4示意性示出了本实施例中的一种烘涂机烘箱监控系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图来详细描述本发明的具体实施方式。

本发明针对的场景为现有的制作蛋糕的烘涂机烘箱内的环境温度的监测，由于烘烤出的蛋糕的质量受温度的影响，因此需要对烘箱内的环境进行监控，现有的烘箱的温度控制系统通常使用PID控制器来确保温度的控制，该控制器使用反馈机制来保持温度的稳定。然而，PID算法的参数需要依赖于经验和反复试验，才能找到最优的参数组合，这一过程往往耗时且繁琐。

基于上述技术问题，本发明提出了一种烘涂机烘箱监控系统及方法，通过获取最优的温度调整策略，能够更精准地控制烘烤蛋糕时的烘箱的温度。

具体地，以某一烘涂机烘箱为例，对本发明的一种烘涂机烘箱监控方法的进行介绍。

其中，本实施例的烘涂机烘箱包括注浆机、注浆机传动部分、加热系统以及控制系统等。其中控制系统为PLC控制器，用于执行控制算法，以监控烘箱内的温度。

如图1所示，本实施例中的一种烘涂机烘箱监控方法，包括以下步骤：

在步骤S1处，获取上一时刻的烘箱内温度；根据所述烘箱内温度，采用预先获取的当前烘箱内环境的最佳策略，获取当前烘箱内的PID控制参数。具体地，本实施例中获取上一时刻的烘箱内温度，用于确定最佳策略，即采用历史时刻的烘箱内环境数据，进行最佳策略的确定。

本实施例中采用蒙特卡洛法获取烘箱内环境的最佳策略。

具体地，蒙特卡洛法为强化学习中的一种学习策略，使得智能体在当前状态下能够选择出未来可能得到奖赏最大的动作。示例性地，在第n步时，智能体处于状态S_n中，然后采取行动a，环境给智能体奖赏r(S_n,a)，同时智能体的状态变成S_n+1。而蒙特卡洛法是强化学习中的一种无模型的强化学习方法，其通过采样若干经历完整的完整状态序列(Trajectory/episode)来估计状态的真实价值。所谓的经历完整，就是这个序列必须是达到终点的。如确定一个初始状态和终止状态，以初始状态出发，随机选取动作空间中的任一动作，个体与环境交互直到终止状态，可以得到一个完整状态序列。

本实施例中，以烘箱内实际温度所对应的状态作为设定初始状态，以烘箱内环境所要达到的目标温度对应的状态作为终止状态。如图2所示，从一个设定初始状态到终止状态的过程有多组动作序列，每组动作组合均是不同的，一组动作组合对应一个完整状态序列，至此可以得到多个完整状态序列。图2中的各个完整状态序列的初始状态和结束状态是不变的，也就是说，不同完整状态序列中的起点和终点相同。

本实施例中，最佳策略的获取过程包括以下步骤：

步骤S11，确定蒙特卡洛法中的状态空间、动作空间和动作策略函数。本实施例中采用蒙特卡洛方法进行多次模拟，并根据模拟结果来评估策略函数的价值，得到最佳策略。

具体地，蒙特卡洛法的具体设置如下：

(1)环境信息：烘箱内的温度。

(2)状态空间S：当前PID比例对应的控制曲线的特征值Z。需要说明的是，状态空间和控制曲线的特征值存在一一映射关系：S_n→Z_n。示例性地，状态空间S＝[S₁,S₂,…,S_n,S_n+1,…,S_N]，在烘箱内的温度控制系统中，智能体从烘箱内环境中获取的特征值Z_n，其中Z_n为状态S_n对应的控制曲线的特征值，在状态S_n时执行动作a，得到状态S_n+1，对应的控制曲线的特征值为Z_n+1；N为状态的总次数，因此，将在状态S_n时执行动作a的状态与动作的映射称为状态动作对＜S_n,a＞。

上述中的控制曲线的特征值Z是根据PID控制曲线得到的，具体为：

Z＝t*exp(h+β)；其中t为调节时间，是指输出从初始值变化到目标温度值所需的时间。调节时间t越小，说明调控的响应速度越好；h为超调量，是指调控过程中温度输出超过调控目标值的最大幅度与调控目标值的比值，计算公式为：h_max为输出温度的最大值，h_min为输出温度的最小值，h_goal为调控的目标值，见图3中的控制曲线的相关参数。其中超调量h越小，说明调控能力越好。在该实施例中，超调量h需要维持在5％以内。β为震荡频率，是指输出在达到稳定状态之前震荡的频率，即b是指输出达到稳定状态之前振荡的次数；振荡频率越小，说明系统的稳定性越好。其中，在使用PID算法进行温控时，不同的控制比例将得到不同的控制曲线，控制曲线可以直观地反映使用当前PID参数时环境温度变化的过程。因此对控制曲线进行分析，提取控制曲线的特征值，用于判断当前PID参数是否适合。其中，控制曲线的特征值Z越小，该PID比例控制下的调控稳定性越好，调控能力越强。所以，利用特征值来反映控制的情况。

(3)动作空间a：6种动作：P＝P±λ、I＝I±λ、D＝D±λ，其中λ为动作调整步长，取经验值λ＝0.2。

(4)设置奖赏值其中，奖赏值函数r(S_n,a)表示在状态S_n下，执行特定动作a所获得的及时反馈奖赏。其中Z_n为状态S_n对应的特征值，在状态S_n时执行动作a，得到的状态S_n+1，对应的特征值为Z_n+1。

上述奖赏值函数表示状态转移时的特征值增益，由于控制曲线的特征值越小，表明该控制的调控更好，因此Z_n-Z_n+1越大表明动作a带来的增益越大，越有可能使状态S_n转向更好的状态S_n+1；若Z_n-Z_n+1小于零，表明动作a使系统控制能力下降，此时状态转化奖赏为负。

(5)设置值函数Q(S_n,a)和权重τ(S_n,a)：Q(S_n,a)用于评估在给定状态下执行某个动作所能获得的期望回报，即值函数Q(S_n,a)表示在状态S_n时，选择动作a之后到结束状态可能得到的所有未来奖赏的总和的期望值；权重τ(S_n,a)表示在状态S_n时选择动作a的权重大小。

上述中值函数设置的原因在于：由于奖赏值函数的计算仅依赖于当前状态和下一状态的信息，得到的仅是局部信息，若只依照奖赏值函数作为策略指导每一步动作选择，则有可能陷入局部最优解。因此，为了获得全局最优解，需要设置值函数Q(S_n,a)以及权重，以表征全局奖赏累计值。

(6)策略函数π(S_n)：策略π(S_n)根据当前状态S_n，计算应该选择的动作a，具体为：

上述中的策略函数π(S_n)依据多个完整状态序列中的当前状态S_n，计算应该选择的动作a。

当然作为其他实施方式，上述中的策略函数还可以为：

其中，τ_k(S_n,a)为第k个完整状态序列的当前权重，为状态动作对＜S_n,a＞所在的k个完整状态序列的行为值函数，*为乘号，λ、μ为比例系数，

用于调控权重和值函数的重要比例，按照经验值取λ＝2，μ＝3。

表示除当前完整状态序列之前的其他完整状态序列的动作策略值之和，δ为较小的随机数，避免分母为0，如取值范围为0.001至0.1之间的数。

上述策略函数在当前状态S_n下是否选择动作a，不仅取决于值函数，还受到权重的影响；结合行为值函数和权重，使得策略函数找到一条能尽快收敛

的最优路径(即为最佳策略中的动作序列)，且动作序列的终点为最优PID 20参数控制下的结束状态。

由于策略函数定义的是智能体的行动模式，告诉智能体在面对不同的状态时应如何做出反应。因此，本实施例中采用的策略函数相比传统的强化学习算法中使用epsilon－greedy学习策略来说，学习策略收敛速度快，并且能够处理连续动作空间。

本实施例中的行为值函数为：其中，Q_k(S_n,a)为第k个完整状态序列的值函数，K为完整状态序列的总个数。

上述中的行为值函数用于反映在不同完整状态序列中，状态动作对＜S_n,a＞可能获得奖赏期望值的集中趋势，并用于指导策略函数进行最佳动作的预测。

需要说明的是，每一个完整状态序列对应一个值函数，即第k个完整状态序列中的状态动作对＜S_n,a＞未来可能得到的奖赏累计值为Q_k(S_n,a)。对于行为值函数而言，其是在得到每个完整状态序列后，将当前的完整状态序列之前的所有片段以及当前次的值函数的均值作为当前状态动作对＜S_n,a＞的函数。

本实施例中的权重的更新规则如下：

其中，τ_k-1(S_n,a)表示状态动作对＜S_n,a＞所在的第k-1个完整状态序列的权重，S_n为第n次状态，k≥2，a为状态S_n对应的动作，权重τ_k(S_n,a)表示状态动作对＜S_n,a＞所在的第k-1个完整状态序列的权重。特别地，第一次迭代结束后该片段上的动作对＜S_n,a＞的权重值为片段长度倒数，为

上述权重为第k次迭代时状态动作对＜S_n,a＞所在片段1至片段k的长度平均值的倒数。

其中，由于长度越小的完整状态序列的收敛越快，系统的调控能力越好，因此在动作选择策略中倾向于选择完整状态序列预期长度较小的动作。因此，利用序列长度作为权重，相比于直接PID调整只能保证特征曲线的收敛来说，本发明的方案能够将权重与特征曲线的值函数进行结合，能够保证PID调整效果的稳定。

上述方案中的当前权重是对上一次迭代次数停止后的权重更新得到的，因此，权重能够表征出从首次迭代到当前次迭代过程中的状态、动作变化的全局情况。

步骤S12，选取动作策略函数最大时对应的动作时序作为最佳策略。本实施例中，基于得到当前完整状态序列后更新权重以及行为值函数，计算策略函数π(S_n)，将策略函数的最大值对应的动作序列作为最佳策略。

具体地，本实施例中基于得到当前完整状态序列后更新权重以及行为值函数，计算策略函数的具体过程如下：

步骤121，初始化状态空间S，初始化值函数和权重，令，Q(S_n,a)＝0；τ(S_n,a)＝0。其中，初始化状态空间S具体是通过当前PID的初始控制参数得到，以初始控制参数(0.5，0.5，0.5)为例，此时可以按照初始控制参数对应的控制曲线，得到初始特征值Z₀，将初始特征值作为初始状态S₀。

步骤122，对于第一个完整状态序列：在得到完整状态序列之前，智能体每选取一次动作均对应奖赏值，直至奖赏累加值最大且达到终止状态，该第一次迭代停止，得到完整状态序列，并更新值函数以及权重，得到更新后的值函数和权重。示例性地，如图2所示，一个完整状态序列为S₀,a₀->

r₁,S₁,a₁->r₂,S₂,a₂->...->r_n,S_n；其中S₀,a₀为初始状态，r_n,S_n为终止状态。其中初始状态和结束状态分别对应烘箱内的初始化参数和最终调控的目标参数。其中的参数为P、I和D。

步骤123，保持初始状态不变，并且初始化值函数，继续进行第二个完整状态序列的迭代，在第二次迭代停止后的更新值函数以及第一次迭代的权重；此时将第一次迭代的值函数和第二次迭代的值函数的均值作为行为值函数，计算策略函数的值。

步骤124，重复步骤123，进行第三个完整状态序列的迭代，更新值函数以及第二次迭代的权重，并得到新的行为值函数，计算策略函数的值。

步骤125，进行多次迭代，直至达到设定迭代次数停止，并得到最终的行为值函数和当前完整状态序列对应的权重，进而计算当前完整状态序列的策略函数的值，选取将策略函数对应的最大值的动作序列作为最佳策略。

上述中的完整状态序列的长度等于从初始状态到终止状态的过程中的状态转移次数n。

对于一个完整状态序列的迭代，每次迭代停止后更新值函数的规则如下：

Q(S_n,a)＝r(S_n,a)+γQ(S_n+1,a′)；

其中，γ为折扣因子，用于衰减未来奖赏的重要性，r(S_n,a)为状态动作对＜S_n,a＞的奖赏值，Q(S_n+1,a′)为状态动作对＜S_n+1,a′＞的值函数。

上述中的折扣因子γ的取值范围通常在0到1之间，当γ接近1时，未来奖赏的影响较大；当γ接近0时，只考虑立即奖赏。这里取经验值γ＝0.6。

上述中的每次迭代停止的停止条件为：设置累加值矩阵sum[n]，记录状态S_n获得的奖赏累加值：sum[n]＝sum[n-1]+r(S_n,a)；若：sum[n]为一个完整状态序列中的最大累加值，S_n为该次迭代停止的状态；反之，不停止。

上述中的最大累加值可以通过设置一个大小为φ的滑动窗口(此处φ取经验值为4)，用于寻找一个完整状态序列(episode)中的停止状态，即当sum[n]为窗口[n,n+φ]中的最大值时，迭代停止；若sum[n]不为窗口[n,n+φ]中的最大值，则窗口向后滑动，令n’＝n+1。

本发明的方案是将上述改进的最佳策略部署到PLG控制系统中，并输入为初始状态空间中的PID控制参数(控制曲线的特征值对应PID控制参数)，输出最佳策略(动作序列)，基于得到的最佳策略的动作序列，实现控制曲线中对应目标值的调控，进而得到当前烘箱内的PID控制参数。

在步骤S2处，根据当前烘箱内的PID控制参数，计算出相应的控制输出信号，并将控制输出新信号发送给加热系统，PLC控制器控制加热系统的工作状态和功率，以实烘箱的温度监控。

具体的调控过程是根据最佳策略中的动作序列，得到当前烘箱内各个状态的PID控制参数，进行烘箱的控制曲线的调整，从而计算出相应的控制输出信号，使烘箱内温度稳定在目标温度。

需要说明的是，上述在进行调整时，由于计算的控制输出信号的具体过程为现有技术，此处不再过多赘述。

需要说明的是，当终止状态对应的目标温度值仍在变化时，需要重新寻找最佳策略。

本发明的方案通过获取烘箱内的环境的控制曲线，来表征改进型强化学习模型的状态空间，并在后续构建策略函数时，通过对同一初始状态和结束状态的过程进行多次模拟，得到多个完整状态序列，并基于多个完整状态序列对策略函数进行评估，将策略函数最大值对应的动作时序作为最佳策略，由于最佳策略中引入了多个完整状态序列的动作变化的权重信息，使得在进行策略函数评估时能够从全局信息进行分析，相比于现有技术来说，避免了陷入局部最优解的情况，提高了烘箱的温度控制的精准性。

本发明还提供了一种烘涂机烘箱监控。如图4所示，所述系统包括处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时实现根据本发明上述的烘涂机烘箱监控方法。

所述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件，其设置和功能为本领域中已知，因此在此不再赘述。

在本发明中，前述的存储器可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive RandomAccess Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random－Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM

(High－Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等，或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本发明描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。

在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个或更多个等，除非另有明确具体的限定。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各种替代方案。

Claims

1.一种烘涂机烘箱监控方法，其特征在于，包括：

获取上一时刻的烘箱内温度；

根据当前烘箱内的PID控制参数，计算出相应的控制输出信号，并将控制输出新信号发送给加热系统，PLC控制器控制加热系统的工作状态和功率，以实烘箱的温度监控。

2.权利要求1所述的烘涂机烘箱监控方法，其特征在于，所述最佳策略的获取过程为：

确定蒙特卡洛法中的状态空间、动作空间和动作策略函数；所述状态空间为提取的烘箱内的PID控制曲线的特征值；所述动作空间为P±λ、I±λ、D±λ，λ为动作调整步长，P、I、D分别为控制系统中的比例、积分和微分；所述动作策略函数分别与当前权重、当前状态的行为值函数正相关；所述行为值函数为多个完整状态序列中当前状态的值函数的平均值；所述当前权重τ_k(S_n,a)为：τ_k-1(S_n,a)表示状态动作对＜S_n,a＞所在的第k-1个完整状态序列的权重，S_n为第n次状态，k≥2，a为状态S_n对应的动作；

选取动作策略函数最大时对应的动作时序作为最佳策略。

3.根据权利要求1所述的烘涂机烘箱监控方法，其特征在于，所述动作策略函数为：

4.根据权利要求3所述的烘涂机烘箱监控方法，其特征在于，所述完整状态序列的获取过程为：

基于初始状态和终止状态，多次模拟实际的环境互动，得到多次完整状态序列；其中环境互动为：以初始状态出发，随机选取动作空间中的任一动作，个体与环境交互直到终止状态，得到一个完整状态序列；每个完整的状态序列对应一组动作序列和终止状态对应的值函数；其中，设定初始状态为烘箱内实际温度所对应的状态，终止状态为烘箱内环境所要达到的目标温度对应的状态。

5.根据权利要求3所述的烘涂机烘箱监控方法，其特征在于，在一个完整的状态序列中，值函数的更新规则如下：

设置初始值函数，并进行初始化；

Q(S_n,a)＝r(S_n,a)+γQ(S_n+1,a)；

6.根据权利要求2所述的烘涂机烘箱监控方法，其特征在于，所述状态空间为S＝[S₁,S₂,…,S_n,S_n+1,…,S_N]，在烘箱内的温度控制系统中，智能体从烘箱内获取的特征值Z_n，其中Z_n为状态S_n对应的控制曲线的特征值，在状态S_n时执行动作a，得到状态S_n+1，对应的控制曲线的特征值为Z_n+1；N为状态的总次数。

7.根据权利要求2所述的烘涂机烘箱监控方法，其特征在于，所述控制曲线的特征值为：Z＝t*exp(h+β)；

8.一种烘涂机烘箱监控系统，其特征在于，包括：

处理器；

存储器，其存储有烘涂机烘箱监控的计算机指令，当所述计算机指令由所述处理器运行时，使得系统执行根据权利要求1－7中任意一项所述的烘涂机烘箱监控方法。