CN116165886A

CN116165886A - 多传感器智能协同控制方法、装置、设备及介质

Info

Publication number: CN116165886A
Application number: CN202211631510.XA
Authority: CN
Inventors: 胡超; 黄杰; 麻舜予; 张宇阳; 李贵; 丛迅超; 郑博元
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-26

Abstract

本发明公开了多传感器智能协同控制方法、装置、设备及介质，该方法包括：建立强化学习智能体模型，所述强化学习智能体模型的状态空间包括全局综合态势表达和单个传感器状态嵌入表示，所述强化学习智能体模型的动作空间包括由多传感器执行的不同任务所抽象出的动作输出值；通过采样对所述强化学习智能体模型进行训练，并通过奖励塑造工程引导所述强化学习智能体模型学习，所述训练包括中心化训练与去中心化执行；通过加载训练得到的强化学习智能体模型协同控制多个传感器。本发明利用强化学习技术对多传感器实现跨手段跨区域的协同控制。

Description

多传感器智能协同控制方法、装置、设备及介质

技术领域

本发明属于人工智能技术领域，尤其涉及多传感器智能协同控制方法、装置、设备及介质。

背景技术

目前，电磁频谱空间呈现出强对抗的特点，面对存在大量不同特征的复杂辐射源在网电空间中对目标重点信号进行探测活动时，要跨区域协同调度多个同类型或不同类型传感器(如超短波、微波、电子和便携式雷达等)，发挥各自的优势，实现对多个目标的即时发现与定位，并实现长时间持续跟踪的需求。

传统的人工决策控制方法存在高时延、低容错、无法综合考虑高维复杂信号态势以及对多传感器资源的最优协同调度，且多数重点目标信号具有短猝发的特征，从而难以实现对辐射源的有效持续定位跟踪。

深度强化学习面临奖励信号稀疏和采样率低的问题，进而导致样本利用率低、学习速度缓慢甚至训练难以收敛，这种缺点在强对抗多辐射源复杂电磁频谱环境中尤为突出。且由于部分重点信号具有隐蔽性、突发性、阶段性等特征，不同信号又具有不同特征无法通过单一手段(即单一种类的传感器)进行探测，导致辐射源定位跟踪任务晦涩，难以拆解。

发明内容

本发明的目的在于，为克服现有技术缺陷，提供了多传感器智能协同控制方法、装置、设备及介质,能够在复杂多辐射源环境中，通过人工智能技术对多个传感器进行协同控制，从而实现多目标即时发现与定位，并满足对目标长时间持续跟踪的需求。

本发明目的通过下述技术方案来实现：

一种多传感器智能协同控制方法，所述方法包括：

建立每个传感器对应的强化学习智能体模型，所述强化学习智能体模型的状态空间包括全局综合态势表达和单个传感器状态嵌入表示，所述强化学习智能体模型的动作空间包括由多传感器执行的不同任务所抽象出的动作输出值；

通过采样对所述强化学习智能体模型进行训练，并通过奖励塑造工程引导所述强化学习智能体模型学习，所述训练包括中心化训练与去中心化执行；

通过训练得到的强化学习智能体模型协同控制多个传感器。

进一步的，所述通过采样对所述强化学习智能体模型进行训练具体包括：

开启多个采样线程分别在多个具备不同配置场景的并行仿真环境或并行真实环境中进行独立采样；

将采样数据统一放入采样经验缓存池；

当满足训练条件时，从采样经验缓存池中取出采样数据根据对应的强化学习算法集中式训练对智能体模型进行更新，然后将更新后的模型参数放入模型参数缓存池。

进一步的，所述通过奖励塑造工程引导所述强化学习智能体模型学习具体包括：

设置人为设计奖励、终局模式奖励和好奇心奖励；

所述人为设计奖励包括当完成预设任务时或任务失败时给予对应奖励值；

所述终局模式奖励包括根据整体的信号探测效能给予奖励；

所述好奇心奖励包括当探索到未知空间时给予奖励。

进一步的，所述方法建立强化学习智能体模型时采用的置信区域策略优化方法具体包括：

使用一阶近似形式简化置信区域策略优化算法，所述置信区域策略优化算法简化后为：

对应约束条件为：

其中为π为新策略；π_old为旧策略；S为状态；a为动作，

为旧策略的优势函数；

状态行动值函数：

状态值函数：

优势函数：

其中，γ为衰减因子，

为新旧策略的KL散度的平均值；

对简化后的置信区域策略优化算法使用蒙特卡洛法进行近似，得到

令

用于表示新旧策略的比率，得到

将置信区域策略优化算法的约束条件近似为r_t(θ)∈[1-∈,1+∈]，其中∈为clip系数，则带约束的置信区域策略优化算法目标函数可以表示无约束的目标函数：

将状态值函数的目标函数和策略模型的熵添加至无约束的目标函数，得到完整的目标函数：

其中，

C₁、C₂分别为预先设置的对应项的系数。

进一步的，所述中心化训练与去中心化执行具体包括：

由一个中央控制器收集所有智能体的全局状态并做出统一决策；

各传感器之间异步根据自身当前状态执行各自任务。

进一步的，所述方法还包括基于生成对抗模仿学习的专家策略引导所述强化学习智能体模型的学习。

进一步的，所述基于生成对抗模仿学习的专家策略引导所述强化学习智能体模型的学习具体包括：

重复以下步骤直至得到最优策略：

利用当前传感器对应的强化学习智能体模型与环境交互得到智能体生成轨迹；

智能体生成轨迹和示范轨迹一并输入鉴别器并以监督学习的方式更新鉴别器参数；

更新后的鉴别器输出新的鉴别奖励函数；

利用更新后的奖励函数来提供奖励信号进一步更新智能体策略。

另一方面，本发明还提供了一种多传感器智能协同控制装置，所述装置包括：

智能体模型建立模块，所述智能体模型建立模块建立每个传感器对应的强化学习智能体模型，所述强化学习智能体模型的状态空间包括全局综合态势表达和单个传感器状态嵌入表示，所述强化学习智能体模型的动作空间包括由多传感器执行的不同任务所抽象出的动作输出值；

智能体模型训练模块，所述智能体模型训练模块通过采样对所述强化学习智能体模型进行训练，并通过奖励塑造工程引导所述强化学习智能体模型学习，所述训练包括中心化训练与去中心化执行；

传感器控制模块，所述传感器控制模块通过训练得到的强化学习智能体模型协同控制多个传感器。

另一方面，本发明还提供了一种计算机设备，计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述的任意一种多传感器智能协同控制方法。

另一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述的任意一种多传感器智能协同控制方法。

本发明的有益效果在于：

(1)本发明通过建立强化学习智能体模型来实现多个传感器的协同控制，能够使得多个传感器在复杂工作环境下对有复杂信号态势具有相应的处理能力。

(2)本发明利用强化学习技术以及基于专家知识的生成对抗模仿学习技术，实现对复杂电磁频谱环境中重点信号的持续定位跟踪。

(3)本发明能够控制跨区域多传感器之间异步执行各自任务，具备对短猝发信号的捕捉与定位能力，并具备一定的持续定位跟踪能力。

附图说明

图1是本发明实施例提供的多传感器智能协同控制方法；

图2是本发明实施例状态空间示意图；

图3是本发明实施例智能体训练模块运行逻辑图；

图4是本发明实施例智能体训练系统架构示意图；

图5是本发明实施例分布式架构框架图；

图6是本发明实施例多智能体学习系统示意图；

图7是本发明实施例生成对抗模仿学习的专家策略引导学习方法示意图；

图8是本发明实施例提供的多传感器智能协同控制装置结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，提出了本发明多传感器智能协同控制方法、装置、设备及介质的下述各个实施例。

实施例1

本实施例针对复杂电磁频谱环境中重点辐射源信号的定位跟踪，利用强化学习技术对多传感器实现跨手段跨区域的协同控制，优化资源调度与决策速度，提升定位精度与准确性，进一步提高对部分短猝发信号辐射源的持续定位能力。

参照图1，如图1所示是本实施例提供的多传感器智能协同控制方法流程示意图，该方法具体包括以下步骤：

步骤一：建立每个传感器对应的强化学习智能体模型。

具体地，强化学习智能体模型的状态空间包括全局综合态势表达和单个传感器状态嵌入表示，强化学习智能体模型的动作空间包括由多传感器执行的不同任务所抽象出的动作输出值。

本实施例强化学习智能体模型的状态空间由传感器、目标、信号的状态向量组成。在本方案中状态空间为N×D维的矩阵。N表示当前环境中要素的数量，包括传感器、目标和信号。当环境要素的数量小于N时，剩余位置进行补0。D表示向量的长度，不同要素间向量会通过补0补齐至同一长度。

本发明接下来的部分将以处于3个不同区域的3个探测设备传感器的协同控制来对具体实施方式进行描述，应当理解，此处传感器以及区域的个数并不用于限定本发明。

参照图2，如图2所示是本实施例状态空间示意图。本实施例状态空间由全局综合态势表达和单个传感器状态嵌入表示两部分组成，其中全局中和态势表达分别包含目标、信号以及全局运维状态。目标综合态势嵌入表示中，0代表当前智能体未对信号成功定位，因此没有经纬度，1则代表定位到目标；以3个不同区域的3个探测传感器为例，由于定位至少需要两个不同区域的传感器，因此支撑定位的传感器ID，0代表数据无效，1代表区域(1,2)之间的传感器进行定位，2代表区域(1,3)之间的传感器进行定位，3代表区域(2,3)之间的传感器进行定位，4代表区域(1,2,3)之间的传感器都在进行定位。信号综合态势嵌入表示由当前探测到的所有信号态势组成，具体则包括频率、带宽、幅度、方位和重点信号标识。全局运维状态离散嵌入表示由当前所有传感器的工作状态组成，具体则包括任务类型、任务状态、当前宽扫频段(没有则填0)、当前控守频点(没有则填0)组成。单个传感器状态嵌入表示则包括当前传感器信号态势数据(频率、带宽、幅度、方位、重点信号标识)、历史定频数据(频率、带宽、标识)、传感器当前工作状态(任务类型、任务状态、当前宽扫频段、当前控守频点)、同类传感器宽扫频点集合(由一个二元数组组成，第一维为频率，第二维为是否为传感器自身扫描到的信号标识)。

本实施例以超短波探测传感器为例，强化学习智能体的动作空间如表1所示。对于其中的连续动作，通过从对应的高斯分布进行采样得到对应的具体动作输出值。

表1强化学习智能体动作空间表

步骤二：通过采样对强化学习智能体模型进行训练，并通过奖励塑造工程引导强化学习智能体模型学习，训练包括中心化训练与去中心化执行。

面向辐射源定位跟踪的多传感器智能协同控制方法由任务规划模块和智能体训练模块组成。其中任务规划模块通过加载不同的智能体模型给出不同的传感器协同方案，如资源优先、定位优先、跟踪优先等。

智能体训练为本实施例的核心模块，主要通过与仿真推演软件或者真实环境交互对相应的智能体进行训练。

参照图3和4，如图3所示是本实施例智能体训练模块运行逻辑图，如图4所示是本实施例智能体训练系统架构示意图。

本实施例智能体训练主要分为采样部分和训练部分，其中蓝方为辐射源方，其对应的蓝方轨迹生成子模块(辐射源以怎样的轨迹进行移动)与蓝方决策子模块(辐射源携带的信号何时开关)均由规则进行生成；红方即为传感器智能体方。红方模型为智能体模型，蓝方模型为规则模型。本实施例针对在复杂电磁频谱环境中部署PPO强化学习智能体式面临的低采样率问题，基于gRPC分布式架构，对智能体训练模块采用分布式采样集中式训练方案。参照图5，如图5所示是本实施例分布式架构框架图。开启多个采样线程分别在多个具备不同配置场景的并行仿真环境中进行独立采样。随后将采样数据统一放入采样经验缓存池。当满足训练条件是时，从采样经验缓存池中取出采样数据根据对应的强化学习算法集中式训练对智能体模型进行更新，然后将更新后的模型参数放入模型参数缓存池。采样模块会定期从模型参数缓存池中取出最新模型参数更新智能体模型，从而更新智能体策略，并利用更新后的策略进行采样。

至此，基于分布式采样集中式训练的强化学习训练技术完成了采样、训练和模型迭代的循环，通过最大化利用物理硬件资源来提升采样率，极大的提升智能体学习效率。

针对跨区域多传感器协同控制的难点，考虑到跨区域多传感器之间为异步执行各自任务的特点，基于多智能强化学习思想，提出中心化训练，去中心化执行(CTDE)式的半多智能体PPO强化学习算法。

强化学习算法普遍具有一定的波动性，这对训练过程和最终训练表现都具有较大影响。为了确保策略模型在优化时单调提升，置信区域策略优化(Trust Region PolicyOptimization,TRPO)算法用KL散度来衡量新旧策略之间差异，构建了类似自然梯度法的目标公式，并以此目标来不断优化策略从而有效防止因策略梯度中的噪声带来的较大波动，且使用了共轭梯度法来减少Fisher信息矩阵的计算量。但作为一个二阶方法，TRPO算法仍需要大量的计算成本。PPO算法在TRPO的基础上进一步化简目标函数，使用一阶近似形式，在保证精度的同时加快了训练速度。

首先，TRPO算法的目标函数可以整理为：

对应的约束条件为：

其中为π为新策略；π_old为旧策略；s为状态；a为动作，

为旧策略的优势函数，定义如下(γ为衰减因子)：

状态行动值函数：

状态值函数：

优势函数：

为新旧策略的KL散度的平均值。

虽然TRPO使用共轭梯度法来尽可能降低求解该复杂且带约束的目标函数的计算量，但仍然需要大量的计算成本，算法效率较低。为此PPO算法进一步对目标函数进行了优化。

实际应用中，对期望的计算往往用使用蒙特卡洛法进行近似，因此TRPO算法的目标函数变为：

令

用于表示新旧策略的比率，则TRPO算法的目标函数进一步变为：

将TRPO的约束条件近似为r_t(θ)∈[1-ε,1+ε]，其中ε为clip系数，则带约束的TRPO目标函数可以表示无约束的目标函数：

从而用常见的梯度下降法进行求解。在保有TRPO算法能够使策略稳定提升的优势的同时，用一阶方法大大降低了计算量，提升算法效率。进一步将状态值函数(VF)的目标函数和策略模型的熵(S)添加至最终的目标函数，于是PPO完整的目标函数就变为：

其中，

C₂分别为对应项的系数，在本实施例中默认C₁＝0.001，C₂＝0。

在复杂电磁频谱环境中进行目标信号定位跟踪需要跨区域多传感器之间进行协作，常见的多智能体强化学习有3种框架：中心化训练与中心化执行(CTCE),中心化训练与去中心化执行(DTCE),去中心化训练与去中心化执行(DTDE)。对于中心化训练来说，需要一个中央控制器收集所有智能体的全局状态并做出统一决策，因此中心化训练可以保证较好的协作效果。但位于各个不同区域的传感器各自的观测范围不同以及观测到的信号数量、类型等也不同，因此各传感器之间为异步根据自身当前状态执行各自任务。参照图6，如图6所示是本实施例多智能体学习系统示意图。本实施例采用中心化训练与去中心化执行(DTCE)框架来部署多智能体学习系统。

为了进一步利用专家先验知识(即专家策略)加速智能体学习，进一步解决强化学习方法样本利用率低的问题，本发明提出了基于生成对抗模仿学习(GenerativeAdversarial Imitation Learning，GAIL)的专家策略引导学习方法。受生成对抗网络以及逆强化学习中非线性损失函数成功应用的启发，生成对抗模仿学习可以直接从专家轨迹中学习策略。具体的实施方式如图7所示。

逆强化学习的目标为从潜在的函数族C:R^S×A＝{c:S×A→R}中拟合一个损失函数c，该损失函数使得期望累积损失在专家示范的轨迹上最小，而对于其他任何策略生成的轨迹则较大。考虑到在复杂多辐射源电磁频谱环境中，由于环境维度较高，存在巨大的损失函数集

在供给有限的示范数据集情况下，逆强化学习很容易过拟合。因此采用一个损失函数正则化器ψ(c)来避免过拟合。如果分配给专家示范中的动作状态对较小的损失值，ψ(c)会对损失函数施加轻微惩罚，反之施加较大惩罚。于是本发明中，逆强化学习的目标函数就可以表示为：

进一步将ψ(c)采取对专家数据的期望的形式，可以表示为：

其中

并定义策略的占用度为：

其中γ为马尔科夫决策过程中的衰减因子。占用度可以解释为智能体在策略π下与环境交互时遇到的状态动作对的分布。于是在不同策略下与环境交互产生的轨迹的衰减回报期望就可以表示为：

于是可证明先通过逆强化学习恢复一个损失函数，然后再利用强化学习来习得策略可以表示为：

其中λ是策略熵H(π)的权重；

是ψ(c)的凸共轭形式；ρ_π和

是策略π和专家策略π_E的占用度。

在GAIL中，损失函数被设置为：

c(s,a)＝log(D(s,a))

其中D:S×A→(0,1)是一个鉴别器。c(s,a)为更新智能体的策略提供奖励信号。可进一步证明：

最终，基于生成对抗模仿学习(Generative Adversarial Imitation Learning，GAIL)的专家策略引导学习方法就可以总结为求解上式的鞍点。

其中，鉴别器D(s,a)通过最小化

的形式被训练用于将专家策略采样轨迹τ_E中的状态动作对(s,a)～τ_E和智能体生成轨迹τ_agent中的状态动作对(s,a)～τ_agent区分开；生成器(即智能体策略π)通过最大化E_π[log(D(s,a))]让鉴别器将智能体状态动作对“误判”为专家采样轨迹状态动作对；

为策略的γ衰减因果熵。

参照图7，如图7所示是本实施例生成对抗模仿学习的专家策略引导学习方法示意图。在每个新的迭代回合：(1)生成器利用当前传感器智能体策略与环境交互得到智能体生成轨迹；(2)智能体生成轨迹和示范轨迹一并输入鉴别器并以监督学习的方式更新鉴别器参数；(3)更新后的鉴别器输出新的鉴别奖励函数；(4)利用更新后的奖励函数来提供奖励信号进一步更新智能体策略(即生成器)。不断重复上述步骤，生成器和鉴别器通过对抗式训练不断优化各自性能，直到习得理想策略。

本实施例对定位跟踪任务难以拆解的问题，基于分层强化学习思想，通过奖励塑造工程引导智能体进行学习。具体奖励方式如表2所示。

表2奖励汇总表

其中奖励1-7为人为设计的奖励，围绕发现信号、定位目标、控守与探测均衡进行设置，具体的奖励值和计算过程在实际的试验过程中将不断调整。奖励8为终局模式奖励，根据整体的信号探测效能评估的结果进行奖励计算。奖励9较为特殊，为好奇心奖励。从强化学习中智能体对状态空间探索的方向来看，额外给出如下奖惩内容，以便智能体拥有更好的搜索状态空间。传统强化学习算法在反馈稀疏的环境中样本利用率极低，学习速度缓慢难以收敛。在本发明中，大多数状态下不同区域的传感器均处于搜索信号状态下，只有扫描到目标信号，才能获取相应的正奖励。此外，在某些场景中，存在一组状态内部的转移概率较高，但这组状态与其他状态之间的转移率较低。因此设计好奇心奖励，针对探索率较低的状态赋予额外奖励以激励对未知空间的探索，或者避免部分空间未被探索。

具体的，设计奖惩r(S_known,S_novel)作为好奇心奖励函数，根据当前已经探索状态空间与当前未探索的状态空间对探索未知状态的智能体进行奖励。首先在智能体训练中，设计专用的记忆存储模块记录训练过程中各个状态s_t出现的概率：φ(s_t；m)，其中m表示记忆存储模块参数，同时在训练之后对记忆存储网络参数进行更新。当启用好奇心奖励之后，在每次智能体做出动作并转到新的状态时，给出对应奖惩：Asign(k-φ(s_t,m_-1))，其中A为奖励权重；k为奖励阈值，当对应状态转移概率大于k是，则进行惩罚，反之进行奖励。

步骤三：通过训练得到的强化学习智能体模型协同控制多个传感器。

通过任务规划模块加载不同的智能体模型给出不同的传感器协同方案实现对多个传感器的协同控制，在复杂多辐射源环境中，通过执行不同的工作模式(宽带扫描、定频控守、测向定位)，实现对辐射源目标的即时发现与持续定位跟踪。

本实施例提供的多传感器智能协同控制方法具有复杂信号态势处理能力。针对复杂电磁频谱环境中对重点辐射源信号的定位跟踪的需求，将深度学习与强化学习相结合，实现对全局综合态势(目标综合态势、信号综合态势、全局运维状态)以及单个传感器状态的综合处理。通过对不同传感器的动作空间以及单个动作的内部表征进行细粒化设置，综合利用强化学习技术以及基于专家知识的生成对抗模仿学习技术，实现对复杂电磁频谱环境中重点信号的持续定位跟踪。具备对短猝发信号的捕捉与定位能力，并具备一定的持续定位跟踪能力。

实施例2

参照图8，如图8所示是本实施例提供的多传感器智能协同控制装置结构框图，该装置具体包括：

智能体模型建立模块，智能体模型建立模块建立每个传感器对应的强化学习智能体模型，强化学习智能体模型的状态空间包括全局综合态势表达和单个传感器状态嵌入表示，强化学习智能体模型的动作空间包括由多传感器执行的不同任务所抽象出的动作输出值；

智能体模型训练模块，智能体模型训练模块通过采样对强化学习智能体模型进行训练，并通过奖励塑造工程引导强化学习智能体模型学习，训练包括中心化训练与去中心化执行；

传感器控制模块，传感器控制模块通过训练得到的强化学习智能体模型协同控制多个传感器。

本实施例提供的多传感器智能协同控制装置通过建立强化学习智能体模型来实现多个传感器的协同控制，能够使得多个传感器在复杂工作环境下对有复杂信号态势具有相应的处理能力。利用强化学习技术以及基于专家知识的生成对抗模仿学习技术，实现对复杂电磁频谱环境中重点信号的持续定位跟踪。能够控制跨区域多传感器之间异步执行各自任务，具备对短猝发信号的捕捉与定位能力，并具备一定的持续定位跟踪能力。

实施例3

本优选实施例提供了一种计算机设备，该计算机设备可以实现本申请实施例所提供的多传感器智能协同控制方法任一实施例中的步骤，因此，可以实现本申请实施例所提供的多传感器智能协同控制方法的有益效果，详见前面的实施例，在此不再赘述。

实施例4

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的多传感器智能协同控制方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一多传感器智能协同控制方法实施例中的步骤，因此，可以实现本发明实施例所提供的任一多传感器智能协同控制方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。