CN120233686A

CN120233686A - 一种双轮足机器人复杂地形自适应运动控制方法及系统

Info

Publication number: CN120233686A
Application number: CN202510724540.2A
Authority: CN
Inventors: 周乐来; 范晟琳; 孙靖宇; 荣学文; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2025-06-03
Filing date: 2025-06-03
Publication date: 2025-07-01
Anticipated expiration: 2045-06-03
Also published as: CN120233686B

Abstract

本发明公开了一种双轮足机器人复杂地形自适应运动控制方法及系统，涉及机器人运动控制技术领域。该方法包括步骤：构建包含机器人模型、障碍物和环境约束的复杂地形模型；构建运动决策控制器，利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练，其中，非对称的训练策略在更新时引入风险约束用于约束策略的行为；根据训练结果进行策略梯度反向传播，使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化。本发明通过在强化学习过程中设计非对称的训练策略和分段训练机制，解决了双轮足机器人在多种复杂地形环境中的高效、鲁棒、自适应的运动控制问题。

Description

一种双轮足机器人复杂地形自适应运动控制方法及系统

技术领域

本发明涉及机器人运动控制技术领域，尤其涉及一种双轮足机器人复杂地形自适应运动控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着移动机器人的应用场景不断扩展，如何在未知或复杂地形上实现高效、稳定、鲁棒的运动控制，已成为学术界和工业界的研究热点。现有的轮式机器人、足式机器人和轮足机器人多采用经典的传统模型预测控制（MPC）、滑模控制或基于经验的轨迹规划方法，这些方法在结构化平坦场景下能够获得较好性能，但在面对非结构化、动态变化或具有多种地形特征（如松散砂砾、沟壑、台阶、斜坡等）的环境时，往往难以兼顾实时性与稳定性，易产生控制失效或能耗过高的问题。

近年来，强化学习因其在高维、非线性系统中的自适应决策能力受到广泛关注。基于强化学习的运动控制方法，通过策略网络与评估网络的协同训练，可以在模拟环境中学习到端到端的控制策略。但是面对多种复杂地形，现有的强化学习方法未充分考虑多源传感器数据的深度融合与风险约束，导致所学策略在现实环境迁移时鲁棒性不足，其训练机制无法基于非结构化的复杂场景进行自适应改变，因此，如何利用强化学习实现双轮足机器人在复杂地形中的高效自适应控制，成为现有技术亟待解决的技术问题。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种双轮足机器人复杂地形自适应运动控制方法及系统，通过在强化学习过程中设计非对称的训练策略和分段训练机制，解决了双轮足机器人在多种复杂地形环境中的高效、鲁棒、自适应的运动控制问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种双轮足机器人复杂地形自适应运动控制方法，包括以下步骤：

根据双轮足机器人的姿态参数和运动参数构建机器人模型；

构建包含机器人模型、障碍物和环境约束的复杂地形模型；

构建运动决策控制器，利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练，其中，非对称的训练策略在更新时引入风险约束用于约束策略的行为；

根据训练结果进行策略梯度反向传播，使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化，从而实现双轮足机器人的自适应运动控制。

进一步的，运动决策控制器包括多源传感器数据融合模块和动作决策网络模块，其中，多源传感器数据融合模块将双轮足机器人上收集到的数据与环境地形信息进行融合，生成特征向量传入动作决策网络模块中，对地形环境进行实时预测，生成相应的动作决策。

进一步的，强化学习模型包括策略网络和评估网络，策略网络用于根据双轮足机器人当前状态观测的输入，输出机器人的动作，评估网络负责评估机器人动作和状态的价值，并输出状态动作价值函数。

进一步的，采用非对称的训练策略，并使用多个双轮足机器人并行学习及协同决策的方式进行训练。

进一步的，强化学习的完整奖励函数为：

，

其中，为主奖励函数，是速度跟踪奖励函数，是高度稳定性奖励函数，是触地惩罚函数，是运动稳定性奖励函数，是能量效率奖励函数，是针对特殊地形的奖励函数，为针对结构化台阶地形特化的权重参数。

进一步的，非对称的训练策略在更新过程中，利用样本估计策略梯度，使用裁剪目标函数更新策略，并引入KL散度控制策略更新的幅度。

进一步的，多目标协同优化通过设置多个优化目标，并设置不同权重进行加权组合，得到全局最优的决策信息，基于多目标协同优化设计的全局损失函数表达式如下：

；

其中，为全局损失函数，为策略主损失，为风险代价惩罚项，为策略价值函数损失，为风险价值损失，为熵正则化项。

本发明第二方面提供了一种双轮足机器人复杂地形自适应运动控制系统，包括：

参数获取模块，被配置为根据双轮足机器人的姿态参数和运动参数构建机器人模型；

模型构建模块，被配置为构建包含机器人模型、障碍物和环境约束的复杂地形模型；

强化学习训练模块，被配置为构建运动决策控制器，利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练，其中，非对称的训练策略在更新时引入风险约束用于约束策略的行为；

反向传播优化模块，被配置为根据训练结果进行策略梯度反向传播，使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化，从而实现双轮足机器人的自适应运动控制。

本发明第三方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行如本发明第一方面所述的双轮足机器人复杂地形自适应运动控制方法中的步骤。

本发明第四方面提供了一种计算机设备，该设备包括：

处理器，适于执行计算机程序；

计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被所述处理器执行时，实现如本发明第一方面所述的双轮足机器人复杂地形自适应运动控制方法。

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种双轮足机器人复杂地形自适应运动控制方法及系统，该方法通过构建复杂地形模型以及运动决策控制器，并利用强化学习模型进行多目标协同优化训练，实现了双轮足机器人在复杂地形上的高效、稳定运动控制，具有显著的技术效果。解决了双轮足机器人在多种复杂地形环境中的高效、鲁棒、自适应的运动控制问题。

本发明运动决策控制器的设置进一步提升了机器人的运动控制能力。多源传感器数据融合模块能够将双轮足机器人上收集到的各类数据与环境地形信息进行有效融合，生成特征向量并传入动作决策网络模块。这一过程实现了对地形环境的实时预测，并生成相应的动作决策，使得机器人能够根据实时的环境变化迅速做出合理的运动调整，增强了机器人在复杂地形中的动态响应能力和运动灵活性。

本发明基于强化学习的控制方式能够使机器人在复杂地形中通过不断学习和优化，找到最优的运动策略，从而提高运动的效率和稳定性。其非对称的训练策略，通过引入风险约束来约束策略的行为，并采用多个双轮足机器人并行学习及协同决策的方式进行训练，进一步提升了训练的效果和效率。在训练过程中，利用样本估计策略梯度，使用裁剪目标函数更新策略，并引入 KL 散度控制策略更新的幅度，这些技术手段有效保证了训练过程的稳定性和收敛性，使得机器人能够在复杂多变的地形环境中快速适应并做出最优决策。

本发明的多目标协同优化训练，实现了全局最优的决策信息生成，并通过设置不同权重进行加权组合，使得机器人能够在复杂地形中综合考虑各种因素，找到最优的运动路径和动作策略，从而实现了双轮足机器人在复杂地形上的高效、稳定运动控制，为双轮足机器人在复杂环境中的应用提供了可靠的技术支持，具有广阔的应用前景和重要的实际意义。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中双轮足机器人复杂地形自适应运动控制方法流程图；

图2为本发明实施例一中双轮足机器人连续跨越结构化台阶地形示意图；

图3为本发明实施例一中双轮足机器人跨越沟壑地形示意图；

图4为本发明实施例一中双轮足机器人连续跨越结构化台阶地形过程图；

图5为本发明实施例一中双轮足机器人连续下台阶过程图；

图6为本发明实施例一中双轮足机器人跨越沟壑地面过程图；

图7为本发明实施例一中双轮足机器人在崎岖地面上的运动过程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：

本发明实施例一提供了一种双轮足机器人复杂地形自适应运动控制方法，如图1所示，包括以下步骤：

步骤1：根据双轮足机器人的姿态参数和运动参数构建机器人模型。

本实施例中，双轮足机器人上设置有力传感器和惯性测量单元，用于收集实时的姿态参数和运动参数。

步骤2：构建包含机器人模型、障碍物和环境约束的复杂地形模型。

本实施例中，障碍物为复杂地形造成的障碍，比如结构化台阶地形、斜坡地形、结构化波浪地形、崎岖地形、沟壑地形、粗糙砂砾石子地形等。环境约束指的机器人在运动过程中与环境交互产生的约束，例如与地面、障碍物等的交互如摩擦、接触、碰撞以及环境中对机器人的推搡、踢踹、突然施重等操作。

步骤3：构建运动决策控制器，利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练。

步骤3.1：构建用于双轮足机器人控制的强化学习算法模型。

本实施例中，强化学习模型为神经网络模型，包括策略网络和评估网络，策略网络用于根据双轮足机器人当前状态观测的输入，输出机器人的动作，评估网络负责评估机器人动作和状态的价值，并输出状态动作价值函数。构建强化学习模型时，设置强化学习环境中的状态空间、动作空间、决策策略以及奖励函数。

步骤3.2:构建运动决策控制器。

本实施例中，运动决策控制器包括多源传感器数据融合模块和动作决策网络模块，其中，多源传感器数据融合模块将双轮足机器人上力传感器和惯性测量单元收集到的数据与环境地形信息进行融合，生成特征向量传入动作决策网络模块中，对地形环境进行实时预测，具体的，实时推测可能遇到的地形环境，如平地、崎岖地面、沟壑地形及结构化台阶地形，针对不同地形预训练专用策略，动态调整控制参数以及奖励权重分配，并使用多维度课程学习进行动态训练和并行训练加速提高训练效率，生成相应的动作决策，从而控制双轮足机器人运动，如图2、图3、图4、图5、图6和图7所示。

步骤3.3：利用强化学习模型针对不同的复杂地形模型采用非对称的训练策略对运动决策控制器进行多目标协同优化训练。

步骤3.3.1：设计基于强化学习的非对称的训练策略。

本实施例中，采用非对称的训练策略进行训练。非对称训练指的是将不同的观测量分别输入策略网络和评估网络进行训练，本实施例中，考虑到后续训练策略部署实机过程中观测量的获取情况，策略网络只使用真实机器人能够方便准确获取的观测量数据，评估网络则使用额外添加了外部环境数据以及真实机器人无法获取或比较难获得的观测量数据。上述训练方式即不会使学习过程的计算量过多，也保证了强化学习过程的准确度，同时也提高了策略的鲁棒性，方便了后续sim to sim和sim to real的部署过程。

在一种具体的实施方式中，采用非对称的训练策略，将不同的观测量分别输入策略网络和评估网络，然后采用多个双轮足机器人并行学习及协同决策的方式进行训练，建立适用于双轮足机器人的强化学习奖励函数，考虑到后续部署时双轮足机器人使用自身能够准确获取到的数据而不必使用无法有效获取的外部环境数据和一些难以获得的自身数据，为确保机器人能够充分利用这些信息，平滑地学会稳定高效的步态，设计强化学习奖励函数表达式如下：

。

其中，为主奖励函数，是速度跟踪奖励函数，包括线速度和角速度跟踪。是高度稳定性奖励函数，是触地惩罚函数，是运动稳定性奖励函数，是能量效率奖励函数，具体对关节位置、速度、加速度进行限制。是针对特殊地形的奖励函数，特殊地形如台阶、沟壑等具有垂直角度地形。为针对结构化台阶地形特化的权重参数。

更为具体的：

鼓励机器人能够跟踪预定的速度命令，充分发挥双轮足机器人运动的机动性，速度跟踪奖励函数如下：

。

其中，为预期的线速度，为机器人当前线速度，为预期的角速度，为机器人当前角速度，和为缩放因子，和为权重系数。

鼓励双轮足机器人在运动过程中能够保持在预定的高度，避免因为机身高度过高或过低导致运动不稳定情况的发生，高度稳定性奖励函数如下：

。

其中，为足端到机身在z方向的高度，为预定的高度，为权重系数。

惩罚双轮足机器人基座以及小腿触地，防止机器人摔倒等不稳定行为或者小腿触地欺骗稳定，确保机器人最基本的平衡姿态，触地惩罚函数如下：

。

其中，为机器人基座受到的外部接触力，为双轮足机器人小腿受到的外部接触力，为权重系数。

惩罚机器人机身的不稳定行为，确保机器人能够在平地运动以及在跨越结构化台阶地形或沟壑地形时保持平稳，并惩罚关节角速度过快，确保机器人运动时的稳定性和平滑性，运动稳定性奖励函数如下：

。

其中，是重力向量在机器人坐标系下的投影，为设定的重力常量，为由当前时刻与上一时刻速度计算得到的加速度，和为权重系数。

惩罚机器人关节力矩的使用，鼓励机器人充分利用力矩，降低能量损耗，能量效率奖励函数如下：

。

其中，为第个关节的力矩，为缩放因子，为权重系数。

双轮足机器人由于足端为轮关节，且是双腿，因此如何平衡且稳定地跨越结构化台阶地形以及沟壑地形是一个较大的挑战，因此针对特殊地形特化了一个奖励函数，鼓励机器人在接触到结构化台阶地形或沟壑地形的时候能够主动抬腿并稳定跨越地形。针对特殊地形的奖励函数如下：

。

其中，为双轮足机器人轮部是否接触台阶地形的接触条件，表示轮的编号，为双轮足机器人轮子受到的除垂直方向以外的接触力，为轮子受到的垂直方向的接触力，为机器人向上的速度，为机器人向上的加速度，为上一时刻和当前时刻双轮足机器人轮端到基座距离的变化量，为距离变化量的约束值，、和为权重系数。

步骤3.3.2：策略网络根据观测生成动作，与环境交互后得到第一批轨迹，计算回报和优势。根据策略网络生成的动作，更新机器人状态，计算下一步状态，计算新观测量，作为策略的下一时间步的输入，根据当前状态计算奖励。

具体的，评估网络负责评估当前动作和状态的价值，即在当前的状态下，未来能够获得的累积奖励的期望值，输入包含机器人自身状态观测信息、机身线速度、感知到的外部地形信息，输出状态价值函数，用来评估当前动作和状态的价值，即在当前的状态下，未来能够获得的累积奖励的期望值。设置主优势函数，用于衡量当前动作相对于平均策略的好坏，并基于反馈信息对策略网络进行更新，主优势函数表达式如下：

。

其中，是动作价值函数，表示在状态下采取动作后的累积奖励，是状态价值函数，表示在状态下的累积奖励期望值。

实际计算的时候每个时间步优势函数表达式如下：

。

其中，为时间步t下的优势函数，为时间步t下的动作价值函数，为时间步t下的状态价值函数。

策略网络根据当前双轮足机器人状态观测量生成动作，目标是通过优化策略，使得生成的动作能够最大化长期累积奖励，策略目标的表达式如下：

。

其中，为策略目标，表示期望（平均），为评估网络计算的优势函数，为策略网络的参数化策略，表示在状态下选择动作的概率。

评估网络的优化目标是最小化状态价值的预测误差，值函数损失表达式如下：

。

其中，为值函数损失，表示对时间步t的量进行期望（平均），为目标累积奖励，通过奖励和折扣因子计算得到。

步骤3.3.3：为了限制策略更新的幅度，非对称的训练策略在更新过程中，利用样本估计策略梯度，使用裁剪目标函数更新策略，并引入KL散度控制策略更新的幅度，并且为了对损失进行统一计算，即最小化损失。

定义策略损失函数表达式如下：

。

其中，为策略损失函数，表示对时间步t采集的数据进行期望（平均），为策略比率，即策略更新后在已有样本上的偏移程度，为“新”策略网络在状态下选择动作的概率，为“旧”策略网络在同一状态-动作对下的概率，为策略网络的参数，为时间步t下的优势函数，为裁剪范围，为KL正则化的权重系数，根据实时计算的平均KL散度和目标阈值的大小动态调整，衡量更新前后策略分布的差异，clip表示裁剪操作，即把约束到和之间。

步骤3.3.4：非对称的训练策略在更新时引入风险约束用于约束策略的行为。

具体的，在策略更新的时候，引入风险约束，通过引入风险相关的值函数和损失函数来约束策略的行为，使得策略在优化奖励的同时，满足风险约束阈值条件，避免产生危险行为、过大的电机力矩及能耗和不稳定的动作。通过风险优势函数和风险代价惩罚项引入到策略优化目标中，函数表达式如下：

。

其中，为时间步t下的风险约束的时间差分误差，为时间步t下的风险价值函数，为时间步t+1下的风险约束的时间差分误差，为时间步t下的即时风险值，为时间步t+1下的风险价值函数，为折扣因子，为GAE参数，表示一个完整采样轨迹的终止时间步索引，为偏移量索引。

沿用之前的裁剪思路得到风险的代理损失函数，表达式如下：

。

其中，表示代理损失函数。

对于每一个时间步设定一个风险代价量，用来反应即时风险超出阈值的程度，定义风险代价惩罚项表达式如下：

。

其中，为惩罚系数。

同样的，得到风险价值损失：

。

其中，为风险价值损失函数。

步骤3.3.5：多目标协同优化通过设置多个优化目标，并设置不同权重进行加权组合，得到全局最优的决策信息，基于多目标协同优化设计的全局损失函数表达式如下：

在一种具体的实施方式中，多目标协同优化将传统单一奖励信号扩展为多模态优化目标，包括策略任务更新、评估网络价值优化以及任务风险相关的安全性和稳定性约束，构建复合优化目标，通过不同权重进行加权组合，得到全局最优的决策信息，设计全局损失函数表达式如下：

。

步骤3.3.6：训练过程动态地逐渐提高学习难度。

本实施例在迭代训练过程中，使用多维度课程学习，在训练过程中对机器人的运动指令、观测噪声、地形难度和外部扰动如电机误差、随机地面摩擦、随机外部力等进行动态调整。在训练初期给与简单的运动指令、观测噪声和简单的地形。随着训练次数增加逐渐提高运动指令难度以及地形的复杂程度，增大观测噪声的范围和外部扰动的范围。同时，在训练期间每次环境重置的时候，会根据机器人在上一个交互过程中的地形下对于运动指令的完成度以及运动表现动态地调整命令范围和其所处的地形难度。

步骤4：根据训练结果进行策略梯度反向传播，使用基于性能反馈的自适应学习率调整方法对非对称的训练策略进行优化，从而实现双轮足机器人的自适应运动控制。

在一种具体的实施方式中，策略网络通过根据当前双轮足机器人状态观测量采样动作，环境执行返回新状态、即时奖励和即时风险值，将存入经验缓冲区，计算目标综合回报和综合优势估计。其中，目标综合回报包括主奖励函数和风险价值函数，综合优势估计包括主优势函数和风险优势函数。

计算各项损失和全局损失进行策略梯度反向传播，根据学习率更新参数，对策略进行优化。具体的，依靠计算得到的全局损失，从输出层反向往输入层应用链式法则运算，得到每个参数的梯度，然后沿负梯度方向更新参数，让损失下降，达到策略优化的目的。

但是传统的策略梯度算法使用固定的学习率，每次参数更新时沿着梯度方向前进的步长为固定值，在复杂动作情况下，容易出现学习率过大越过“最优点”导致的震荡或发散，或者出现学习率过小收敛速度过慢导致的训练效率低。因此使用基于性能反馈的自适应学习率调整方法，通过KL散度动态调整学习率，对训练初期的探索阶段和训练后期的收敛阶段进行平衡，动态调整学习率表达式如下：

。

其中，表示第k轮更新前的学习率，k为训练轮次，为每个epoch结束时计算的平均KL值，为缩放因子，和为KL阈值。

实施例二：

本发明实施例二提供了一种双轮足机器人复杂地形自适应运动控制系统，包括：

实施例三：

本发明实施例三提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行如本发明实施例一所述的双轮足机器人复杂地形自适应运动控制方法中的步骤。

实施例四：

本发明实施例四提供了一种计算机设备，该设备包括：

处理器，适于执行计算机程序；

计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被所述处理器执行时，实现如本发明实施例一所述的双轮足机器人复杂地形自适应运动控制方法中的步骤。

本领域普通技术对象可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术对象在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种双轮足机器人复杂地形自适应运动控制方法，其特征在于，包括以下步骤：

根据双轮足机器人的姿态参数和运动参数构建机器人模型；

构建包含机器人模型、障碍物和环境约束的复杂地形模型；

2.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，运动决策控制器包括多源传感器数据融合模块和动作决策网络模块，其中，多源传感器数据融合模块将双轮足机器人上收集到的数据与环境地形信息进行融合，生成特征向量传入动作决策网络模块中，对地形环境进行实时预测，生成相应的动作决策。

3.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，强化学习模型包括策略网络和评估网络，策略网络用于根据双轮足机器人当前状态观测的输入，输出机器人的动作，评估网络负责评估机器人动作和状态的价值，并输出状态动作价值函数。

4.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，采用非对称的训练策略，并使用多个双轮足机器人并行学习及协同决策的方式进行训练。

5.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，强化学习的完整奖励函数为：

，

6.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，非对称的训练策略在更新过程中，利用样本估计策略梯度，使用裁剪目标函数更新策略，并引入KL散度控制策略更新的幅度。

7.如权利要求1所述的双轮足机器人复杂地形自适应运动控制方法，其特征在于，多目标协同优化通过设置多个优化目标，并设置不同权重进行加权组合，得到全局最优的决策信息，基于多目标协同优化设计的全局损失函数表达式如下：

；

8.一种双轮足机器人复杂地形自适应运动控制系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-7中任一项所述的双轮足机器人复杂地形自适应运动控制方法。

10.一种计算机设备，其特征在于，

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-7中任一项所述的双轮足机器人复杂地形自适应运动控制方法。