CN118192558A

CN118192558A - 基于模型预测和深度强化学习的轮腿机器人控制算法

Info

Publication number: CN118192558A
Application number: CN202410309004.1A
Authority: CN
Inventors: 刘晓黎; 崔宇鑫; 马好; 马方彤; 崔博渊
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-14

Abstract

本发明涉及机器人控制领域，尤其涉及基于模型预测和深度强化学习的轮腿机器人控制算法，包括：S1：判断通过策略判断为绕行时，执行步骤S2，判断通过策略为变化姿态来越过障碍时，则执行步骤S3；S2：基于轮腿机器人倒立摆模型进行动力学建模分析，并通过线性化表示与模型预测得到系统的离散时间模型，利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入；S3：对轮腿机器人进行模型分析，通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。本发明通过为轮腿机器人提供双模式的选择，能够保证机器人在遇上障碍物之类的意外情况时，能够自我调整通过模式，选择最高效的通过方法。

Description

基于模型预测和深度强化学习的轮腿机器人控制算法

技术领域

本发明涉及机器人控制领域，尤其涉及基于模型预测和深度强化学习的轮腿机器人控制算法。

背景技术

随着机械产业的不断发展，各种替代人类生产生活的机器人被设计并制造出来，而为了满足勘察、运输等需求，轮腿机器人应运而生，其具有速度快、效率高等优点，但轮腿机器人在实际应用时，由于其腿部结构的限制，在经过路况较差的位置时，容易产生侧翻等问题，缺乏在非结构化崎岖路段的适应能力和作业能力，为了解决这一问题，亟需设计一种针对轮腿机器人的控制算法。

发明内容

本发明针对现有技术存在的不足，提供如下技术方案：

基于模型预测和深度强化学习的轮腿机器人控制算法，包括：

S1：根据检测的环境信息与障碍物信息判断通过策略，若通过策略判断为绕行时，执行步骤S2，若通过策略为变化姿态来越过障碍时，则执行步骤S3。

S2：基于轮腿机器人倒立摆模型进行动力学建模分析，并通过线性化表示与模型预测得到系统的离散时间模型，利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入。

S3：对轮腿机器人进行模型分析，将机器人模拟为可以感知外界并行决策的智能体，通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。

作为上述技术方案的改进，所述步骤S1包括以下步骤：

S11：依据轮腿机器人自带的传感器获取周边的环境信息，并通过建立仿真环境，获取障碍物的数据信息。

S12：将障碍物的数据信息与轮腿机器人的机身高度、轮腿长度进行对比以确定采用绕行或变化姿态来越过障碍。

作为上述技术方案的改进，所述步骤S2包括以下步骤：

S21：将预测时间段分解为k个时间节点，并建立系统的状态模型。

S22：基于倒立摆模型，对轮腿机器人进行动力学分析并将系统建模为一个离散时间的状态空间模型。

S23：对系统的状态模型进行线性化表示，并建立轮腿机器人的动力学模型。

S24：根据动力学模型进行模型预测求解，将动力学模型离散化，得到系统的离散时间模型，并建立离散的时间节点上模型输入、输出与控制变量之间的关系。

S25：利用二次规划问题求解的方法，获取最优控制输入变量，并根据最优控制输入变量确定最优控制策略以确定当前时刻的控制输入。

作为上述技术方案的改进，所述二次规划问题求解方法包括如下步骤：

S251：引入预测过程后，并考虑轮腿机器人的控制问题的情况下加入惩罚函数.

S252：并根据惩罚函数获取

所述步骤S251得到的模型为：

J＝x(k)^TGx(k)+U(k)^THU(k)+2x(k)^TEU(k)

其中，x(k)为状态变量矩阵，U(k)为控制变量矩阵，k表示第k个时间节点，G为x(k)的二次项系数矩阵，H为U(k)的二次项系数矩阵，E为x(k)和U(k)的交叉项系数矩阵。

具体的：

其中，Q、R是对角矩阵，F为施加到小车上的外力。

作为上述技术方案的改进，所述步骤S23包括以下步骤：

S231：基于平衡点对状态空间模型进行线性化，并得到连续时间的状态方程。

S232：利用泰勒展开对所述模型进行线性化并省略二阶小量，获取轮腿机器人的动力学模型。

所述步骤S232得到的动力学模型为：

其中，m为倒立摆质量，M为小车质量，I为摆的长度，x为小车位置，θ为倒立摆偏角，l为倒立摆的转动惯量，F为施加到小车上的外力。

所述步骤S25结束后还需要执行以下步骤：

S26：依据系统当前状态更新模型和控制器的状态，以便在下一时刻再次进行预测和优化。

作为上述技术方案的改进，所述步骤S3包括以下步骤：

S31：将轮腿机器人运动控制器抽象为可感知和进行决策的智能体，同时根据马尔可夫决策过程将此智能体描述为四元数组。

S32：建立策略网络、决策网络以及双网络结构的Actor网络与Critic网络，通过输入机器人状态观测值和机器人关节力矩的输出来计算Q网络的输出值。

S33：根据随机迷你批采样数据来获取输出值的最小贝尔曼误差，并根据最小贝尔曼误差计算策略网络的损失函数。

S34：根据单步梯度衰减下降最小贝尔曼误差损失函数以更新Q网络的参数。

S35：通过在线网络的延迟更新目标网络函数以得出最优策略动作。

作为上述技术方案的改进，所述步骤S34更新后的Q网络的参数包括下式：

其中，r表示奖励值，M表示随机迷你批，γ表示奖励折扣参数，Q'和μ‘表示Q网络和策略网络的目标网络。

作为上述技术方案的改进，所述机器人在遇到障碍时还执行以下步骤：

S41：将状态空间以机器人与障碍物的相对距离表示。

S42：对相对距离表示进行归一化处理，得到机器人的实际移动动作姿态在空间上的表示。

作为上述技术方案的改进，所述状态空间以机器人与障碍物的相对距离表示如下：

其中，表示所处环境中障碍物的个数，和/>分别表示机器人与障碍物在x和y方向上的相对距离，所述相对距离表示为下式：

其中，[X₀，Y₀]为机器人的位置坐标，[X_i，Y_i]为障碍物的位置坐标，W为环境的宽度，H为环境的高度。

所述机器人的实际移动动作姿态在空间上的表示如下式所示：

d_x＝step*a[0]，d_y＝step*a[1]

其中，a为策略网络输出的最优执行的策略动作姿态，step为预设的长度，用于控制距离障碍物的远近，从而及时做出对应的姿态调整。

本发明的有益效果：

通过为轮腿机器人提供双模式的选择，能够保证机器人在遇上障碍物之类的意外情况时，能够自我调整通过模式，选择最高效的通过方法，不仅能够加快整体的工作效率，而且能够在某些不寻常的非结构化崎岖路段有着较好适应能力和作业能力，解决了轮腿机器人的避障问题。

附图说明

图1为本发明的逻辑框图；

图2为本发明的轮腿机器人选择模型预测控制避障时，机体俯仰角和横滚角的变化；

图3为本发明的轮腿机器人遇到障碍物的仿真环境。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

轮腿机器人由于其腿部结构的限制，在经过路况较差的位置时，容易产生侧翻等问题，缺乏在非结构化崎岖路段的适应能力和作业能力，为了解决这一问题，亟需设计一种针对轮腿机器人的控制算法。

为了解决上述问题，提供一种基于模型预测和深度强化学习的轮腿机器人控制算法，包括：

具体的，所述步骤S1包括以下步骤：

障碍物的数据通常包括障碍物的高度、宽度等参数，在确定轮腿机器人的机身高度以及轮腿长度后，即可判断机体是否能够通过变化姿态的方式通过障碍物，若经过判断能够直接采用变化姿态的形式越过障碍物，则直接越过即可，若判断无法直接越过。

所述步骤S2包括以下步骤：

系统的状态模型如下：

x_k+1＝A_n×nx_k+B_n×pu_k

其中，x_(k+1)∈Rⁿ是状态变量，u_K∈R^l是控制量，A_n×n、B_n×p为常量矩阵。

设定预测步数为N，那么状态量表示为：

控制量表示为：

离散时间的状态空间模型如下：

其中，x小车位置，θ倒立摆偏角，F施加到小车上的外力，l倒立摆的转动惯量，I摆的长度，w外部的扰动力(例如风阻)，M小车质量，g重力加速度，m倒立摆质量，b_cb_p小车和摆的摩擦系数。

具体的，所述步骤S23包括以下步骤：

其中，x、u为离散的时间节点上模型输入、输出与控制变量。

上式转换后得到：

其中，m倒立摆质量，M小车质量，I摆的长度，b_cb_p小车和摆的摩擦系数，g重力加速度。

所述步骤S232得到的动力学模型为：

具体的，首先获取连续时间的状态方程如下：

对状态方程求解得到下式：

x(t)＝x(0)e^At+∫Budt

取t＝Δt，带入方程解为：

考虑在Δt时间内系统输入为恒定值，所以方程化简为：

x(Δt)＝x(0)e^AΔt+BuΔt

得到预测时间相邻两个时间节点的输入、输出、控制量之间的关系为：

x(i+1)＝x(i)e^AΔt+BuΔt

其中，x(i+1)、x(i)是相邻的两个时间节点，矩阵A是一个常值矩阵，但是矩阵B的值与机器人的当前状态相关，在预测过程中需要根据当前时间节点预测的机器人状态变量的值进行更新，u为控制变量。

所述二次规划问题求解方法包括如下步骤：

S251：引入预测过程后，并考虑轮腿机器人的控制问题的情况下加入惩罚函数。

具体的，在引入预测过程后，得到下式：

X(k)＝Mx(k)+CU(k)

其中，M为惩罚因子，C为常数矩阵，

考虑轮腿机器人控制性能最优、预测状态约束等问题，引入惩罚函数：

转化为二次规划的形式，如下：

J＝x(k)^TGx(k)+U(k)^THU(k)+2x(k)^TEU(k)

上式中，x(k)为状态变量矩阵，U(k)为控制变量矩阵，k表示第k个时间节点，G为x(k)的二次项系数矩阵，H为U(k)的二次项系数矩阵，E为x(k)和U(k)的交叉项系数矩阵。

具体的：

其中，Q、R是对角矩阵，F为施加到小车上的外力

S252：并根据惩罚函数获取

所述步骤S25结束后还需要执行以下步骤：

S26：依据系统当前状态更新系统的状态模型和控制器的状态，以便在下一时刻再次进行预测和优化。

实际应用时，系统会不断循环执行上述步骤，使系统在选择绕行时，始终保持在最优控制策略下运行。

具体的，所述步骤S3包括以下步骤：

四元数组为：(s，a，p，r)，其中，s为智能体状态空间(机器人状态观测值)，a为智能体动作空间(机器人关节力矩的输出)，p为状态转移函数(关节力矩输出后机器人状态的转移)，r为奖励函数(状态转移的适应度)。

首先根据环境观测之后，记录此时此刻记为时间t-1，机器人执行的动作为a_t-1，在t时刻分别判断执行动作a_t和a_t-1后是否会影响机器人正常运行，即是否会碰撞到障碍物，若继续执行a_t-1动作会导致碰撞，但a_t不会，就认为a_t是正确恰当的避障动作姿态。

当判断a_t为合适的动作姿态时，将此避障标志置为true，且给予奖励值r，对于某一时刻智能体的状态，通过策略网络输入后，可输出一个确定动作a:

a_t＝μ_θ(s)+N_t

其中，N_t表示随机噪声，用于在智能体在学习过程中对环境进行随机探索。

综合考虑机器人运动状态以及智能体的处理效能，环境等因素，同时选择多个观察测试值，并且在其基础上设置多个加权奖励值r，用于鼓励机器人在崎岖非平整路面的多种运动，保障其稳定快速运行，下列各式中k_i为不同奖励机制的相应权值。

考虑轮腿机器人的运动状态，选择观测值：机器人位置[x，y，z]，机器人姿态角[roll，pitch，yaw]，机器人速度[v_x，v_y，v_z]，轮胎与地面接触力关节力矩输出/> 上一次关节力矩输出

速度奖励值r_v用于鼓励机器人向前运动：

r_v＝k₁v_x

其中，v_x为机器人在x轴上的速度。

稳定性奖励值r_s用于奖励机器人在瞬时和全局决策完成平稳的运动：

r_s＝-(y-y_init)²-k₃(z-z_init)²-k₄roll²-k₅pitch²

-k₆yaw²

其中，y，z表示当前机器人机体在y，z轴上位置；y_init，z_init表示机器人机体初始位置；roll(翻滚角)，pitch(俯仰角)，yaw(偏航角)表示机器人机体的各个姿态角。

关节稳定性奖励r_js用于提高机器人能量利用效率：

其中，t‘_i和t_i表示各个关节力矩的输出及其上个时间的力矩输出。

触地奖励r_F用于奖励机器人控制两侧轮胎与地面的接触力相同，降低训练生成奇异运动姿态的概率：

其中，和/>表示左右轮胎与地面接触力。

运动持续时间奖励值r_c用于鼓励机器人持续运动：

其中，T为常数。

S32：建立双网络结构的Actor网络与Critic网络，通过输入机器人状态观测值和机器人关节力矩的输出来计算价值Q网络的输出值。

其中，Actor网络根据环境状态输出动作a，用于策略部分的规划，即负责为智能体生成动作并与环境进行交互，Critic网络负责评估决策，以环境状态以及动作a作为输入，拟合价值函数，输出价值Q，即负责评价状态和动作的表现。

根据Q网络输入状态值s和动作值a来计算

其中，r是执行动作a后得到的奖励，max_a'Q(s'，a')是下一状态s'下所有动作a'中最大的Q值，γ为奖励折扣参数，且0≤γ≤1。

输出的使用上升策略更新策略网络参数：

其中，J表示策略网络的损失函数，Critic网络的更新以最小化Q估计值与Q目标值的均方误差为目标，计算损失函数J，从而更新策略网络参数。

其中，s_i，a_i，w分别表示当前机器人所处环境的环境状态，执行的动作姿态以及网络参数，y_i为目标Q值，即为

S33：根据在经验池中获取的随机迷你批的采样数据来计算输出值的最小贝尔曼误差，并计算策略网络的损失函数。

S34：根据单步梯度衰减更新Q网络的参数，并根据其增益更新策略网络。

所述步骤S34更新后的Q网络的参数包括下式：

其中，r表示奖励值，M表示随机迷你批，γ表示奖励折扣参数；Q'和μ‘表示Q网络和策略网络的目标网络，s_i为当前机器人所处环境的状态观测值。

θ‘＝ρθ‘+(1-ρ)θ

其中，θ表示策略网络和Q网络的参数，θ‘，/>表示目标网络参数，常数ρ表示折扣因子。

为了机器人在遇到障碍时可以更好的更迅速的做出反应，引入状态空间和动作空间的概念，具体的，所述机器人在遇到障碍时还执行以下步骤：

S41：将状态空间以机器人与障碍物的相对距离表示；

所述状态空间以机器人与障碍物的相对距离表示如下：

其中，[X₀，Y₀]为机器人的位置坐标，[X_i，Y_i]为障碍物的位置坐标，W为环境的宽度，H为环境的高度；

d_x＝step*a[0]，d_y＝step*a[1]

以上实施例仅用以说明本发明的技术方案，而非对其限制。

Claims

1.基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于，包括：

S1：根据检测的环境信息与障碍物信息判断通过策略，若通过策略判断为绕行时，执行步骤S2，若通过策略为变化姿态来越过障碍时，则执行步骤S3；

S2：基于轮腿机器人倒立摆模型进行动力学建模分析，并通过线性化表示与模型预测得到系统的离散时间模型，利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入；

2.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述步骤S1包括以下步骤：

S11：依据轮腿机器人自带的传感器获取周边的环境信息，并通过建立仿真环境，获取障碍物的数据信息；

3.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述步骤S2包括以下步骤：

S21：将预测时间段分解为k个时间节点，并建立系统的状态模型；

S22：基于倒立摆模型，对轮腿机器人进行动力学分析并将系统建模为一个离散时间的状态空间模型；

S23：对系统的状态模型进行线性化表示，并建立轮腿机器人的动力学模型；

S24：根据动力学模型进行模型预测求解，将动力学模型离散化，得到系统的离散时间模型，并建立离散的时间节点上模型输入、输出与控制变量之间的关系；

4.根据权利要求3所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述二次规划问题求解方法包括如下步骤：

S251：引入预测过程后，并考虑轮腿机器人的控制问题的情况下加入惩罚函数；

所述步骤S251得到的模型为：

J＝x(k)^TGx(k)+U(k)^THU(k)+2x(k)^TEU(k)

其中，Q、R是对角矩阵，F为施加到小车上的外力。

S252：并根据惩罚函数获取

所述步骤S25结束后还需要执行以下步骤：

S26：依据系统当前状态更新系统状态模型和控制器的状态，以便在下一时刻再次进行预测和优化。

5.根据权利要求3所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述步骤S23包括以下步骤：

S231：基于平衡点对状态空间模型进行线性化，并得到连续时间的状态方程；

S232：利用泰勒展开对所述模型进行线性化并省略二阶小量，获取轮腿机器人的动力学模型；

所述步骤S232得到的动力学模型为：

6.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述步骤S3包括以下步骤：

S31：将轮腿机器人运动控制器抽象为可感知和进行决策的智能体，同时根据马尔可夫决策过程将此智能体描述为四元数组；

S32：建立双网络结构的Actor网络与Critic网络，通过输入机器人状态观测值和机器人关节力矩的输出来计算价值Q网络的输出值；

S33：根据在经验池中获取的随机迷你批的采样数据来计算输出值的最小贝尔曼误差，并计算策略网络的损失函数；

S34：根据单步梯度衰减更新Q网络的参数，并根据其增益更新策略网络；

7.根据权利要求6所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述步骤S34更新后的Q网络的参数包括下式：

8.根据权利要求1-7任意一项所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述机器人在遇到障碍时还执行以下步骤：

S41：将状态空间以机器人与障碍物的相对距离表示；

9.根据权利要求8所述的基于模型预测和深度强化学习的轮腿机器人控制算法，其特征在于：所述状态空间以机器人与障碍物的相对距离表示如下：

d_x＝step*a[0]，d_y＝step*a[1]