CN118192558A - 基于模型预测和深度强化学习的轮腿机器人控制算法 - Google Patents
基于模型预测和深度强化学习的轮腿机器人控制算法 Download PDFInfo
- Publication number
- CN118192558A CN118192558A CN202410309004.1A CN202410309004A CN118192558A CN 118192558 A CN118192558 A CN 118192558A CN 202410309004 A CN202410309004 A CN 202410309004A CN 118192558 A CN118192558 A CN 118192558A
- Authority
- CN
- China
- Prior art keywords
- model
- robot
- wheel
- network
- obstacle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 230000009471 action Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000011217 control strategy Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004804 winding Methods 0.000 abstract 1
- 230000036544 posture Effects 0.000 description 18
- 230000006872 improvement Effects 0.000 description 8
- 238000012546 transfer Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/40—Control within particular dimensions
- G05D1/43—Control of position or course in two dimensions
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/617—Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
- G05D1/622—Obstacle avoidance
- G05D1/633—Dynamic obstacles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/644—Optimisation of travel parameters, e.g. of energy consumption, journey time or distance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/648—Performing a task within a working area or space, e.g. cleaning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/65—Following a desired speed profile
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2109/00—Types of controlled vehicles
- G05D2109/10—Land vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及机器人控制领域,尤其涉及基于模型预测和深度强化学习的轮腿机器人控制算法,包括:S1:判断通过策略判断为绕行时,执行步骤S2,判断通过策略为变化姿态来越过障碍时,则执行步骤S3;S2:基于轮腿机器人倒立摆模型进行动力学建模分析,并通过线性化表示与模型预测得到系统的离散时间模型,利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入;S3:对轮腿机器人进行模型分析,通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。本发明通过为轮腿机器人提供双模式的选择,能够保证机器人在遇上障碍物之类的意外情况时,能够自我调整通过模式,选择最高效的通过方法。
Description
技术领域
本发明涉及机器人控制领域,尤其涉及基于模型预测和深度强化学习的轮腿机器人控制算法。
背景技术
随着机械产业的不断发展,各种替代人类生产生活的机器人被设计并制造出来,而为了满足勘察、运输等需求,轮腿机器人应运而生,其具有速度快、效率高等优点,但轮腿机器人在实际应用时,由于其腿部结构的限制,在经过路况较差的位置时,容易产生侧翻等问题,缺乏在非结构化崎岖路段的适应能力和作业能力,为了解决这一问题,亟需设计一种针对轮腿机器人的控制算法。
发明内容
本发明针对现有技术存在的不足,提供如下技术方案:
基于模型预测和深度强化学习的轮腿机器人控制算法,包括:
S1:根据检测的环境信息与障碍物信息判断通过策略,若通过策略判断为绕行时,执行步骤S2,若通过策略为变化姿态来越过障碍时,则执行步骤S3。
S2:基于轮腿机器人倒立摆模型进行动力学建模分析,并通过线性化表示与模型预测得到系统的离散时间模型,利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入。
S3:对轮腿机器人进行模型分析,将机器人模拟为可以感知外界并行决策的智能体,通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。
作为上述技术方案的改进,所述步骤S1包括以下步骤:
S11:依据轮腿机器人自带的传感器获取周边的环境信息,并通过建立仿真环境,获取障碍物的数据信息。
S12:将障碍物的数据信息与轮腿机器人的机身高度、轮腿长度进行对比以确定采用绕行或变化姿态来越过障碍。
作为上述技术方案的改进,所述步骤S2包括以下步骤:
S21:将预测时间段分解为k个时间节点,并建立系统的状态模型。
S22:基于倒立摆模型,对轮腿机器人进行动力学分析并将系统建模为一个离散时间的状态空间模型。
S23:对系统的状态模型进行线性化表示,并建立轮腿机器人的动力学模型。
S24:根据动力学模型进行模型预测求解,将动力学模型离散化,得到系统的离散时间模型,并建立离散的时间节点上模型输入、输出与控制变量之间的关系。
S25:利用二次规划问题求解的方法,获取最优控制输入变量,并根据最优控制输入变量确定最优控制策略以确定当前时刻的控制输入。
作为上述技术方案的改进,所述二次规划问题求解方法包括如下步骤:
S251:引入预测过程后,并考虑轮腿机器人的控制问题的情况下加入惩罚函数.
S252:并根据惩罚函数获取
所述步骤S251得到的模型为:
J=x(k)TGx(k)+U(k)THU(k)+2x(k)TEU(k)
其中,x(k)为状态变量矩阵,U(k)为控制变量矩阵,k表示第k个时间节点,G为x(k)的二次项系数矩阵,H为U(k)的二次项系数矩阵,E为x(k)和U(k)的交叉项系数矩阵。
具体的:
其中,Q、R是对角矩阵,F为施加到小车上的外力。
作为上述技术方案的改进,所述步骤S23包括以下步骤:
S231:基于平衡点对状态空间模型进行线性化,并得到连续时间的状态方程。
S232:利用泰勒展开对所述模型进行线性化并省略二阶小量,获取轮腿机器人的动力学模型。
所述步骤S232得到的动力学模型为:
其中,m为倒立摆质量,M为小车质量,I为摆的长度,x为小车位置,θ为倒立摆偏角,l为倒立摆的转动惯量,F为施加到小车上的外力。
所述步骤S25结束后还需要执行以下步骤:
S26:依据系统当前状态更新模型和控制器的状态,以便在下一时刻再次进行预测和优化。
作为上述技术方案的改进,所述步骤S3包括以下步骤:
S31:将轮腿机器人运动控制器抽象为可感知和进行决策的智能体,同时根据马尔可夫决策过程将此智能体描述为四元数组。
S32:建立策略网络、决策网络以及双网络结构的Actor网络与Critic网络,通过输入机器人状态观测值和机器人关节力矩的输出来计算Q网络的输出值。
S33:根据随机迷你批采样数据来获取输出值的最小贝尔曼误差,并根据最小贝尔曼误差计算策略网络的损失函数。
S34:根据单步梯度衰减下降最小贝尔曼误差损失函数以更新Q网络的参数。
S35:通过在线网络的延迟更新目标网络函数以得出最优策略动作。
作为上述技术方案的改进,所述步骤S34更新后的Q网络的参数包括下式:
其中,r表示奖励值,M表示随机迷你批,γ表示奖励折扣参数,Q'和μ‘表示Q网络和策略网络的目标网络。
作为上述技术方案的改进,所述机器人在遇到障碍时还执行以下步骤:
S41:将状态空间以机器人与障碍物的相对距离表示。
S42:对相对距离表示进行归一化处理,得到机器人的实际移动动作姿态在空间上的表示。
作为上述技术方案的改进,所述状态空间以机器人与障碍物的相对距离表示如下:
其中,表示所处环境中障碍物的个数,和/>分别表示机器人与障碍物在x和y方向上的相对距离,所述相对距离表示为下式:
其中,[X0,Y0]为机器人的位置坐标,[Xi,Yi]为障碍物的位置坐标,W为环境的宽度,H为环境的高度。
所述机器人的实际移动动作姿态在空间上的表示如下式所示:
dx=step*a[0],dy=step*a[1]
其中,a为策略网络输出的最优执行的策略动作姿态,step为预设的长度,用于控制距离障碍物的远近,从而及时做出对应的姿态调整。
本发明的有益效果:
通过为轮腿机器人提供双模式的选择,能够保证机器人在遇上障碍物之类的意外情况时,能够自我调整通过模式,选择最高效的通过方法,不仅能够加快整体的工作效率,而且能够在某些不寻常的非结构化崎岖路段有着较好适应能力和作业能力,解决了轮腿机器人的避障问题。
附图说明
图1为本发明的逻辑框图;
图2为本发明的轮腿机器人选择模型预测控制避障时,机体俯仰角和横滚角的变化;
图3为本发明的轮腿机器人遇到障碍物的仿真环境。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
轮腿机器人由于其腿部结构的限制,在经过路况较差的位置时,容易产生侧翻等问题,缺乏在非结构化崎岖路段的适应能力和作业能力,为了解决这一问题,亟需设计一种针对轮腿机器人的控制算法。
为了解决上述问题,提供一种基于模型预测和深度强化学习的轮腿机器人控制算法,包括:
S1:根据检测的环境信息与障碍物信息判断通过策略,若通过策略判断为绕行时,执行步骤S2,若通过策略为变化姿态来越过障碍时,则执行步骤S3。
具体的,所述步骤S1包括以下步骤:
S11:依据轮腿机器人自带的传感器获取周边的环境信息,并通过建立仿真环境,获取障碍物的数据信息。
S12:将障碍物的数据信息与轮腿机器人的机身高度、轮腿长度进行对比以确定采用绕行或变化姿态来越过障碍。
障碍物的数据通常包括障碍物的高度、宽度等参数,在确定轮腿机器人的机身高度以及轮腿长度后,即可判断机体是否能够通过变化姿态的方式通过障碍物,若经过判断能够直接采用变化姿态的形式越过障碍物,则直接越过即可,若判断无法直接越过。
S2:基于轮腿机器人倒立摆模型进行动力学建模分析,并通过线性化表示与模型预测得到系统的离散时间模型,利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入。
所述步骤S2包括以下步骤:
S21:将预测时间段分解为k个时间节点,并建立系统的状态模型。
系统的状态模型如下:
xk+1=An×nxk+Bn×puk
其中,x(k+1)∈Rn是状态变量,uK∈Rl是控制量,An×n、Bn×p为常量矩阵。
设定预测步数为N,那么状态量表示为:
控制量表示为:
S22:基于倒立摆模型,对轮腿机器人进行动力学分析并将系统建模为一个离散时间的状态空间模型。
离散时间的状态空间模型如下:
其中,x小车位置,θ倒立摆偏角,F施加到小车上的外力,l倒立摆的转动惯量,I摆的长度,w外部的扰动力(例如风阻),M小车质量,g重力加速度,m倒立摆质量,bcbp小车和摆的摩擦系数。
S23:对系统的状态模型进行线性化表示,并建立轮腿机器人的动力学模型。
具体的,所述步骤S23包括以下步骤:
S231:基于平衡点对状态空间模型进行线性化,并得到连续时间的状态方程。
其中,x、u为离散的时间节点上模型输入、输出与控制变量。
上式转换后得到:
其中,m倒立摆质量,M小车质量,I摆的长度,bcbp小车和摆的摩擦系数,g重力加速度。
S232:利用泰勒展开对所述模型进行线性化并省略二阶小量,获取轮腿机器人的动力学模型。
所述步骤S232得到的动力学模型为:
其中,m为倒立摆质量,M为小车质量,I为摆的长度,x为小车位置,θ为倒立摆偏角,l为倒立摆的转动惯量,F为施加到小车上的外力。
S24:根据动力学模型进行模型预测求解,将动力学模型离散化,得到系统的离散时间模型,并建立离散的时间节点上模型输入、输出与控制变量之间的关系。
具体的,首先获取连续时间的状态方程如下:
对状态方程求解得到下式:
x(t)=x(0)eAt+∫Budt
取t=Δt,带入方程解为:
考虑在Δt时间内系统输入为恒定值,所以方程化简为:
x(Δt)=x(0)eAΔt+BuΔt
得到预测时间相邻两个时间节点的输入、输出、控制量之间的关系为:
x(i+1)=x(i)eAΔt+BuΔt
其中,x(i+1)、x(i)是相邻的两个时间节点,矩阵A是一个常值矩阵,但是矩阵B的值与机器人的当前状态相关,在预测过程中需要根据当前时间节点预测的机器人状态变量的值进行更新,u为控制变量。
S25:利用二次规划问题求解的方法,获取最优控制输入变量,并根据最优控制输入变量确定最优控制策略以确定当前时刻的控制输入。
所述二次规划问题求解方法包括如下步骤:
S251:引入预测过程后,并考虑轮腿机器人的控制问题的情况下加入惩罚函数。
具体的,在引入预测过程后,得到下式:
X(k)=Mx(k)+CU(k)
其中,M为惩罚因子,C为常数矩阵,
考虑轮腿机器人控制性能最优、预测状态约束等问题,引入惩罚函数:
转化为二次规划的形式,如下:
J=x(k)TGx(k)+U(k)THU(k)+2x(k)TEU(k)
上式中,x(k)为状态变量矩阵,U(k)为控制变量矩阵,k表示第k个时间节点,G为x(k)的二次项系数矩阵,H为U(k)的二次项系数矩阵,E为x(k)和U(k)的交叉项系数矩阵。
具体的:
其中,Q、R是对角矩阵,F为施加到小车上的外力
S252:并根据惩罚函数获取
所述步骤S25结束后还需要执行以下步骤:
S26:依据系统当前状态更新系统的状态模型和控制器的状态,以便在下一时刻再次进行预测和优化。
实际应用时,系统会不断循环执行上述步骤,使系统在选择绕行时,始终保持在最优控制策略下运行。
S3:对轮腿机器人进行模型分析,将机器人模拟为可以感知外界并行决策的智能体,通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。
具体的,所述步骤S3包括以下步骤:
S31:将轮腿机器人运动控制器抽象为可感知和进行决策的智能体,同时根据马尔可夫决策过程将此智能体描述为四元数组。
四元数组为:(s,a,p,r),其中,s为智能体状态空间(机器人状态观测值),a为智能体动作空间(机器人关节力矩的输出),p为状态转移函数(关节力矩输出后机器人状态的转移),r为奖励函数(状态转移的适应度)。
首先根据环境观测之后,记录此时此刻记为时间t-1,机器人执行的动作为at-1,在t时刻分别判断执行动作at和at-1后是否会影响机器人正常运行,即是否会碰撞到障碍物,若继续执行at-1动作会导致碰撞,但at不会,就认为at是正确恰当的避障动作姿态。
当判断at为合适的动作姿态时,将此避障标志置为true,且给予奖励值r,对于某一时刻智能体的状态,通过策略网络输入后,可输出一个确定动作a:
at=μθ(s)+Nt
其中,Nt表示随机噪声,用于在智能体在学习过程中对环境进行随机探索。
综合考虑机器人运动状态以及智能体的处理效能,环境等因素,同时选择多个观察测试值,并且在其基础上设置多个加权奖励值r,用于鼓励机器人在崎岖非平整路面的多种运动,保障其稳定快速运行,下列各式中ki为不同奖励机制的相应权值。
考虑轮腿机器人的运动状态,选择观测值:机器人位置[x,y,z],机器人姿态角[roll,pitch,yaw],机器人速度[vx,vy,vz],轮胎与地面接触力关节力矩输出/> 上一次关节力矩输出
速度奖励值rv用于鼓励机器人向前运动:
rv=k1vx
其中,vx为机器人在x轴上的速度。
稳定性奖励值rs用于奖励机器人在瞬时和全局决策完成平稳的运动:
rs=-(y-yinit)2-k3(z-zinit)2-k4roll2-k5pitch2
-k6yaw2
其中,y,z表示当前机器人机体在y,z轴上位置;yinit,zinit表示机器人机体初始位置;roll(翻滚角),pitch(俯仰角),yaw(偏航角)表示机器人机体的各个姿态角。
关节稳定性奖励rjs用于提高机器人能量利用效率:
其中,t‘i和ti表示各个关节力矩的输出及其上个时间的力矩输出。
触地奖励rF用于奖励机器人控制两侧轮胎与地面的接触力相同,降低训练生成奇异运动姿态的概率:
其中,和/>表示左右轮胎与地面接触力。
运动持续时间奖励值rc用于鼓励机器人持续运动:
其中,T为常数。
S32:建立双网络结构的Actor网络与Critic网络,通过输入机器人状态观测值和机器人关节力矩的输出来计算价值Q网络的输出值。
其中,Actor网络根据环境状态输出动作a,用于策略部分的规划,即负责为智能体生成动作并与环境进行交互,Critic网络负责评估决策,以环境状态以及动作a作为输入,拟合价值函数,输出价值Q,即负责评价状态和动作的表现。
根据Q网络输入状态值s和动作值a来计算
其中,r是执行动作a后得到的奖励,maxa'Q(s',a')是下一状态s'下所有动作a'中最大的Q值,γ为奖励折扣参数,且0≤γ≤1。
输出的使用上升策略更新策略网络参数:
其中,J表示策略网络的损失函数,Critic网络的更新以最小化Q估计值与Q目标值的均方误差为目标,计算损失函数J,从而更新策略网络参数。
其中,si,ai,w分别表示当前机器人所处环境的环境状态,执行的动作姿态以及网络参数,yi为目标Q值,即为
S33:根据在经验池中获取的随机迷你批的采样数据来计算输出值的最小贝尔曼误差,并计算策略网络的损失函数。
S34:根据单步梯度衰减更新Q网络的参数,并根据其增益更新策略网络。
所述步骤S34更新后的Q网络的参数包括下式:
其中,r表示奖励值,M表示随机迷你批,γ表示奖励折扣参数;Q'和μ‘表示Q网络和策略网络的目标网络,si为当前机器人所处环境的状态观测值。
S35:通过在线网络的延迟更新目标网络函数以得出最优策略动作。
θ‘=ρθ‘+(1-ρ)θ
其中,θ表示策略网络和Q网络的参数,θ‘,/>表示目标网络参数,常数ρ表示折扣因子。
为了机器人在遇到障碍时可以更好的更迅速的做出反应,引入状态空间和动作空间的概念,具体的,所述机器人在遇到障碍时还执行以下步骤:
S41:将状态空间以机器人与障碍物的相对距离表示;
S42:对相对距离表示进行归一化处理,得到机器人的实际移动动作姿态在空间上的表示。
所述状态空间以机器人与障碍物的相对距离表示如下:
其中,表示所处环境中障碍物的个数,和/>分别表示机器人与障碍物在x和y方向上的相对距离,所述相对距离表示为下式:
其中,[X0,Y0]为机器人的位置坐标,[Xi,Yi]为障碍物的位置坐标,W为环境的宽度,H为环境的高度;
所述机器人的实际移动动作姿态在空间上的表示如下式所示:
dx=step*a[0],dy=step*a[1]
其中,a为策略网络输出的最优执行的策略动作姿态,step为预设的长度,用于控制距离障碍物的远近,从而及时做出对应的姿态调整。
以上实施例仅用以说明本发明的技术方案,而非对其限制。
Claims (9)
1.基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于,包括:
S1:根据检测的环境信息与障碍物信息判断通过策略,若通过策略判断为绕行时,执行步骤S2,若通过策略为变化姿态来越过障碍时,则执行步骤S3;
S2:基于轮腿机器人倒立摆模型进行动力学建模分析,并通过线性化表示与模型预测得到系统的离散时间模型,利用二次规划问题求解的方法来获取最优控制输入变量并确定当前时刻的控制输入;
S3:对轮腿机器人进行模型分析,将机器人模拟为可以感知外界并行决策的智能体,通过深度强化学习算法进行分析调整以确定适应环境的最优策略动作。
2.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述步骤S1包括以下步骤:
S11:依据轮腿机器人自带的传感器获取周边的环境信息,并通过建立仿真环境,获取障碍物的数据信息;
S12:将障碍物的数据信息与轮腿机器人的机身高度、轮腿长度进行对比以确定采用绕行或变化姿态来越过障碍。
3.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述步骤S2包括以下步骤:
S21:将预测时间段分解为k个时间节点,并建立系统的状态模型;
S22:基于倒立摆模型,对轮腿机器人进行动力学分析并将系统建模为一个离散时间的状态空间模型;
S23:对系统的状态模型进行线性化表示,并建立轮腿机器人的动力学模型;
S24:根据动力学模型进行模型预测求解,将动力学模型离散化,得到系统的离散时间模型,并建立离散的时间节点上模型输入、输出与控制变量之间的关系;
S25:利用二次规划问题求解的方法,获取最优控制输入变量,并根据最优控制输入变量确定最优控制策略以确定当前时刻的控制输入。
4.根据权利要求3所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述二次规划问题求解方法包括如下步骤:
S251:引入预测过程后,并考虑轮腿机器人的控制问题的情况下加入惩罚函数;
所述步骤S251得到的模型为:
J=x(k)TGx(k)+U(k)THU(k)+2x(k)TEU(k)
其中,x(k)为状态变量矩阵,U(k)为控制变量矩阵,k表示第k个时间节点,G为x(k)的二次项系数矩阵,H为U(k)的二次项系数矩阵,E为x(k)和U(k)的交叉项系数矩阵。
其中,Q、R是对角矩阵,F为施加到小车上的外力。
S252:并根据惩罚函数获取
所述步骤S25结束后还需要执行以下步骤:
S26:依据系统当前状态更新系统状态模型和控制器的状态,以便在下一时刻再次进行预测和优化。
5.根据权利要求3所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述步骤S23包括以下步骤:
S231:基于平衡点对状态空间模型进行线性化,并得到连续时间的状态方程;
S232:利用泰勒展开对所述模型进行线性化并省略二阶小量,获取轮腿机器人的动力学模型;
所述步骤S232得到的动力学模型为:
其中,m为倒立摆质量,M为小车质量,I为摆的长度,x为小车位置,θ为倒立摆偏角,l为倒立摆的转动惯量,F为施加到小车上的外力。
6.根据权利要求1所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述步骤S3包括以下步骤:
S31:将轮腿机器人运动控制器抽象为可感知和进行决策的智能体,同时根据马尔可夫决策过程将此智能体描述为四元数组;
S32:建立双网络结构的Actor网络与Critic网络,通过输入机器人状态观测值和机器人关节力矩的输出来计算价值Q网络的输出值;
S33:根据在经验池中获取的随机迷你批的采样数据来计算输出值的最小贝尔曼误差,并计算策略网络的损失函数;
S34:根据单步梯度衰减更新Q网络的参数,并根据其增益更新策略网络;
S35:通过在线网络的延迟更新目标网络函数以得出最优策略动作。
7.根据权利要求6所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述步骤S34更新后的Q网络的参数包括下式:
其中,r表示奖励值,M表示随机迷你批,γ表示奖励折扣参数;Q'和μ‘表示Q网络和策略网络的目标网络,si为当前机器人所处环境的状态观测值。
8.根据权利要求1-7任意一项所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述机器人在遇到障碍时还执行以下步骤:
S41:将状态空间以机器人与障碍物的相对距离表示;
S42:对相对距离表示进行归一化处理,得到机器人的实际移动动作姿态在空间上的表示。
9.根据权利要求8所述的基于模型预测和深度强化学习的轮腿机器人控制算法,其特征在于:所述状态空间以机器人与障碍物的相对距离表示如下:
其中,表示所处环境中障碍物的个数,和/>分别表示机器人与障碍物在x和y方向上的相对距离,所述相对距离表示为下式:
其中,[X0,Y0]为机器人的位置坐标,[Xi,Yi]为障碍物的位置坐标,W为环境的宽度,H为环境的高度;
所述机器人的实际移动动作姿态在空间上的表示如下式所示:
dx=step*a[0],dy=step*a[1]
其中,a为策略网络输出的最优执行的策略动作姿态,step为预设的长度,用于控制距离障碍物的远近,从而及时做出对应的姿态调整。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410309004.1A CN118192558A (zh) | 2024-03-19 | 2024-03-19 | 基于模型预测和深度强化学习的轮腿机器人控制算法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410309004.1A CN118192558A (zh) | 2024-03-19 | 2024-03-19 | 基于模型预测和深度强化学习的轮腿机器人控制算法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118192558A true CN118192558A (zh) | 2024-06-14 |
Family
ID=91409560
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410309004.1A Pending CN118192558A (zh) | 2024-03-19 | 2024-03-19 | 基于模型预测和深度强化学习的轮腿机器人控制算法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118192558A (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118636196A (zh) * | 2024-08-14 | 2024-09-13 | 武汉理工大学 | 一种轮腿机器人的足端接触力与位置检测方法及系统 |
| CN119087810A (zh) * | 2024-09-02 | 2024-12-06 | 安徽大学 | 一种考虑人机交互的下肢康复外骨骼机器人最优约束跟随控制方法 |
| CN119200619A (zh) * | 2024-11-27 | 2024-12-27 | 山东大学 | 基于强化学习与复合模型的四足机器人控制方法及系统 |
| CN119871459A (zh) * | 2025-03-26 | 2025-04-25 | 中国科学院自动化研究所 | 面向移动机械臂全身运动规划的优化方法 |
-
2024
- 2024-03-19 CN CN202410309004.1A patent/CN118192558A/zh active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118636196A (zh) * | 2024-08-14 | 2024-09-13 | 武汉理工大学 | 一种轮腿机器人的足端接触力与位置检测方法及系统 |
| CN119087810A (zh) * | 2024-09-02 | 2024-12-06 | 安徽大学 | 一种考虑人机交互的下肢康复外骨骼机器人最优约束跟随控制方法 |
| CN119200619A (zh) * | 2024-11-27 | 2024-12-27 | 山东大学 | 基于强化学习与复合模型的四足机器人控制方法及系统 |
| CN119871459A (zh) * | 2025-03-26 | 2025-04-25 | 中国科学院自动化研究所 | 面向移动机械臂全身运动规划的优化方法 |
| CN119871459B (zh) * | 2025-03-26 | 2025-07-08 | 中国科学院自动化研究所 | 面向移动机械臂全身运动规划的优化方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN118192558A (zh) | 基于模型预测和深度强化学习的轮腿机器人控制算法 | |
| Liu et al. | Adaptive finite-time control for half-vehicle active suspension systems with uncertain dynamics | |
| CN108646734B (zh) | 基于量子粒子群算法的非线性模型预测控制方法 | |
| Capi et al. | Application of genetic algorithms for biped robot gait synthesis optimization during walking and going up-stairs | |
| Chew et al. | Dynamic bipedal walking assisted by learning | |
| CN115542733B (zh) | 基于深度强化学习的自适应动态窗口法 | |
| CN116551703B (zh) | 一种复杂环境下基于机器学习的运动规划方法 | |
| Valasek et al. | A reinforcement learning-adaptive control architecture for morphing | |
| CN116225004A (zh) | 一种六轮独立驱动独立转向机器人的避障方法 | |
| CN115167102A (zh) | 一种基于并行优势动作评价的强化学习自适应pid控制方法 | |
| Eshkevari et al. | RL-Controller: a reinforcement learning framework for active structural control | |
| CN115167393B (zh) | 未知环境下基于改进蚁群和动态窗口法的路径规划方法 | |
| CN119328772B (zh) | 一种用于串联式四足轮腿机器人的姿态控制方法及系统 | |
| CN114879207A (zh) | 一种用于l4级自动驾驶车辆的超声波避障方法 | |
| Wang et al. | Learning to navigate for mobile robot with continual reinforcement learning | |
| CN119105285A (zh) | 多仓储机器人强化学习调度的自适应修正奖励塑形方法 | |
| CN118760164A (zh) | 一种针对低附着地形下的四足机器人滑移估计与控制方法 | |
| Li et al. | Force Feedback Event Triggering-Based Tracking Control for Wheeled Mobile Robots | |
| CN118131628A (zh) | 一种基于多目标点信息融合的移动机器人跟踪控制方法 | |
| CN118536793A (zh) | 一种感知盲区场景下自动驾驶车辆风险评估及交互规划系统 | |
| Martinez et al. | Deep reinforcement learning oriented for real world dynamic scenarios | |
| Zhang et al. | Teach biped robots to walk via gait principles and reinforcement learning with adversarial critics | |
| Liu et al. | Two-layer path planning framework for WMRs in dynamic environments: Optimized ant colony algorithm and dynamic window approach | |
| Vladareanu et al. | The petri nets and Markov chains approach for the walking robots dynamical stability control | |
| Setiawan et al. | Exploring Deep Q-Network for Autonomous Driving Simulation Across Different Driving Modes |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |