CN117302208A - 一种基于风险态势感知约束策略优化的车道保持辅助方法 - Google Patents
一种基于风险态势感知约束策略优化的车道保持辅助方法 Download PDFInfo
- Publication number
- CN117302208A CN117302208A CN202311348655.3A CN202311348655A CN117302208A CN 117302208 A CN117302208 A CN 117302208A CN 202311348655 A CN202311348655 A CN 202311348655A CN 117302208 A CN117302208 A CN 117302208A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- function
- strategy
- lane
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000005457 optimization Methods 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 83
- 230000006399 behavior Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 12
- 230000008901 benefit Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 claims 2
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 claims 2
- 230000003542 behavioural effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 32
- 230000002787 reinforcement Effects 0.000 abstract description 12
- 230000007547 defect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0011—Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明适用于自动驾驶辅助技术领域,提供了一种基于风险态势感知约束策略优化的车道保持辅助方法,其在策略强化学习的过程中,通过实施量化风险评估,以及面向不同层级风险的安全约束策略优化方法,使得学习的策略能够始终满足安全约束开销低于预先设置的阈值,实现稳健的安全控制。本方法克服了MPC算法所需计算资源与时间要求较高的缺点;同时克服了传统的深度强化学习方法用于安全关键领域中安全性欠佳的问题。测试结果表明,基于风险态势感知约束策略优化的车道保持辅助方法能够持续稳定控制车辆在预期车道内平稳与安全行驶,并兼顾高舒适性。
Description
技术领域
本发明属于自动驾驶辅助技术领域,尤其涉及一种基于风险态势感知约束策略优化的车道保持辅助方法。
背景技术
车道保持辅助(Lane Keeping Assist,LKA)是一种辅助驾驶技术,旨在帮助驾驶员在驾驶过程中保持车辆在车道内稳定行驶,其通过使用摄像头和雷达等传感器来感知车辆周围的环境,实时监测车辆的运动状态,并在偏离车道时自动调整车辆的方向,改变转向力或车辆制动力来纠正车辆的轨迹,以确保车辆始终保持在正确的车道上。
传统的车道保持辅助技术控制方法主要是通过使用优化控制方法,如模型预测控制(Model Predictive Control,MPC)等实现,该方法是通过车辆动力学模型对车辆在未来一段时间内的轨迹进行预测,并根据预测结果制定最佳的控制策略,使车辆能够准确地跟踪所设定的车道线。MPC方法在每个时间步都会重新计算轨迹预测和控制策略,以适应实时环境变化和车辆动态特性。这需要基于车辆的动力学模型,考虑车辆质量、惯性和摩擦力等因素来建立一个准确的模型。同时,还需要获取道路信息,如车道线、障碍物等,以便预测车辆在道路上的位置和行驶轨迹。MPC方法具有很多优势,它能够准确地预测和控制车辆的行驶轨迹,提高行驶的稳定性和安全性,并且可以适应不同的道路条件和环境变化,具有较好的适应性。但同时MPC方法需要实时计算和优化控制策略,对计算资源和时间要求较高。此外,还需要考虑车辆的实际硬件和传感器的性能以保证控制策略的实时性和可行性,所需成本较高。
除了传统的控制方法外,深度强化学习(Deep Reinforcement Learning,DRL)在车道保持辅助技术中的应用也越来越受到关注。相比于传统的MPC方法,深度强化学习是一种基于人工智能的学习方法,通过构建神经网络模型,模拟人类的学习和决策过程。它通过试错学习的方式来优化决策的准确性和效果,从而使机器能够自主地做出正确的决策。在车道保持辅助中,深度强化学习可以通过训练神经网络模型,使其能够学习到车道的特征和规律,从而准确地判断车道的位置和形状,确保车辆始终保持在正确的车道上行驶。深度强化学习在车道保持中的应用还可以通过建立奖励机制来优化决策的效果,通过不断的试错和调整,深度强化学习可以提高车辆的自主驾驶能力,最终实现精准的车道保持。但在现有的基于强化学习的车道保持辅助方法中,普遍缺乏对于安全性的考虑,这就导致在实际的交通场景中,对于自动驾驶车辆存在着一定的安全隐患。
发明内容
本发明实施例的目的在于提供一种基于风险态势感知约束策略优化(HazardousSituation-Aware Constrained Policy Optimization,HSCPO)的车道保持辅助(LaneKeeping Assist,LKA)方法,旨在解决上述背景技术中提出的问题。
本发明实施例是这样实现的,一种基于风险态势感知约束策略优化的车道保持辅助方法,包括以下步骤:
步骤1、环境交互采样:将车道保持辅助系统的运行建模为一个约束马尔可夫决策过程,包括状态空间、行为空间、性能奖励函数以及安全开销函数。车辆与环境之间进行交互,并实时观测当前所处环境,从环境中收集到当前状态空间,由当前的策略神经网络接收到状态并映射到行为,然后由车辆执行该行为。在执行该行为后车辆继续与环境进行交互,从而获得新的状态空间,同时得到奖励值与开销值,由此形成车辆与环境交互的闭环。
步骤2、风险感知约束策略优化:利用环境交互采样搜集到的轨迹数据,通过HSCPO方法量化估计策略更新导致车辆进入危险态势的等级,并面向的危险态势等级不同进行安全约束策略神经网络更新,能够在保持安全开销函数小于指定阈值的同时,最大化预期的奖励。
步骤3、通过步骤1和步骤2的持续协同,直至训练出的策略能够达到理想的LKA性能。
进一步的技术方案,所述步骤1包括以下具体步骤:
步骤1.1、状态空间与行为空间建模:状态空间定义为车辆的横向偏差u1与相对偏航角u2,即/>其中横向偏差为车辆与车道中心线的距离,相对偏航角为车辆的瞬时速度与车道线切线间的夹角。行为空间定义/>为车辆的航向角ψ,即车辆前轮与车辆纵向轴线(即车身前进方向)之间的夹角。车道保持策略的输入为当前车辆的横向偏差u1与相对偏航角u2,在车辆即将偏离车道时,其能够准确地输出航向角ψ,引导车辆行驶回指定车道中。
步骤1.2、奖励函数与开销函数设计:本发明的性能奖励函数与目标车辆的行驶距离、横向偏差和相对偏航角有关,用奖励函数来引导强化学习策略向安全性与舒适性的方向更新;安全开销函数/>与车辆是否发生碰撞以及偏离车道是否达到临界距离有关,通过开销函数能够引导车辆避免发生偏离车道的危险行为。
进一步的技术方案,在所述步骤2中,策略优化受限于KL(Kullback-Leibler)散度形成的信任域与安全开销形成的约束域,根据信任域与约束域之间的相对位置关系,策略更新导致车辆处于危险态势的可能性分为三个等级:
无风险:奖励函数引导的更新策略完全处于信任域与约束域交叉范围内,即当前策略整体的安全水平较高。在此情况下,即便不施加安全开销约束,仅在KL散度限定的信任区域内更新策略也不会导致车辆进入危险态势。因此,本发明采用信任域策略优化(TrustRegion Policy Optimization,TRPO)算法更新策略。
中度风险:奖励函数引导的更新策略部分处于信任域与约束域交叉范围内,最大化奖励更新的策略处于约束区域之外,即当前策略处于中风险水平。在此情况下,如在不施加安全约束的前提下更新策略将导致车辆进入危险态势,策略安全更新需要牺牲一部分奖励来实现。因此,本发明采用约束策略更新方法。
高风险:奖励函数引导的更新策略完全处于约束区域之外,信任域与约束区域无重叠,即当前策略处于高风险水平。在此情况下,策略更新无法使其返回到约束区域内。因此,回溯搜索方法用于寻找适当更新策略的参数。
本发明实施例提供的一种基于风险态势感知约束策略优化的车道保持辅助方法,其在策略强化学习的过程中,通过实施量化风险评估,以及面向不同层级风险的安全约束策略优化方法,使得学习的策略能够始终满足安全约束开销低于预先设置的阈值,实现稳健的安全控制。本方法克服了MPC算法所需计算资源与时间要求较高的缺点;同时克服了传统的深度强化学习方法用于安全关键领域中安全性欠佳的问题。测试结果表明,基于风险态势感知约束策略优化的车道保持辅助方法能够持续稳定控制车辆在预期车道内平稳与安全行驶,并兼顾高舒适性。
附图说明
图1为本发明实施例提供的一种基于风险态势感知约束策略优化的车道保持辅助方法的架构图;
图2为车辆横向偏差与相对偏航角示意图;
图3为本发明实施例提供的一种基于风险态势感知约束策略优化的车道保持辅助方法的训练过程性能分析图;
图4为直道测试场景仿真验证图;
图5为直道中测试的横向偏差图;
图6为直道测试的相对偏航角结果图;
图7为直道测试的航向角结果图;
图8为弯道测试场景仿真验证图;
图9为弯道测试的横向偏差结果图;
图10为弯道测试的相对偏航角结果图;
图11为弯道测试的航向角结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,为本发明一个实施例提供的一种基于风险态势感知约束策略优化的车道保持辅助方法,包括以下步骤:
步骤1、环境交互采样:将车道保持辅助系统的运行建模为一个约束马尔可夫决策过程,包括状态空间、行为空间、性能奖励函数以及安全开销函数。车辆与环境之间进行交互,并实时观测当前所处环境,从环境中收集到当前状态空间,由当前的策略神经网络接收到状态并映射到行为,然后由车辆执行该行为。在执行该行为后车辆继续与环境进行交互,从而获得新的状态空间,同时得到奖励值与开销值,由此形成车辆与环境交互的闭环。
步骤2、风险感知约束策略优化:利用环境交互采样搜集到的轨迹数据,通过HSCPO方法量化估计策略更新导致车辆进入危险态势的等级,并面向不同的危险态势等级进行安全约束策略神经网络更新,能够在保持安全开销函数小于指定阈值的同时,最大化预期的奖励。
步骤3、通过步骤1和步骤2的持续协同,直至训练出的策略能够达到理想的LKA性能。
作为本发明的一种优选实施例,所述步骤1包括以下具体步骤:
步骤1.1、状态空间与行为空间建模:定义状态空间为其中u1表示车辆行驶的横向偏差,即车辆与车道中心线的距离;u2表示车辆的相对偏航角,即车辆的瞬时速度与车道线切线间的夹角,具体示意图如图2所示。这两个数据均通过采集Carla仿真数据后编写函数计算得到,作为策略神经网络的输入。
定义行为空间ψ表示车辆的航向角,即车辆前轮与车辆纵向轴线(即车身前进方向)之间的夹角。航向角为策略神经网络的输出,在实际情况中表示当车辆具有一定的横向偏差与相对偏航角之后,模型会输出相应的航向角,从而引导车辆驶回指定的车道上。
步骤1.2、奖励函数与开销函数设计:车道保持辅助系统的功能是车道偏离抑制,即在车辆将发生车道偏离时控制车辆横向运动,将车辆保持在原车道内行驶。由于车道保持辅助系统是在车辆即将发生车道偏离时才对车辆进行控制,其他时间不干预车辆运动。因此,本方法中策略神经网络应该只在车辆即将偏离车道时接管,为满足上述要求,在奖励函数中设置了一个逻辑值系数车道保持辅助系统确定的奖励函数为:
设置判断车辆是否即将偏离车道的标准为车辆距离车道线是否达到0.2m,若不足0.2m则说明车辆有偏离车道风险。当车轮外缘距离车道线不足0.2m时值取1,否则取0。通过以上设计,当车辆没有偏离车道风险时,奖励价值网络不对其输出奖励值。rdistance与rdeviation都是逻辑值,每当车辆行驶200m时rdistance取40,否则取0;每当车轮外缘超过车道边界大于0.4m时rdeviation取-10,否则取0。rdistance可以使车辆在成功沿车道行驶相应距离后提升奖励,通过该部分的奖励可以引导车辆沿车道线向前行驶以达到奖励最大化。逻辑值rdeviation的作用是当车辆偏离车道线时奖励值降低,为了使奖励最大化,模型会引导车辆避免偏离车道以达到车道保持辅助系统的目的。rcollision表示与碰撞相关的奖励值,公式如下所示:
当发生碰撞时,取-50,未发生碰撞时,/>取0。
此外,在奖励函数中,rlateral是关于横向偏差的奖励值,rangle是相对偏航角的奖励值。通过采集仿真数据后使用函数计算能够获得当前位置和车道中心线的偏移距离以及当前速度与车道线切线的夹角;当车辆的相对偏航角不等于0时,它会偏离车道并导致横向偏差增加。然而,通常希望车辆的横向偏差保持在零附近,即横向偏差越大则应该得到越少的奖励,因此在奖励函数中rlateral与rangle分别表示横向偏差和相对偏航角的绝对值乘以系数与/>如公式(3)与公式(4)所示。由此来实现车辆行驶偏离越大,奖励函数越小的目的。
安全开销函数的设计与车辆偏离车道是否达到临界值有关,表示为
当车轮外缘超过车道边界大于0.4m时cdeviation取1,否则cdeviation取0;ccollision表示与碰撞相关的安全开销值,
与奖励函数类似,当发生碰撞时,取-50,未发生碰撞时,/>取0。
作为本发明的一种优选实施例,所述步骤2包括以下具体步骤:
首先介绍策略更新的优化目标。根据上一步环境交互采样中收集到的轨迹数据τ=(st,at,rt,ct,st+1),若当前的策略为πk,可行策略集为Πc,关于奖励函数的期望折扣回报为则策略优化的目标为:
在实现上述优化目标的同时,也需要保证更新后的策略满足安全阈值约束,用di来表示此安全阈值,则可行策略集表示为:
其中表示策略π关于安全开销函数的期望折扣回报,则公式(8)也可以表示为:
以奖励函数R(st,at,st+1)为例,通常使用来表示动作值函数,即在状态st下,当采取动作at时对应的价值;使用来表示状态值函数,即在状态st下,对所有可能动作a而言的期望价值;Aπ(s,a)=Qπ(s,a)-Vπ(s,a)表示优势函数,反映了在状态st下,选取某一个动作对应的价值,和对于所有可能动作的期望价值的差。
在求解优势函数时,可以由广义优势估计(Generalized advantage estimation,GAE)近似求得:
其中,δt表示时序差分误差(Temporal Difference Error),可以通过状态值函数Vπ(s)求得:
δt=rt+γV(st+1)-V(st) (11)
根据公式(10)~(11),可以推导得出奖励函数折扣优势汇报的增量式:
所以策略优化的目标可以写成:
然后考虑策略的更新方式,策略优化受限于KL度形成的信任域与安全开销形成的约束域,根据信任域与约束域之间的相对位置关系,同时分别设定三个判断指标gc、和L,其中/>表示安全开销优势函数的梯度,/>表示当前策略的安全开销函数的期望折扣回报与安全阈值的接近程度,/>表示信任域与约束域的交叉状态。策略更新导致车辆处于危险态势的可能性分为三个等级:
无风险:当gc<1e-8时,表示当前策略及策略周围邻域都处于危险势能较低的状态,此时朝任意方向更新策略均不会有危险;当L<0并且时,奖励函数引导的更新策略完全处于信任域与约束域交叉范围内,即当前策略整体的安全水平较高。在此情况下,即便不施加安全开销约束,仅在KL散度限定的信任区域内更新策略也不会导致车辆进入危险态势。因此,在这种安全等级下采用信任域策略优化(Trust Region PolicyOptimization,TRPO)算法更新策略。TRPO限制了每次更新时策略的最大变化量,通过在最近迭代的策略πk的一个局部邻域上最大化奖励优势函数来迭代更新:
将公式(14)中的目标函数与分别进行二阶Taylor展开,并作近似处理后得到目标函数与约束条件如下:
其中表示奖励优势函数的梯度,H表示/>二阶Taylor展开后的Hessian矩阵,根据公式(15)的KKT(Karush-Kuhn-Tucker)条件求解得到策略参数更新公式:
中风险:当L>0时,奖励函数引导的更新策略部分处于信任域与约束域交叉范围内,最大化奖励更新的策略处于约束区域之外,即当前策略处于中风险水平。在此情况下,如在不施加安全约束的前提下更新策略将导致车辆进入危险态势,策略安全更新需要牺牲一部分奖励来实现。因此,采用约束策略优化方法来更新策略:
同理,将公式(17)中目标函数与约束条件进行二阶Taylor展开并作近似处理,定义上式可以近似为:
其中表示奖励优势函数的梯度,/>表示安全开销优势函数的梯度,H表示/>二阶Taylor展开后的Hessian矩阵,根据公式(18)的KKT(Karush-Kuhn-Tucker)条件求解得到策略参数更新公式:
其中α由线性搜索获得,KKT条件中的拉格朗日乘子v*与λ*计算如下:
高风险:若L<且时,奖励函数引导的更新策略完全处于约束区域之外,信任域与约束区域无重叠,即当前策略处于高风险水平。在此情况下,策略更新无法使其返回到约束区域内。因此,使用回溯搜索方法来寻找适当更新策略的参数:
根据以上分析计算过程,可以写出风险态势感知约束策略优化算法流程如下表1中的算法1所示。首先初始化如图1所示的策略神经网络、奖励与开销价值神经网络的权重参数,同时确定模型中所设置的超参数。其中,cd表示初始设定的用于计算安全等级判断指标的安全阈值,γ表示多步奖励或开销衰减的折扣因子,δ表示TRPO算法中KL散度的最大阈值,用于求解最优策略的判断条件中。λGAE表示求解GAE中的系数,lrr和lrc分别表示奖励价值网络与开销价值网络的学习率,nepoch表示训练轮数,nstep表示一个采样过程中所进行的时间步数,nbatch表示样本大小,ntotal表示总共进行的时间步数,/>与ξ表示在计算动态衰减标准差过程中的系数。在训练的早期阶段,策略的探索性要求更强,随着训练的迭代次数增加,策略的稳定性要求更强。通过设置动态衰减标准差,可以达到这一目的,从而得到更好的训练效果和更快的收敛速度,增强模型的探索性和稳定性。其中标准差计算如公式(23)所示:
表1风险态势感知约束策略优化
第二行开始算法主循环,首先收集智能体的状态、动作、奖励和开销组成的轨迹(第2-7行),然后进一步通过轨迹数据计算用于更新网络参数的指标(第8-9行),接下来根据上一步所计算的指标判断不同的安全等级,并根据不同的安全等级进行不同的策略网络参数更新方式(第10-17行),最后利用计算损失函数的方式更新奖励价值网络与开销价值网络并退出主循环(第18-19行)。
作为本发明的一种优选实施例,对上述方法进行了仿真验证,基于PyTorch框架搭建了强化学习模型,所使用仿真平台为Carla0.9.11版本,GPU型号为NVIDIAGeForce RTX3080Ti。根据ISO11270:2014测试标准《智能运输系统——车道保持辅助系统(LKAS)性能要求和试验程序》,本发明在仿真时确定汽车行驶速度为20m/s,测试分为直线测试和曲线测试两个部分。在直线偏离测试中,使车辆以20m/s的速度沿直道行驶,在随机时间内使车辆以0.4±0.2m/s的偏离速度分别向左或向右偏离四次,如果强化学习的策略能够控制车辆不超过车道线边缘0.4m,则视为成功;在弯道偏离测试中,选取试验道路为一段直道连接一段弯道,其中弯道的长度为200m,能够保证车辆行驶5s以上,弯道分为定曲率部分和变曲率部分:定曲率部分的曲率为2×10-3m-1,变曲率部分为直道和定曲率部分弯道的连接段,其曲率随弯道长度从0线性增加到2×10-3m-1,曲率变化率dc/ds不超过4×10-5m-2。设置每个时间步长为t=0.1s,每一次策略迭代收集n=2048个样本数量,训练算法迭代更新2048次后停止。使用Adam优化器来优化奖励与开销函数,学习率从2e-4开始线性衰减到0。
训练过程分析:图3为该方法(HSCPO-LKA)的训练曲线,(a)与(b)分别代表训练过程中的奖励得分曲线与开销得分曲线。从图中可以看到奖励在前两百轮存在一定的波动,产生这种现象的原因是因为在车辆行驶的过程中施加随机了横向干扰,但奖励总体呈现上升的趋势。在三百轮后奖励逐渐达到最大值,波动变小并逐渐趋于稳定;与之相反,开销值在前两百轮呈现下降的趋势,同时也存在较大的波动,其结果同样是因为在车辆行驶的过程中施加随机了横向干扰。开销值在三百轮后逐渐收敛,波动较小并逐渐趋于稳定。以上结果表明,车辆在三百轮后逐渐学习到了稳定性较高的策略,可以安全、舒适且高效地实现车道保持辅助功能,证明了本方法的实用性与稳定性。
测试场景仿真验证:在进行仿真验证时,首先进行了直道场景的仿真验证。车辆以20m/s的速度驶入,在行驶过程中随机时刻分别向左侧与右侧施加四次0.4±0.2m/s范围内的偏离速度,使车辆偏离车道,观察车辆是否能保持在距离车道线边缘0.4m的范围内行驶。车辆的直道测试场景如图4所示。从测试结果可以看出,在直道工况中,经过训练后的模型能够准确地在车辆即将偏离车道时向车辆输出正确的航向角,从而指导车辆保持在车道内行驶。4直道中测试的横向偏差如图5所示,测试的车道宽度为3.75m,测试选取的车辆模型为特斯拉model3,车宽为1.849m,由于车道偏离抑制功能要求确保车道偏离不超过车道边线外侧0.4m,因此安全的横向偏差应该不高于1.3325m。而从测试结果可以看出,直道测试八次车道偏离的横向偏差都低于1.3325m,表明本方法可以引导车辆在安全的横向偏差范围内行驶。直道测试的相对偏航角结果如图6所示,分析可知,基于风险感知约束策略优化的车道保持辅助系统能够保证车辆行驶的相对偏航角保持在一个较小的范围内,并且能在更短的时间内将相对偏航角调整接近于0。代表本发明可以控制车辆平稳行驶,并且偏离车道的风险较低。直道测试的航向角结果如图7所示,由图像对比可以得出结论:基于风险感知约束策略优化的车道保持辅助系统控制的车辆航向角始终保持在一个较低的水平,表明本方法不仅能够控制车辆平稳的行驶,提高车辆乘坐的舒适性和车辆行驶的平顺性,还能够更准确地通过较小的航向角控制车辆在车道内行驶。
然后进行弯道场景的仿真验证,根据ISO中车道保持辅助系统的测试标准,在仿真环境中分别选取两段左转和右转的长度为400m的弯道测试场景,能够保证车辆能够行驶5s以上。车辆的弯道测试场景如图8所示。同样使车辆以20m/s的车速驶入,观察车辆是否能够保持在车道内行驶。弯道测试的横向偏差结果如图9所示。可以看出,在受到横向干扰有偏离车道的风险时,本方法能够在较短的时间内引导车辆回到对应车道中。弯道测试的相对偏航角结果如图10所示,分析可知,基于风险感知约束策略优化的车道保持辅助系统的相对偏航角在将车辆引导行驶回车道内后在较短的时间内减小至接近0,并且都能使相对偏航角保持在一个较小的范围内。弯道测试的航向角结果如图11所示,在弯道测试中,航向角始终保持在一个较低的水平。这表明在弯道内行驶和在直道行驶时一样,本方法能够持续稳定控制车辆在预期车道内平稳与安全行驶,并兼顾高舒适性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于风险态势感知约束策略优化的车道保持辅助方法,其特征在于,包括以下步骤:
步骤1、环境交互采样:将车道保持辅助系统的运行建模为一个约束马尔可夫决策过程,包括状态空间、行为空间、性能奖励函数以及安全开销函数;车辆与环境之间进行交互,并实时观测当前所处环境,从环境中收集到当前状态空间,由当前的策略神经网络接收到状态并映射到行为,然后由车辆执行该行为;在执行该行为后车辆继续与环境进行交互,从而获得新的状态空间,同时得到奖励值与开销值,由此形成车辆与环境交互的闭环;
步骤2、风险感知约束策略优化:利用环境交互采样搜集到的轨迹数据,通过HSCPO方法量化估计策略更新导致车辆进入危险态势的等级,并面向不同的危险态势等级进行安全约束策略神经网络更新,能够在保持安全开销函数小于指定阈值的同时,最大化预期的奖励;
步骤3、通过步骤1和步骤2的持续协同,直至训练出的策略具备符合要求的LKA性能。
2.根据权利要求1所述的基于风险态势感知约束策略优化的车道保持辅助方法,其特征在于,所述步骤1包括以下具体步骤:
步骤1.1、状态空间与行为空间建模:定义状态空间为其中u1表示车辆行驶的横向偏差;u2表示车辆的相对偏航角,即车辆的瞬时速度与车道线切线间的夹角,这两个数据均通过采集Carla仿真数据后编写函数计算得到,作为策略神经网络的输入;
定义行为空间ψ表示车辆的航向角,航向角为策略神经网络的输出,在实际情况中表示当车辆具有横向偏差与相对偏航角之后,模型会输出相应的航向角,用以引导车辆驶回指定的车道上;
步骤1.2、奖励函数与开销函数设计:在奖励函数中设置了一个逻辑值系数车道保持辅助系统确定的奖励函数为:
设置判断车辆是否即将偏离车道的标准为车辆距离车道线是否达到0.2m,当车轮外缘距离车道线不足0.2m时值取1,否则/>取0;通过以上设计,当车辆没有偏离车道风险时,奖励价值网络不对其输出奖励值;rdistance与rdeviation都是逻辑值,每当车辆行驶200m时rdistance取40,否则取0;每当车轮外缘超过车道边界大于0.4m时rdeviation取-10,否则取0;rdistance用于使车辆在成功沿车道行驶相应距离后提升奖励,通过该部分的奖励引导车辆沿车道线向前行驶以达到奖励最大化;逻辑值rdeviation的作用是当车辆偏离车道线时,对奖励值进行降低;rcollision表示与碰撞相关的奖励值,公式如下所示:
当发生碰撞时,取-50,未发生碰撞时,/>取0;
此外,在奖励函数中,rlateral是关于横向偏差的奖励值,rangle是相对偏航角的奖励值;在奖励函数中rlateral与rangle分别表示横向偏差和相对偏航角的绝对值乘以系数与如公式(3)与公式(4)所示:
由此来实现车辆行驶偏离越大,奖励函数越小的目的;
安全开销函数的设计与车辆偏离车道是否达到临界值相关,表示为
当车轮外缘超过车道边界大于0.4m时cdeviation取1,否则cdeviation取0;ccollision表示与碰撞相关的安全开销值:
与奖励函数类似,当发生碰撞时,取-50,未发生碰撞时,/>取0。
3.根据权利要求2所述的基于风险态势感知约束策略优化的车道保持辅助方法,其特征在于,所述步骤2包括以下具体步骤:
步骤2.1、策略更新的优化目标:根据上一步环境交互采样中收集到的轨迹数据τ=(st,at,rt,ct,st+1),若当前的策略为πk,可行策略集为Πc,关于奖励函数的期望折扣回报为则策略优化的目标为:
在实现上述优化目标的同时,同时保证更新后的策略满足安全阈值约束,用di来表示此安全阈值,则可行策略集表示为:
其中表示策略π关于安全开销函数的期望折扣回报,则公式8表示为:
对于奖励函数R(st,at,st+1),使用表示动作值函数,即在状态st下,当采取动作at时对应的价值;使用/>表示状态值函数,即在状态st下,对所有可能动作a的期望价值;Aπ(s,a)=Qπ(s,a)-Vπ(s,a)表示优势函数,反映了在状态st下,选取某一动作对应的价值,以及对于所有可能动作的期望价值的差;
优势函数的求解由广义优势估计近似求得:
其中,δt表示时序差分误差,通过状态值函数Vπ(s)求得:
δt=rt+γV(st+1)-V(st) (11)
根据公式10-11,推导得出奖励函数折扣优势汇报的增量式:
则策略优化的目标写成:
步骤2.2、选取策略的更新方式:策略优化受限于KL度形成的信任域与安全开销形成的约束域,根据信任域与约束域之间的相对位置关系,同时分别设定三个判断指标gc、和L,其中/>表示安全开销优势函数的梯度,/>表示当前策略的安全开销函数的期望折扣回报与安全阈值的接近程度,/>表示信任域与约束域的交叉状态,策略更新导致车辆处于危险态势的可能性分为三个等级:
无风险:当gc<1e-8时,以及当L<0并且时,采用信任域策略优化算法更新策略,TRPO限制了每次更新时策略的最大变化量,通过在最近迭代的策略πk的一个局部邻域上最大化奖励优势函数来迭代更新:
将公式14中的目标函数与分别进行二阶Taylor展开,并作近似处理后得到目标函数与约束条件如下:
其中表示奖励优势函数的梯度,H表示/>二阶Taylor展开后的Hessian矩阵,根据公式15的KKT条件求解得到策略参数更新公式:
中风险:当L>0时,采用约束策略优化方法来更新策略:
同理,将公式17中目标函数与约束条件进行二阶Taylor展开并作近似处理,定义则上式近似为:
其中表示奖励优势函数的梯度,/>表示安全开销优势函数的梯度,H表示/>二阶Taylor展开后的Hessian矩阵,根据公式18的KKT条件求解得到策略参数更新公式:
其中α由线性搜索获得,KKT条件中的拉格朗日乘子v*与λ*计算如下:
高风险:若L<0且时,使用回溯搜索方法寻找更新策略的参数:
4.根据权利要求3所述的基于风险态势感知约束策略优化的车道保持辅助方法,其特征在于,所述风险态势感知约束策略优化算法的流程如下:
流程1、首先初始化策略神经网络以及奖励与开销价值神经网络的权重参数和同时确定模型中所设置的超参数cd、γ、δ、λGAE、lrr、lrc、nepoch、nstep、nbatch、ntotal、/>和ξ;其中,cd表示初始设定的用于计算安全等级判断指标/>的安全阈值,γ表示多步奖励或开销衰减的折扣因子,δ表示TRPO算法中KL散度的最大阈值,用于求解最优策略的判断条件中,λGAE表示求解GAE中的系数,lrr和lrc分别表示奖励价值网络与开销价值网络的学习率,nepoch表示训练轮数,nstep表示一个采样过程中所进行的时间步数,nbatch表示样本大小,ntotal表示总共进行的时间步数,/>与ξ表示在计算动态衰减标准差过程中的系数;
流程2、开始算法主循环:首先收集智能体的状态、动作、奖励和开销组成的轨迹,然后通过轨迹数据计算用于更新网络参数的指标,接下来根据所计算的指标判断不同的安全等级,并根据不同的安全等级进行不同的策略网络参数更新方式;
流程3、利用计算损失函数的方式更新奖励价值网络与开销价值网络并退出主循环。
5.根据权利要求4所述的基于风险态势感知约束策略优化的车道保持辅助方法,其特征在于,在所述流程1中,为了提升训练效果和收敛速度,设置动态衰减标准差,其中标准差计算如下:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311348655.3A CN117302208A (zh) | 2023-10-18 | 2023-10-18 | 一种基于风险态势感知约束策略优化的车道保持辅助方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311348655.3A CN117302208A (zh) | 2023-10-18 | 2023-10-18 | 一种基于风险态势感知约束策略优化的车道保持辅助方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117302208A true CN117302208A (zh) | 2023-12-29 |
Family
ID=89288214
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311348655.3A Pending CN117302208A (zh) | 2023-10-18 | 2023-10-18 | 一种基于风险态势感知约束策略优化的车道保持辅助方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117302208A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118238849A (zh) * | 2024-05-21 | 2024-06-25 | 吉林大学 | 一种基于多级安全规约策略优化的高速公路驾驶决策方法 |
| CN118953417A (zh) * | 2024-10-15 | 2024-11-15 | 吉林大学 | 一种基于约束策略优化的纵向柔性安全驾驶规约方法 |
| CN120233686A (zh) * | 2025-06-03 | 2025-07-01 | 山东大学 | 一种双轮足机器人复杂地形自适应运动控制方法及系统 |
-
2023
- 2023-10-18 CN CN202311348655.3A patent/CN117302208A/zh active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118238849A (zh) * | 2024-05-21 | 2024-06-25 | 吉林大学 | 一种基于多级安全规约策略优化的高速公路驾驶决策方法 |
| CN118238849B (zh) * | 2024-05-21 | 2024-09-10 | 吉林大学 | 一种基于多级安全规约策略优化的高速公路驾驶决策方法 |
| CN118953417A (zh) * | 2024-10-15 | 2024-11-15 | 吉林大学 | 一种基于约束策略优化的纵向柔性安全驾驶规约方法 |
| CN120233686A (zh) * | 2025-06-03 | 2025-07-01 | 山东大学 | 一种双轮足机器人复杂地形自适应运动控制方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112347567B (zh) | 一种车辆意图和轨迹预测的方法 | |
| Fisac et al. | Hierarchical game-theoretic planning for autonomous vehicles | |
| CN117302208A (zh) | 一种基于风险态势感知约束策略优化的车道保持辅助方法 | |
| CN112389436B (zh) | 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法 | |
| Fehér et al. | Hierarchical evasive path planning using reinforcement learning and model predictive control | |
| CN115257809B (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
| Zhao et al. | Indirect shared control strategy for human-machine cooperative driving on hazardous curvy roads | |
| CN116476825B (zh) | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 | |
| Yuan et al. | Evolutionary decision-making and planning for autonomous driving: A hybrid augmented intelligence framework | |
| CN114789729A (zh) | 一种基于驾驶风格的匝道协同控制系统及方法 | |
| CN118778640A (zh) | 一种无人驾驶安全控制方法 | |
| Liao et al. | Integration of decision-making and motion planning for autonomous driving based on double-layer reinforcement learning framework | |
| CN116605242A (zh) | 自适应意料外环境变化的汽车极限驾驶控制方法及系统 | |
| CN116884246A (zh) | 一种基于近端策略优化的信号灯路口通行方法 | |
| Lin et al. | A velocity adaptive steering control strategy of autonomous vehicle based on double deep Q-learning network with varied agents | |
| Wang et al. | An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle | |
| CN118850115B (zh) | 一种车辆人机协同驾驶方法、装置、设备及存储介质 | |
| Li et al. | V2X assisted co‐design of motion planning and control for connected automated vehicle | |
| Zeng et al. | Risk-aware deep reinforcement learning for decision-making and planning of autonomous vehicles | |
| Yang et al. | Decision-making in autonomous driving by reinforcement learning combined with planning & control | |
| CN116853243A (zh) | 一种基于投影约束策略优化的车辆自适应巡航控制方法 | |
| CN117104310A (zh) | 基于数据驱动预测控制的虚拟编组控制方法及系统 | |
| CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
| Shi et al. | Safety-Enhanced Behavioral Decision Strategy for Intelligent Vehicles Under Roundabout Scenarios | |
| Yoon et al. | Data-Driven Trajectory Planning of Lane Change Maneuver for Autonomous Driving |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |