CN109760681B

CN109760681B - 一种换道控制方法及装置

Info

Publication number: CN109760681B
Application number: CN201711064941.1A
Authority: CN
Inventors: 徐成; 邹清全; 刘奋; 吕成浩; 卢远志; �田润
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-09-29
Anticipated expiration: 2037-11-02
Also published as: CN109760681A

Abstract

本发明实施例公开了一种换道控制方法及装置，该方法，包括：获取当前时刻被控车周围环境的当前环境数据；根据预先得到的动作评价模型和当前环境数据，获得当前时刻对换道动作的评分，换道动作包括加速度和转向角；将最高评分对应的换道动作确定为当前时刻的被选换道动作；根据被选换道动作，控制被控车动作。本发明实施例对换道过程中的加速度和转向角进行综合考虑，避免了将纵向和横向规划强行解耦导致的稳定性问题，增加了鲁棒性和乘客的舒适度。

Description

一种换道控制方法及装置

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种换道控制方法及装置。

背景技术

自动换道是实现车辆自动驾驶的关键技术之一，但受汽车动力学的非线性特征以及实际复杂的驾驶环境的制约，在自动驾驶过程中，如何保证车辆安全、快速、稳定的换道又是当今自动驾驶技术研究的重点和难点。

在自动换道控制的过程中，通过识别被控车辆的相邻车道线以及相邻车道线上的车辆位置和速度，计算局部路线，使被控车辆经该局部路线运动到相邻车到的车道中心线。现有的换道控制技术存在以下缺点：将相互耦合的纵横向控制规划强行解耦，对纵向加速和横向转向分开规划，造成自动驾驶汽车在换道过程中鲁棒性不高、乘客的舒适性不好。

发明内容

有鉴于此，本发明提供了一种换道控制方法及装置，能够解决现有的自动驾驶汽车在换道过程中鲁棒性不高、舒适性不好的问题。

本发明实施例提供的一种换道控制方法，包括：

获取当前时刻被控车周围环境的当前环境数据；

根据预先得到的动作评价模型和所述当前环境数据，获得当前时刻对换道动作的评分，所述换道动作包括加速度和转向角；

将最高评分对应的换道动作确定为当前时刻的被选换道动作；

根据所述被选换道动作，控制所述被控车动作。

可选的，所述动作评价模型的建立方法，具体包括：

获取换道动作训练集，所述换道动作训练集包括多组换道数据，每组换道数据包括一个换道过程中驾驶员控制第一车执行的每个换道动作和执行该换道动作时所述第一车的车速数据及其周围环境的环境数据；

根据所述换道动作训练集，基于卷积神经网络对训练目标函数

进行训练，训练收敛后，得到所述动作评价模型q(s,a)；

其中，a为当前换道动作，s为当前环境数据，a'为下一时刻的换道动作，s'为下一时刻的环境数据，γ为学习率，R(s)为当前时刻的即时回报。

可选的，

在换道过程中，所述即时回报与第一舒适数据和第二舒适数据正相关，所述即时回报还与第一安全数据和/或第二安全数据正相关；

其中，所述第一舒适数据与所述第一车在预设时间段内横向加速度的变化程度负相关；所述第二舒适数据与所述第一车在所述预设时间段内纵向加速度的变化程度负相关；所述第一安全数据与第一距离和第二车的车速正相关，所述第二车在所述第一车前方且位于待转入车道，所述第一距离为所述第二车与所述第一车的纵向距离，所述第一安全数据还与所述第一车的车速、最大制动减速度和反应时延负相关；所述第二安全数据与第二距离和所述第一车的车速正相关，所述第二距离为第三车与所述第一车的纵向距离，所述第三车在所述第一车后方且位于所述待转入车道，所述第二安全数据还与所述第三车的车速、最大制动减速度和反应时延负相关；

换道结束时，所述即时回报为100。

可选的，在换道过程中，所述即时回报具体为：

其中，[f₀,f₁]为横向加速度频谱，[f₂,f₃]为纵向加速度频谱，a_x为所述第一车在所述预设时间段内的横向加速度，a_y为所述第一车在所述预设时间段内的纵向加速度，y₁为所述第一距离，y₂为所述第二距离，v₁为所述第一车的车速，v₂为所述第二车的车速，v₃为所述第三车的车速，

a_max为k对应车的最大制动减速度，τ为k对应车的反应时延。

可选的，所述根据预先得到的动作评价模型和所述当前环境数据，获得当前时刻对换道动作的评分，具体包括：

将所述当前环境输入所述动作评价模型q(s,a)，得到当前时刻的换道动作评分函数q(a)；

所述将最高评分对应的换道动作确定为当前时刻的被选换道动作，具体包括：

依据公式

确定所述被选换道动作a_被选。

本发明实施例提供的一种换道控制装置，包括：获取单元、评分单元、确定单元和控制单元；

所述获取单元，用于获取当前时刻被控车周围环境的当前环境数据；

所述评分单元，用于根据预先得到的动作评价模型和所述当前环境数据，获得当前时刻对换道动作的评分，所述换道动作包括加速度和转向角；

所述确定单元，用于将最高评分对应的换道动作确定为当前时刻的被选换道动作；

所述控制单元，用于根据所述被选换道动作，控制所述被控车动作。

可选的，所述装置，还包括：模型训练单元；所述模型训练单元，具体用于：

进行训练，训练收敛后，得到所述动作评价模型q(s,a)；

可选的，

换道结束时，所述即时回报为100。

可选的，在换道过程中，所述即时回报具体为：

a_max为k对应车的最大制动减速度，τ为k对应车的反应时延。

可选的，所述评分单元，具体用于：

依据公式

确定所述被选换道动作a_被选。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时，实现以下步骤：

获取当前时刻被控车周围环境的当前环境数据；

根据所述被选换道动作，控制所述被控车动作。

本发明实施例还提供了一种整车控制器，包括：存储器和处理器；

所述存储器，用于存储有计算机程序，所述计算机程序被所述处理器执行时能够实现以下步骤：

获取当前时刻被控车周围环境的当前环境数据；

根据所述被选换道动作，控制所述被控车动作。

与现有技术相比，本发明至少具有以下优点：

在本发明实施例中，首先采集被控车周围的环境数据，根据该环境数据和预先训练得到的动作评价模型，得到当前时刻加速度和转向角的组合评分，即得到在当前状态下该加速度和转向角与真实驾驶动作的相似度，采用最高评分对应的换道动作控制被控车动作，以使被控车的换道过程接近驾驶员在当前状态下真实的换道动作，保证了乘客的舒适度。本发明实施例对换道过程中的加速度和转向角进行综合考虑，避免了将纵向和横向规划强行解耦导致的稳定性问题，增加了鲁棒性和乘客的舒适度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为车辆向左换道的示意图；

图2为本发明实施例提供的一种换道控制方法的流程示意图；

图3为本发明实施例提供的另一种换道控制方法的流程示意图；

图4为本发明具体实施例中卷积神经网络的训练过程示意图；

图5为本发明实施例提供的一种换道控制装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明的具体实施例之前，首先介绍下车辆换道的具体过程。车辆向左换道的过程如图1所示，车辆A将进行向左换道，其左方相邻车道的前方有车辆B后方有车辆C，车辆A与车道线L₁、L₂和L₃的距离分别为x₁、x₂和x₃。换道结束的条件为|x₁-x₂|＜Kw且|h-h_m|＜C。其中，w为左侧车道的车道宽度，K为常量，表征车辆行驶在车道中间的程度，K越小车辆越接近车道中心线L_m行驶，一般K取0-0.1，h为车辆航向角，h_m为左车道航行角，C为常量，一般取0-0.1。

参见图2，该图为本发明实施例提供的一种换道控制方法的流程示意图。在本发明实施例中，以被控车向左换道为例进行说明，被控车向右换道的控制方法类似，具体参见向左换道的相关说明即可，在本发明实施例中不再赘述。

本实施例提供的换道控制方法，包括以下步骤S201-S204。

S201：获取当前时刻被控车周围环境的当前环境数据。

在本实施例中，可以通过环境感知模块获取被控车的环境数据，其中，环境数据包括被控车周围的车辆信息、车道线信息等。

举例而言，环境感知模块负责获取被控车周围的俯视图像，具体可以通过多线激光雷达扫描的点云数据构成该俯视图像，或者，还可以通过前置摄像头、后置摄像头、左右环视摄像头采集的视频图像拼接得到该俯视图像。需要说明的是，为了保证自动换道的安全，摄像头的检测距离需要大于100米。

S202：根据预先得到的动作评价模型和当前环境数据，获得当前时刻对换道动作的评分。

这里需要说明的是，换道动作包括车辆的加速度和换道角(或方向盘转角)，可以用a(α,θ)表示换道动作，α为加速度，θ为换道角。例如，a(1,-2)表示被控车以1m/s加速，同时被控车的换道角为左转2°；a(-1,2)表示被控车以1m/s减速，同时被控车的换道角为右转2°。

可以理解的是，现有的自动换道技术，在对纵向(即加速度)和横向(即转向)进行控制规划时，分别对二者进行规划控制，而纵向与横向控制之间相互耦合，二者相互影响，造成换道控制的鲁棒性不好、乘客的舒适度不高。而本发明实施例中，将纵向控制和横向控制作为一个整体(即换道动作)，整体规划车辆纵向和横向的规划，提高了鲁棒性和舒适度。

在本实施例中，动作评价模型与被控车周围的环境数据及其执行的换道动作相关，用于评价在当前状态下被控车执行的换道动作与驾驶员的真实驾驶操作之间的相似度，评分越高相似度越高。动作评价模型可以根据预先采集的驾驶员在实际驾驶换道过程的换道动作，利用卷积神经网络训练得到。

S203：将最高评分对应的换道动作确定为当前时刻的被选换道动作。

S204：根据被选换道动作，控制被控车动作。

通过上述步骤S201和S202，得到了该环境数据下被控车执行换道动作评分函数，即当前被控车执行换道动作与驾驶员真实驾驶操作之间的相似度，而评分与相似度之间正相关，因此，将最高评分对应的换道动作确定为被选换道动作，并控制被控车执行该被选换道动作，能够是被控车的换道过程具有类人驾驶效果，具有较好的舒适度。

在本实施例中，首先采集被控车周围的环境数据，根据该环境数据和预先训练得到的动作评价模型，得到当前时刻加速度和转向角的组合评分，即得到在当前状态下该加速度和转向角与真实驾驶动作的相似度，采用最高评分对应的换道动作控制被控车动作，以使被控车的换道过程接近驾驶员在当前状态下真实的换道动作，保证了乘客的舒适度。本发明实施例对换道过程中的加速度和换道角进行综合考虑，避免了将纵向和横向规划强行解耦导致的稳定性问题，增加了鲁棒性和乘客的舒适度。

下面举例说明具体如何建立动作评价模型。

参见图3，在本发明实施例中，动作评价模型具体可以通过以下步骤S301-S302所述的方法训练得到。

S301：获取换道动作训练集。

其中，换道动作训练集包括多组换道数据，每组换道数据包括一个换道过程中驾驶员控制第一车执行的每个换道动作和执行该换道动作时第一车的车速数据及其周围环境的环境数据。

可以理解的是，以驾驶员的实际换道动作为依据对动作评价模型进行训练，可以使得实际控制时，评分最高的换道动作与驾驶员在当前环境所实际执行的换道操作相似度越高，提高了换道过程的鲁棒性和乘客的舒适度。

这里需要说明的是，在实际应用中，由于车型的不同，会导致实际执行的换道动作存在区别，为了保证换道的准确性和舒适性，训练动作评价模型时所使用的换道动作训练集需要以实际的被控车相关，即第一车与被控车的车型相同(或大小类似)。

S302：根据换道动作训练集，基于卷积神经网络对下式(1)示出的训练目标函数进行训练，训练收敛后，得到动作评价模型q(s,a)；

卷积神经网络的训练过程如图4所示，本领域技术人员可以根据实际情况，具体设定卷积层、池化层和全连接层的参数，这里不再对卷积神经网络的具体训练过程进行赘述。

在实际应用中，学习率可以γ等于0.9。

在本实施例可能的实现方式中，换道过程中，即时回报与第一舒适数据和第二舒适数据正相关，即时回报还与第一安全数据和/或第二安全数据正相关；换道结束时，即时回报为100。

其中，第一舒适数据与第一车(如图1中A车)在预设时间段内横向加速度的变化程度负相关；第二舒适数据与第一车在预设时间段内纵向加速度的变化程度负相关；第一安全数据与第一距离和第二车(如图1中B车)的车速正相关，第二车在第一车前方且位于待转入车道，第一距离为第二车与第一车的纵向距离，第一安全数据还与第一车的车速、最大制动减速度和反应时延负相关；第二安全数据与第二距离和第一车的车速正相关，第二距离为第三车(如图1中C车)与第一车的纵向距离，第三车在第一车后方且位于待转入车道，第二安全数据还与第三车的车速、最大制动减速度和反应时延负相关。

作为一个示例，在换道过程中，即时回报具体由下式(2)得出：

其中，[f₀,f₁]为横向加速度频谱，[f₂,f₃]为纵向加速度频谱，a_x为第一车在预设时间段内的横向加速度，a_y为第一车在预设时间段内的纵向加速度，y₁为第一距离，y₂为第二距离，v₁为第一车的车速，v₂为第二车的车速，v₃为第三车的车速，a_max为k对应车的最大制动减速度，τ为k对应车的反应时延，

则，上述实施例中的步骤S202-S203，具体可以包括：

将当前环境输入动作评价模型q(s,a)，得到当前时刻的换道动作评分函数q(a)；将最高评分对应的换道动作确定为当前时刻的被选换道动作，具体包括：依据下式(4)公式，确定被选换道动作a_被选。

基于上述实施例提供的换道控制方法，本发明实施例还提供了一种换道控制装置。

参见图5，该图为本发明实施例提供的一种换道控制装置的结构示意图。

本实施例提供的一种换道控制装置，包括：获取单元100、评分单元200、确定单元300和控制单元400；

获取单元100，用于获取当前时刻被控车周围环境的当前环境数据；

评分单元200，用于根据预先得到的动作评价模型和当前环境数据，获得当前时刻对换道动作的评分，换道动作包括加速度和转向角；

确定单元300，用于将最高评分对应的换道动作确定为当前时刻的被选换道动作；

控制单元400，用于根据被选换道动作，控制被控车动作。

在本实施例一些可能的实现方式中，还包括：模型训练单元；

模型训练单元，具体用于：

获取换道动作训练集，换道动作训练集包括多组换道数据，每组换道数据包括一个换道过程中驾驶员控制第一车执行的每个换道动作和执行该换道动作时第一车的车速数据及其周围环境的环境数据；

根据换道动作训练集，基于卷积神经网络对下式(1)所示的训练目标函数进行训练，训练收敛后，得到动作评价模型q(s,a)；

在本实施例一些可能的实现方式中，在换道过程中，即时回报与第一舒适数据和第二舒适数据正相关，即时回报还与第一安全数据和/或第二安全数据正相关；

其中，第一舒适数据与第一车在预设时间段内横向加速度的变化程度负相关；第二舒适数据与第一车在预设时间段内纵向加速度的变化程度负相关；第一安全数据与第一距离和第二车的车速正相关，第二车在第一车前方且位于待转入车道，第一距离为第二车与第一车的纵向距离，第一安全数据还与第一车的车速、最大制动减速度和反应时延负相关；第二安全数据与第二距离和第一车的车速正相关，第二距离为第三车与第一车的纵向距离，第三车在第一车后方且位于待转入车道，第二安全数据还与第三车的车速、最大制动减速度和反应时延负相关；

换道结束时，即时回报为100。

在本实施例一些可能的实现方式中，在换道过程中，即时回报具体由下式(2)得出：

在本实施例一些可能的实现方式中，评分单元，具体用于：

将当前环境输入动作评价模型q(s,a)，得到当前时刻的换道动作评分函数q(a)；

将最高评分对应的换道动作确定为当前时刻的被选换道动作，具体包括：

依据下式(4)，确定被选换道动作a_被选。

基于上述实施例提供的换道控制方法及装置，本发明实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时，实现以下步骤：

获取当前时刻被控车周围环境的当前环境数据；

根据所述被选换道动作，控制所述被控车动作。

基于上述实施例提供的换道控制方法及装置，本发明实施例还提供了一种整车控制器。该整车控制器，包括：存储器和处理器；

获取当前时刻被控车周围环境的当前环境数据；

根据所述被选换道动作，控制所述被控车动作。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。