CN117612142B

CN117612142B - 基于多任务联合模型的头部姿态与疲劳状态检测方法

Info

Publication number: CN117612142B
Application number: CN202311520633.0A
Authority: CN
Inventors: 贺晨; 刘营; 缪小然; 胡建峰; 赵广明; 周杰; 闵冰冰; 高宇蒙; 雅可; 赵作鹏
Original assignee: Yanyuan Security Technology Xuzhou Co ltd; China University of Mining and Technology Beijing CUMTB
Current assignee: Yanyuan Security Technology Xuzhou Co ltd; China University of Mining and Technology Beijing CUMTB
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-07-12
Anticipated expiration: 2043-11-14
Also published as: CN117612142A

Abstract

本发明公开了一种基于多任务联合模型的头部姿态与疲劳状态检测方法，包括以下步骤：在YOLOv6的基础上，设计基于聚集与分流机制的加强特征提取网络；在模型中增加融合大核注意力机制的头部姿态估计分支；对人脸数据集标注形成疲劳驾驶数据集；通过目标检测损失函数和头部姿态估计损失函数训练疲劳分神检测模型；将模型部署于车载终端设备，通过模型检测头部姿态和疲劳状态并输出信息；通过某一类别持续时间与设定阈值进行比较来判定是否处于疲劳状态或分神状态。本发明提高模型的泛化性能、鲁棒性、可靠性及检测精度、减少模型训练的时间和计算资源，提高驾驶员的安全性，减少驾驶中的疲劳分心行为，降低交通事故的发生率。

Description

基于多任务联合模型的头部姿态与疲劳状态检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多任务联合模型的头部姿态与疲劳状态检测方法。

背景技术

随着汽车行业的飞速发展，驾驶安全日益受到人们的重视。疲劳驾驶作为一个关键的安全隐患，引起了广泛的关注。疲劳驾驶可能导致驾驶员反应迟缓、判断失误，从而增加交通事故的风险。为了提高道路交通安全，对驾驶员的疲劳状态进行实时监测和预警是至关重要的。

传统的疲劳驾驶检测方法主要基于驾驶员的生理信号，如脑电、心率等进行分析，但这些方法需要与驾驶员身体进行接触，安装和使用过程相对复杂。近年来，基于计算机视觉的疲劳驾驶检测技术得到了快速发展，此类方法主要通过分析驾驶员的面部特征，如眼睛、嘴巴的状态，来判断驾驶员是否疲劳。但这些方法往往依赖于高算力设备进行实时分析，不仅计算资源消耗大，而且可能出现误报率较高的问题。

随着越来越多的场景都需要同时处理多个任务或目标，多任务联合模型应运而生。多任务联合模型是一种机器学习模型，可以同时处理多个任务，并且这些任务可以是不同类型或不同领域的；其基本思路是通过共享底层特征如卷积层或词嵌入层来使不同任务之间产生联结。

但在运用多任务联合模型时也可能存在一些缺点，例如不同任务之间的相关性可能不完全相同，导致一些任务在训练过程中可能没有得到充分的学习；不同任务之间的信息可能存在冗余和噪声，导致模型在训练过程中可能会受到干扰；多任务联合模型的参数数量可能会增加，导致模型在训练过程中可能会受到过拟合的困扰等等。

因此，在基于多任务联合模型的疲劳驾驶检测方法中，如何在保证利用不同任务之间的相关性，提高疲劳检测模型的泛化性能、增强模型的鲁棒性和可靠性、减少模型训练的时间和计算资源的同时，恰当处理不同任务之间的关系和矛盾、数据资源和计算资源的消耗、模型的可扩展性和可维护性以及模型的训练和优化等方面的问题，是当前疲劳驾驶检测方法研究的热点和难点。

发明内容

本发明的目的在于提供一种基于多任务联合模型的头部姿态与疲劳状态检测方法，可在提高模型的泛化性能、增强模型的鲁棒性和可靠性、减少模型训练的时间和计算资源的同时，恰当处理不同任务之间的关系和矛盾，可用于各种类型的汽车驾驶场景，提高驾驶员的安全性，减少驾驶中的疲劳分心行为，降低交通事故的发生率。

为实现上述目的，本发明一种基于多任务联合模型的头部姿态与疲劳状态检测方法，包括以下步骤：

S1:疲劳分神检测模型的设计，以YOLOv6为基线模型进行改进，在YOLOv6的基础上，设计基于聚集与分流机制的加强特征提取网络；

S2:在疲劳分神检测模型中增加融合大核注意力机制的头部姿态估计分支；

S3:准备人脸数据集，并对人脸数据集标注形成疲劳驾驶数据集；标注时除了标注每个目标的类别和检测框外，并向人脸数据添加额外的头部转动角度是否大于45°标签；标注的类别包括睁眼、闭眼、张嘴及闭嘴；

S4:通过目标检测损失函数和头部姿态估计损失函数训练疲劳分神检测模型；

S5:将疲劳分神检测模型部署于车载终端设备，将终端设备摄像头拍摄的视频流输入疲劳分神检测模型，通过训练后的疲劳分神检测模型检测头部姿态和疲劳状态并输出信息，所述输出信息包括目标的类别、检测框和头部转动角度是否大于45°；

S6:通过某一类别持续时间与设定阈值进行比较来判定是否处于疲劳状态或分神状态。

进一步，所述步骤S1中，基于聚集于分流机制的加强特征提取网路，包括使用低层聚集与分流机制代替YOLOv6中加强特征提取网络的上采样融合阶段，使用高层聚集与分流机制代替YOLOv6中加强特征提取网络的下采样融合阶段。

进一步，所述聚集与分流机制包括信息对齐模块、信息融合模块以及信息分流模块；所述信息对齐模块收集来自骨干网络的多层特征图，并通过上采样或下采样的方式进行对齐；所述信息融合模块融合对齐后的特征生成全局范围的特征；所述信息分流模块使用自注意力机制将全局特征分流至各个特征层。

进一步，所述步骤S2中，融合大核注意力机制的头部姿态估计分支由多个卷积层、大核注意力机制模块和一个全连接层组成。

进一步，所述大核注意力机制模块能够捕获长距离关系；所述大核注意力机制模块使用大核卷积层来建立全局相关性并产生注意力结果，同时使用深度可分离卷积减少参数量。

进一步，所述步骤S4中，目标检测损失函数和头部姿态估计损失函数由两部分组成，分别为基于SIoU的回归损失函数和基于分类与回归对齐方法的分类损失函数；所述头部姿态估计损失函数为模型预测结果与真实标签值的交叉熵损失函数，并通过权重参数平衡两种损失，进行模型训练。

进一步，将步骤S3中获得的疲劳驾驶数据集按照8:1:1的比例划分训练集、验证集和测试集，在训练阶段加载数据集时，使用masoic和mixup数据增强方法提高数据鲁棒性，并通过水平和垂直翻转、随机旋转、随机裁剪、变形和缩放的数据增强方式增加数据量较少的类型的样本量。

进一步，所述疲劳分神检测模型由卷积神经网络训练得到，所述卷积神经网络包括骨干网络、聚集与分流加强特征提取网络、目标检测头以及大核注意力机制头部姿态估计分支；所述骨干网络用于提取图片特征；所述目标检测头输出检测框和类别；所述目标检测头包括分类回归分支、边界框回归分支及深度信息回归分支；所述大核注意力机制头部姿态估计分支输出是否转头结果。

本发明的有益效果：

本发明一种基于多任务联合模型的头部姿态与疲劳状态检测方法，设计了基于聚集与分流机制的加强特征提取网络，通过统一的模块对不同尺度的特征信息进行采集和融合，然后将融合后的特征分流至不同层，既避免了YOLOv6中加强特征提取网络结构固有的信息丢失的问题，也在不显著增加推理时间的情况下增强了特征提取网络部分的特征信息融合能力；且聚集与分流机制加强模型的全局特征提取能力和对图片全局信息的学习，提高了模型的检测能力。

本发明增加融合大核注意力机制的头部姿态估计分支，以进一步加强对图片全局信息的学习，为模型增加学习头部姿态的能力，从而提高头部姿态估计的准确性；通过该分支将回归问题简化为分类问题，具有实时性好、准确率高的优点。且该分支在训练时不需要繁琐的关键点标注，方便在不同场景和任务上进行微调，且在一定程度上减少了相机位置对检测结果的影响，从而提高模型的鲁棒性。

本发明头部姿态估计分支与疲劳状态检测分支共享权重，前者定位了眼睛和嘴巴的位置，给后者提供了额外的语义信息，从而使模型在此任务上有更好的效果；头部姿态估计分支的大核注意力机制模块能够捕获长距离关系，从而有效提取人脸全局特征，进行头部姿态估计，大核注意力机制模块使用大核卷积层来建立全局相关性并产生注意力结果，同时使用深度可分离卷积减少参数量，减少模型推理时间。

附图说明

图1是本发明的工作原理图。

图2是CUDA异构并行计算示意图。

具体实施方式

以下结合附图对本发明作进一步详细的说明。

参照图1和图2，一种基于多任务联合模型的头部姿态与疲劳状态检测方法，包括以下步骤：

S1:疲劳分神检测模型的设计，以YOLOv6为基线模型进行改进，在YOLOv6的基础上，设计基于聚集与分流机制的加强特征提取网络。

基于聚集与分流机制的加强特征提取网络使用低层聚集与分流机制代替YOLOv6中加强特征提取网络的上采样融合阶段，用高层聚集与分流机制代谢YOLOv6中加强特征提取网络的下采样融合阶段；通过统一的模块对不同尺度的特征信息进行采集和融合，然后将融合后的特征分流至不同层，既避免了YOLOv6中加强特征提取网络结构固有的信息丢失的问题，也在不显著增加推理时间的情况下增强了特征提取网络部分的特征信息融合能力。

聚集与分流机制包括信息对齐模块、信息融合模块和信息分流模块。其中，信息对齐模块收集来自骨干网络的多层特征图，并通过上采样或下采样的方式进行对齐。信息融合模块融合对齐后的特征生成全局范围的特征。信息分流模块使用自注意力机制将全局特征分流至各个特征层。聚集与分流机制能够有效的将融合后的全局信息分流至各个特征层，从而加强模型的全局特征提取能力。因此，基于聚集与分流机制的加强特征提取网络加强了模型对于图片全局信息的学习，提高模型的检测能力。

S2:增加融合大核注意力机制的头部姿态估计分支，以进一步加强对图片全局信息的学习，为模型增加学习头部姿态的能力，从而提高头部姿态估计的准确性。融合大核注意力机制的头部姿态估计分支由多个卷积层、大核注意力机制模块和一个全连接层组成。通过该分支将回归问题简化为分类问题，直接判断头部转动角度是否大于45°，具有实时性好、准确率高的优点，针对其对遮挡和噪声较敏感、在自然场景中头部姿态估计的精度较低的缺点，在训练疲劳分神检测模型时补充了不同场景和人脸的数据集训练更新模型。

该分支在训练时不需要繁琐的关键点标注，方便在不同场景和任务上进行微调，且在一定程度上减少了相机位置对检测结果的影响，从而提高模型的鲁棒性。同时，该头部姿态估计分支与疲劳状态检测分支共享权重，前者定位了眼睛和嘴巴的位置，给后者提供了额外的语义信息，从而使模型在此任务上有更好的效果。且大核注意力机制模块能够捕获长距离关系，从而有效提取人脸全局特征，进行头部姿态估计。大核注意力机制模块使用大核卷积层来建立全局相关性并产生注意力结果，同时使用深度可分离卷积减少参数量，减少模型推理时间。

S3:准备人脸数据集，并对人脸数据集标注形成疲劳驾驶数据集；本实施例中，通过摄像头采集视频数据，人工标注后形成疲劳驾驶数据集，卷积神经网络利用疲劳驾驶数据集进行训练后得到疲劳分神检测模型。标注时除了标注每个目的类别和检测框外，并向人脸数据添加额外的头部转动角度是否大于45°标签；标注的类别包括睁眼、闭眼、张嘴及闭嘴。

将获得的疲劳驾驶数据集按照8:1:1的比例划分训练集、验证集和测试集，在训练阶段加载数据集时，使用masoic和mixup数据增强方法提高数据鲁棒性，并通过水平和垂直翻转、随机旋转、随机裁剪、变形和缩放的数据增强方式增加数据量较少的类型的样本量，以提高模型的泛化能力。

卷积神经网络包括骨干网络、聚集与分流加强特征提取网络、目标检测头以及大核注意力机制头部姿态估计分支；骨干网络用于提取图片特征，目标检测头输出检测框和类别；目标检测头包括分类回归分支、边界框回归分支以及深度信息回归分支，分类回归分支和边界框回归分支对应输出类别和检测框，大核注意力机制头部姿态估计分支输出是否转头结构；深度信息回归分支的设置用于区分车内前后座人员，避免误识别。

深度信息回归分支由多个卷积层、一个池化层和一个全连接层组成。深度信息的解码方式如下：首先将车内深度信息均分为s个阶段，即对于[0,V]的深度跨度，每个深度跨度为V/s，该段的代表性深度取u＝V/s，然后对于一个s类的分类模型，取其每一类的概率与当前类的代表深度的乘积和作为最终的预测值。由于YOLOv6模型基于锚点进行预测，即对每个锚点预测边界框信息和类别信息，所以粗粒度深度估计同样以锚点为单位，即为每个锚点预测边界框信息、类别信息和深度信息。

通过深度信息回支解码出的粗粒度深度值所在区间区分前排人员和后面人员，当粗粒度深度值位于[0,1]区间内则为前排人员，当粗粒度深度值位于[1,2]区间内则为后排人员；粗粒度深度值是指疲劳分神检测模型模型识别并检测出的目标物体距离摄像头距离的特征缩放，实际距离被粗粒度缩放至[0,2]区间内；位于[0,1]区间则表示目标物体距离摄像头更近，被识别为位于车内前排；位于[1,2]区间则表面目标物体距离摄像有更远，被识别为位于车内后排；从而避免误识别的情况发生。

S4:通过目标检测损失函数和头部姿态估计损失函数训练疲劳分神检测模型。目标检测损失函数和头部姿态估计损失函数分别为基于SIoU的回归损失函数和基于分类与回归对齐方法的分类损失函数。头部姿态估计损失函数为模型预测结果与真实标签值的交叉熵损失函数；并通过权重参数平衡两种损失，进行模型训练。

S5:将疲劳分神检测模型部署于车载终端设备，将终端设备摄像头拍摄的视频流输入疲劳分神检测模型，并输出检测信息；输出检测信息包括目标的类别、检测框和头部转动角度是否大于45°。疲劳分神检测模型的部署方法为包括以下步骤：

先将疲劳分神检测模型转换为ONNX模型，再将ONNX转换为TensorRT模型。具体为：先将训练好的网络利用Pytorch内部接口转化为ONNX模型，在TensorRT中使用解析器读取ONNX模型并构建引擎；然后调用TensorRT的C++接口以及Libtorch库实现模型后处理部分。在推理过程中应注意显存的分配，在计算时借助CUDA库将数据从CPU端搬到GPU端，在推理计算后再将数据从GPU端搬回CPU端。

S6:通过某一类别持续时间是否超过设定的阈值来判定是否处于疲劳状态或分神状态。根据头部姿态以及眼嘴位置的变化判断驾驶员是否左顾右盼、分神驾驶；根据头部姿态信息、眼睛的睁闭及嘴巴的开合来判断驾驶员是否疲劳驾驶。通过眼睛和嘴巴判断驾驶员是否疲劳驾驶的相关检测类别分为睁眼、闭嘴、闭眼和张嘴。因为人在疲劳状态下的特征直观且明显，如眨眼次数、眼球转动、打哈欠、点头等，这些状态会被摄像头记录下来，并加以识别判断。

其具体判断方法流程为：首先取一帧图像进行人脸检测，若为人脸则进行嘴巴和眼睛的定位并提取疲劳信息与转头信息，再进行信息融合；如果为设定的异常状态则进行累计，直至持续时间大于阈值，本实施例该阈值设定为3s，则判定为疲劳状态，进行警告或提示；若获取图像识别为非人脸，则随机再取一帧图像重复上述流程。其中人眼的疲劳状态是一个时间段内的状态，因此采用PERCLOS方法来判定，当眼睛张开度大于20％判定为睁眼，小于等于20％认为是闭眼。对于嘴部状态检测，因为嘴巴的状态有很多种，其中打哈欠是一种疲劳状态的体现，因此只要将打哈欠的嘴巴状态与其他状态进行区分，就能判别驾驶员是否疲劳。通过嘴巴的几何形状来计算其张开度，将嘴巴用矩形框标记位置，用嘴巴的高与宽之比计算嘴巴的张开度。当嘴巴张开度大于0.8时判定为打哈欠的张嘴状态，当嘴巴张开度小于等于0.8时判定位闭嘴状态。

Claims

1.一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述步骤S1中，基于聚集于分流机制的加强特征提取网路，包括使用低层聚集与分流机制代替YOLOv6中加强特征提取网络的上采样融合阶段，使用高层聚集与分流机制代替YOLOv6中加强特征提取网络的下采样融合阶段。

3.根据权利要求2所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述聚集与分流机制包括信息对齐模块、信息融合模块以及信息分流模块；所述信息对齐模块收集来自骨干网络的多层特征图，并通过上采样或下采样的方式进行对齐；所述信息融合模块融合对齐后的特征生成全局范围的特征；所述信息分流模块使用自注意力机制将全局特征分流至各个特征层。

4.根据权利要求1-3任一项所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述步骤S2中，融合大核注意力机制的头部姿态估计分支由多个卷积层、大核注意力机制模块和一个全连接层组成。

5.根据权利要求4所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述大核注意力机制模块能够捕获长距离关系；所述大核注意力机制模块使用大核卷积层来建立全局相关性并产生注意力结果，同时使用深度可分离卷积减少参数量。

6.根据权利要求1所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述步骤S4中，目标检测损失函数和头部姿态估计损失函数由两部分组成，分别为基于SIoU的回归损失函数和基于分类与回归对齐方法的分类损失函数；所述头部姿态估计损失函数为模型预测结果与真实标签值的交叉熵损失函数，并通过权重参数平衡两种损失，进行模型训练。

7.根据权利要求1所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：将步骤S3中获得的疲劳驾驶数据集按照8:1:1的比例划分训练集、验证集和测试集，在训练阶段加载数据集时，使用masoic和mixup数据增强方法提高数据鲁棒性，并通过水平和垂直翻转、随机旋转、随机裁剪、变形和缩放的数据增强方式增加数据量较少的类型的样本量。

8.根据权利要求1所述的一种基于多任务联合模型的头部姿态与疲劳状态检测方法，其特征在于：所述疲劳分神检测模型由卷积神经网络训练得到，所述卷积神经网络包括骨干网络、聚集与分流加强特征提取网络、目标检测头以及大核注意力机制头部姿态估计分支；所述骨干网络用于提取图片特征；所述目标检测头输出检测框和类别；所述目标检测头包括分类回归分支、边界框回归分支及深度信息回归分支；所述大核注意力机制头部姿态估计分支输出是否转头结果。