迈向通用化的驾驶员疲劳检测：一个结合几何变换和自校正对抗学习的统一框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Towards Generalizable Driver Drowsiness Detection: A Unified Framework with Geometric Transformations and Self-Correcting Adversarial Learning

【字体：大中小】 时间：2026年04月15日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　驾驶员疲劳检测框架DrowsyDG-Video通过多视角几何增强、对抗域适应和自校正损失机制解决个体差异、环境变化及标注不一致问题，在三个公开数据集上超越现有方法5.3%-2.7%，支持实时非接触监测。

李文博|赵涛|王继尧

四川大学电气工程学院，中国四川成都

摘要

识别驾驶员疲劳状态对于车辆安全至关重要。然而，由于三个关键因素，实际应用中的驾驶员疲劳检测面临重大挑战：面部特征的个体差异、数据收集环境的不同以及标签协议的不统一（主观评估与客观评估）。为了解决这些问题，我们提出了一个新颖的框架（DrowsyDG-Video），该框架包括三个组成部分：1）多视图面部特征点增强策略，通过几何变换合成多样化的面部动态，有效模拟不同摄像头和遮挡场景下的视角；2）对抗性模块，利用梯度反转学习领域不变的表示；3）自适应分类机制，通过自校正样本权重自动抑制标签噪声。在三个公开数据集上的综合评估表明，该框架的泛化能力优于现有方法。我们的方法在三个数据集上的表现分别优于最新疲劳检测和领域泛化方法5.3%和2.7%。可视化分析显示，该框架在不同领域中更好地对齐了特征空间，同时保留了疲劳特征的独特性。这些有竞争力的结果证实了DrowsyDG-Video在非接触式驾驶员疲劳监测中的有效性，有助于提高驾驶安全性。代码可在以下链接获取：https://github.com/lwbscu/DrowsyDG-Video

引言

驾驶员疲劳是一个严重的公共安全问题，全球约20%的致命事故由此造成，每年导致数千人死亡（Administration等人，2006年）。为了解决这个问题，已经开发了先进的驾驶辅助系统（ADAS）来减轻驾驶负担，但较低的驾驶负担也可能增加疲劳风险（Ayas, Donmez, & Tang, 2024）。疲劳检测对于防止因驾驶员状态不佳引起的事故至关重要。此外，它还允许驾驶舱交互系统识别驾驶员状态，从而提升整体驾驶体验（Gershon, Ronen, Oron-Gilad, & Shinar, 2009）。

目前检测驾驶员疲劳的方法主要分为两类：基于生理信号的检测和通过计算机视觉的检测。生理信号方法（如EEG和ECG监测）可以有效（Feng, Wang, Xie, Liu, Qiao, Liu, 2024, Wang, Li, Wang, Ayas, Donmez, He, Wu, 2026）。Guo, Yang, & Wu（2025）证明，通过注意力网络融合生理信号可以显著提高鲁棒性。然而，这些复杂的方法通常需要侵入式传感器或严格标注的数据。为了克服这些限制，研究人员开发了基于计算机视觉的方法作为无接触且经济可行的替代方案，这些方法利用深度学习。早期的计算机视觉方法依赖于分析静态图像来检测疲劳，主要使用传统的机器学习算法提取手工制作的特征（Sacco, Farrugia, 2012, Yimyam, Ketcham, 2018）。然而，这些方法在面对眼镜等遮挡物时效果不佳。尽管深度学习（DL）技术出现并得到了应用（Mou等人，2021），但由于无法捕捉时间信息，这些方法在准确性方面仍有不足。因此，引入了利用视频的方法来结合时间动态（Wang等人，2025c）。然而，这种进步带来了计算复杂性和信息冗余的增加。为了解决这些问题，研究人员开始关注特定的局部区域，如眼睛和嘴巴，以减少计算负担（Wang等人，2025c）。尽管付出了这些努力，效率和相关问题仍然存在。例如，Camberg & Hüllermeier（2024）指出，虽然基于注视的分类已经成熟，但在不受约束的环境中仍易受校准误差的影响。最近，提出了基于面部特征点的检测方法（Bekhouche, Kajo, Ruichek, & Dornaika, 2022），这些方法通过关注关键面部特征显著降低了复杂性，同时保持了高准确性（Wu, Li, Zhang, Yu, 2024, Yang, Yang, Wei, Hu, Lv, 2024）。

尽管深度学习方法在检测驾驶员疲劳方面取得了有希望的结果，但在实际应用中的有效性仍然有限（Wang等人，2025b）。这一限制主要是由于大多数训练数据集是在受控实验室条件下收集的，缺乏真实环境的多样性。为了提高模型性能，使用多样化的数据集进行训练以增加数据的多样性至关重要（Wang等人，2025a），通常会采用领域泛化（DG）技术（Zhou, Yang, Qiao, & Xiang, 2024）。DG使用多个数据集作为源域，并将未见数据集作为目标域，但当前的DG方法仍面临挑战。

如图1所示，不一致性体现在多个维度上。第一个主要挑战是跨受试者的不一致性，即不同人在疲劳时的面部特征不同。此外，跨领域的不一致性使问题更加复杂，如表1所示的数据集所示。这些数据集在摄像头传感器、摄像头角度和收集场景上存在差异，范围从受控的室内环境到真实世界的驾驶条件。此外，疲劳标签协议的不统一性是开发统一检测框架的关键障碍。一些数据集依赖于个人的主观评估，例如KSS评分（Euro, 2023），心理研究表明这种评估存在显著的认知偏差（Kruger, Dunning, 1999, Miller, Ross, 1975）。其他数据集采用客观评估，导致标准不匹配。在特征学习的背景下，这些模糊的标签会导致我们称之为“初始化崩溃”的现象。传统的度量学习方法在动态更新类中心时常常失败；错误标记的“灰色区域”样本产生的异常激活会传播到中心更新中，导致特征决策边界偏离真实的生理流形。总之，这为仅依赖视频的框架留下了空白，这些框架必须在标签噪声、环境和个体差异下运行，而无需复杂的校准。

为了解决这些挑战，我们提出了一个统一的框架（DrowsyDG-Video），该框架结合了增强、对抗性学习和一种新颖的几何先验引导优化策略。我们的多视图面部特征点增强通过几何变换生成多样化的面部特征，有效模拟不同的视角，同时保持计算效率。对抗性学习模块通过使用梯度反转学习领域不变的表示，最小化摄像头设置变化的影响。最重要的是，为了解决标签协议不一致引起的不稳定性，我们引入了一个具有先验信息的静态中心（PISC）的鲁棒自校正损失机制。与容易受到噪声影响的动态更新方法不同，我们的方法在训练前使用来自生理几何先验的静态语义中心来固定特征空间。这与一个感知置信度的截断机制相结合，自动识别和过滤不可靠的样本。这种综合方法提高了模型在不同受试者、环境和标签标准下的鲁棒性，同时确保特征空间在生理上是合理的。

我们的主要贡献可以总结如下：

•

我们提出了一个统一的基于视频的框架，该框架独特地结合了几何增强、对抗性适应和自校正学习。与通用的DG方法不同，我们的方法专门用于同时解决非接触式疲劳检测中的三个挑战：跨受试者变异性、环境领域变化和标签模糊性。

•

我们开发了一种新的多视图几何增强策略，用于面部特征点，系统地生成面部特征。这种方法解决了不同摄像头角度和受试者运动引起的不一致性。此外，它提高了模型在各种受试者间的泛化能力，同时保持计算效率。

•

我们提出了一个对抗性领域模块，用于学习跨领域不变的特征。该模块通过最小化源域和目标域之间的差异来学习这些特征。这种方法有效缓解了标签标准和记录场景不一致性的影响。

•

我们提出了一种新颖的自校正目标函数，将鲁棒的分类机制与先验信息的静态中心相结合，以抑制标签噪声并强制执行生理约束。这种组合抑制了主观标签偏见的负面影响，同时确保了由生理几何先验支持的紧凑的类内结构。

•

在三个公开数据集上进行的跨数据集和数据集内协议的广泛比较实验表明，我们的框架优于现有基线。此外，特征分布的消融研究和可视化结果证明了我们模型的有效性。低计算成本和整体优越的性能支持其在实际应用中的潜力（表2）。

部分片段

基于视频的疲劳检测

基于视频的疲劳检测经历了几个重要阶段。早期方法主要集中在分析静态图像（Mou等人，2021），这些方法没有考虑疲劳的时间特性。这一限制促使人们开发了基于视频的技术，这些技术结合了完整的面部视频（Ahmad, Agarwal, Tanwar, & Sundram, 2024），从而能够捕捉到关于疲劳的重要时间信息。然而，基于视频的方法仍然

问题表述

驾驶员疲劳检测面临三个主要挑战：1）面部特征和动作表达的跨受试者不一致性，2）数据收集的跨领域不一致性（照明、摄像头角度、记录场景），3）自我报告和客观评估之间的疲劳评估标准不一致性。

为了解决这些挑战，我们提出了一个通用框架（如图2所示），该框架包括三个专门为疲劳检测设计的模型。

实验数据集

为了严格评估我们框架在未见领域的泛化能力，我们选择了三个代表不同疲劳检测范式的公开数据集：个人非驾驶场景、客观标注的驾驶和受控实验室模拟。这种选择确保了摄像头传感器、照明条件和疲劳诱导机制的显著多样性，同时关键地弥合了主观和客观评估标准之间的差距。

讨论

我们对跨受试者、领域和标签异质性的疲劳检测的通用性研究表明，鲁棒的驾驶员监测需要超越传统特征对齐的新方法。首先，我们发现几何一致性比仅仅处理风格变化更为重要。虽然传统的DG方法（如MixStyle）关注光度差异（照明、纹理），但我们的结果显示，当使用室内监控领域数据进行训练时，主要领域差异来自

结论

本研究提出了一个通用的驾驶员疲劳检测框架，解决了实际应用中遇到的关键挑战：跨受试者变异性、环境领域变化和主观标签模糊性。我们的解决方案DrowsyDG-Video将多视图几何增强、对抗性领域适应和自校正先验信息静态中心机制结合到一个统一的架构中。

通过在三个数据集上的广泛评估，我们的模型达到了最佳性能

CRediT作者贡献声明

李文博：概念化、方法论、软件、调查、撰写——原始草案。赵涛：验证、形式分析。王继尧：概念化、撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言