驾驶员疲劳是一个严重的公共安全问题,全球约20%的致命事故由此造成,每年导致数千人死亡(Administration等人,2006年)。为了解决这个问题,已经开发了先进的驾驶辅助系统(ADAS)来减轻驾驶负担,但较低的驾驶负担也可能增加疲劳风险(Ayas, Donmez, & Tang, 2024)。疲劳检测对于防止因驾驶员状态不佳引起的事故至关重要。此外,它还允许驾驶舱交互系统识别驾驶员状态,从而提升整体驾驶体验(Gershon, Ronen, Oron-Gilad, & Shinar, 2009)。
目前检测驾驶员疲劳的方法主要分为两类:基于生理信号的检测和通过计算机视觉的检测。生理信号方法(如EEG和ECG监测)可以有效(Feng, Wang, Xie, Liu, Qiao, Liu, 2024, Wang, Li, Wang, Ayas, Donmez, He, Wu, 2026)。Guo, Yang, & Wu(2025)证明,通过注意力网络融合生理信号可以显著提高鲁棒性。然而,这些复杂的方法通常需要侵入式传感器或严格标注的数据。为了克服这些限制,研究人员开发了基于计算机视觉的方法作为无接触且经济可行的替代方案,这些方法利用深度学习。早期的计算机视觉方法依赖于分析静态图像来检测疲劳,主要使用传统的机器学习算法提取手工制作的特征(Sacco, Farrugia, 2012, Yimyam, Ketcham, 2018)。然而,这些方法在面对眼镜等遮挡物时效果不佳。尽管深度学习(DL)技术出现并得到了应用(Mou等人,2021),但由于无法捕捉时间信息,这些方法在准确性方面仍有不足。因此,引入了利用视频的方法来结合时间动态(Wang等人,2025c)。然而,这种进步带来了计算复杂性和信息冗余的增加。为了解决这些问题,研究人员开始关注特定的局部区域,如眼睛和嘴巴,以减少计算负担(Wang等人,2025c)。尽管付出了这些努力,效率和相关问题仍然存在。例如,Camberg & Hüllermeier(2024)指出,虽然基于注视的分类已经成熟,但在不受约束的环境中仍易受校准误差的影响。最近,提出了基于面部特征点的检测方法(Bekhouche, Kajo, Ruichek, & Dornaika, 2022),这些方法通过关注关键面部特征显著降低了复杂性,同时保持了高准确性(Wu, Li, Zhang, Yu, 2024, Yang, Yang, Wei, Hu, Lv, 2024)。
尽管深度学习方法在检测驾驶员疲劳方面取得了有希望的结果,但在实际应用中的有效性仍然有限(Wang等人,2025b)。这一限制主要是由于大多数训练数据集是在受控实验室条件下收集的,缺乏真实环境的多样性。为了提高模型性能,使用多样化的数据集进行训练以增加数据的多样性至关重要(Wang等人,2025a),通常会采用领域泛化(DG)技术(Zhou, Yang, Qiao, & Xiang, 2024)。DG使用多个数据集作为源域,并将未见数据集作为目标域,但当前的DG方法仍面临挑战。
如图1所示,不一致性体现在多个维度上。第一个主要挑战是跨受试者的不一致性,即不同人在疲劳时的面部特征不同。此外,跨领域的不一致性使问题更加复杂,如表1所示的数据集所示。这些数据集在摄像头传感器、摄像头角度和收集场景上存在差异,范围从受控的室内环境到真实世界的驾驶条件。此外,疲劳标签协议的不统一性是开发统一检测框架的关键障碍。一些数据集依赖于个人的主观评估,例如KSS评分(Euro, 2023),心理研究表明这种评估存在显著的认知偏差(Kruger, Dunning, 1999, Miller, Ross, 1975)。其他数据集采用客观评估,导致标准不匹配。在特征学习的背景下,这些模糊的标签会导致我们称之为“初始化崩溃”的现象。传统的度量学习方法在动态更新类中心时常常失败;错误标记的“灰色区域”样本产生的异常激活会传播到中心更新中,导致特征决策边界偏离真实的生理流形。总之,这为仅依赖视频的框架留下了空白,这些框架必须在标签噪声、环境和个体差异下运行,而无需复杂的校准。
为了解决这些挑战,我们提出了一个统一的框架(DrowsyDG-Video),该框架结合了增强、对抗性学习和一种新颖的几何先验引导优化策略。我们的多视图面部特征点增强通过几何变换生成多样化的面部特征,有效模拟不同的视角,同时保持计算效率。对抗性学习模块通过使用梯度反转学习领域不变的表示,最小化摄像头设置变化的影响。最重要的是,为了解决标签协议不一致引起的不稳定性,我们引入了一个具有先验信息的静态中心(PISC)的鲁棒自校正损失机制。与容易受到噪声影响的动态更新方法不同,我们的方法在训练前使用来自生理几何先验的静态语义中心来固定特征空间。这与一个感知置信度的截断机制相结合,自动识别和过滤不可靠的样本。这种综合方法提高了模型在不同受试者、环境和标签标准下的鲁棒性,同时确保特征空间在生理上是合理的。
我们的主要贡献可以总结如下:
•我们提出了一个统一的基于视频的框架,该框架独特地结合了几何增强、对抗性适应和自校正学习。与通用的DG方法不同,我们的方法专门用于同时解决非接触式疲劳检测中的三个挑战:跨受试者变异性、环境领域变化和标签模糊性。
•我们开发了一种新的多视图几何增强策略,用于面部特征点,系统地生成面部特征。这种方法解决了不同摄像头角度和受试者运动引起的不一致性。此外,它提高了模型在各种受试者间的泛化能力,同时保持计算效率。
•我们提出了一个对抗性领域模块,用于学习跨领域不变的特征。该模块通过最小化源域和目标域之间的差异来学习这些特征。这种方法有效缓解了标签标准和记录场景不一致性的影响。
•我们提出了一种新颖的自校正目标函数,将鲁棒的分类机制与先验信息的静态中心相结合,以抑制标签噪声并强制执行生理约束。这种组合抑制了主观标签偏见的负面影响,同时确保了由生理几何先验支持的紧凑的类内结构。
•在三个公开数据集上进行的跨数据集和数据集内协议的广泛比较实验表明,我们的框架优于现有基线。此外,特征分布的消融研究和可视化结果证明了我们模型的有效性。低计算成本和整体优越的性能支持其在实际应用中的潜力(表2)。