《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Align the GAP: Prior-Based Unified Multi-task Remote Physiological Measurement Framework For Domain Generalization and Personalization
编辑推荐:
针对多任务远程生理测量的多源同语义域泛化(Multi-source Synsemantic Domain Generalization, MSSDG)旨在提升心率、呼吸率、血氧饱和度等生命体征指标的跨场景泛化能力,近年来受到广泛关注。然而,部分标注缺失与环境噪
针对多任务远程生理测量的多源同语义域泛化(Multi-source Synsemantic Domain Generalization, MSSDG)旨在提升心率、呼吸率、血氧饱和度等生命体征指标的跨场景泛化能力,近年来受到广泛关注。然而,部分标注缺失与环境噪声干扰会显著降低特定任务的估计精度。同时,面向个性化产品的实时适配需求,MSSDG后的测试时个性化适配(Test-Time Personalized Adaptation, TTPA)同样值得探索,但现有泛化方法与个性化方法之间存在显著鸿沟,难以融合。为此,研究人员提出了一种融合生物特征与远程光电容积描记法(remote Photoplethysmography, rPPG)先验的统一框架GAP,可同时支持MSSDG与TTPA。研究人员首先将人脸视频信息解耦为不变语义、个体偏差与噪声三类成分,随后在不同阶段针对不同面部信息引入融合先验知识与实证观察的多个模块。基于泛化与个性化目标的差异化原理,该框架仅需极小调整即可在多任务远程生理估计场景下同时解决MSSDG与TTPA问题。研究人员将原有MSSDG基准扩展至TTPA协议,并在六个公开数据集及一个新采集的真实驾驶数据集上完成验证,实验结果表明该方法的有效性,代码与新数据集已开源。
该研究由香港科技大学(广州)等团队完成,发表于《International Journal of Computer Vision》。远程生理测量技术通过普通摄像头捕捉面部皮肤的光吸收变化,可在无接触条件下监测心率(Heart Rate, HR)、呼吸率(Respiratory Rate, RR)、血氧饱和度(Blood Oxygen Saturation, SpO2)与血容量脉搏(Blood Volume Pulse, BVP)等关键生命体征,在情感计算、驾驶员状态监测等领域具有重要应用价值。传统单任务模型部署成本高且忽略指标间的内在关联,而现有多任务学习(Multi-Task Learning, MTL)方法在多源域场景下存在严重的域偏移与部分标注导致的跷跷板效应,同时缺乏面向个性化实时适配的有效方案。针对上述问题,研究人员提出了GAP(Generalization and Personalization with Priors)统一框架,通过融合生物计量学先验知识,首次实现了多任务远程生理测量中域泛化与测试时个性化的协同优化。
研究采用的核心技术方法包括:1. 构建基于比率之比(Ratio-of-Ratios, RoR)原理的输入级数据增强策略,模拟环境噪声与采样延迟;2. 设计语义结构对齐(Semantic Structure Alignment, SSA)与语义分布对齐(Semantic Distribution Alignment, SDA)双重自监督正则化机制,提升共享表征的鲁棒性;3. 提出融合频域一致性(Frequency-domain Consistency, FC)与时域不一致性(Time-domain Inconsistency, TIC)的先验约束损失,解决部分标注下的监督信号不足问题;4. 引入个体偏差显式建模模块,通过辅助分类任务解耦个体特征,并根据泛化或个性化目标动态调整特征融合方式。实验覆盖六个公开数据集及新采集的驾驶数据集HMPC-D,所有评估均基于五组随机种子的平均结果。
研究结果如下:
4.1 数据集
研究人员选用UBFC-rPPG、BUAA、PURE、VIPL-HR、V4V、HCW六个公开数据集,并新采集HMPC-D驾驶数据集。HMPC-D包含8名参与者在日间与夜间真实道路驾驶场景下的同步视频与接触式生理真值,涵盖HR、BVP、SpO2、RR全指标标注,弥补了现有驾驶数据集标注不全的缺陷。
4.2 实现细节
实验采用时空图(Spatial-Temporal Map, STMap)作为输入表征,以ResNet-18为共享编码器,在MSSDG阶段采用Adam优化器训练20000次迭代,TTPA阶段采用SGD优化器进行逐样本在线适配,评估指标包括MAE、RMSE、Pearson相关系数等。
4.3 公开数据集性能
在MSSDG协议中,GAP-G变体在PURE数据集HR任务上取得MAE 5.27、RMSE 7.57的最优结果,较PhysMLE提升约10%;在SpO2估计任务上MAE降低9%、相关系数提升42%。在TTPA协议中,GAP-P变体在VIPL-HR数据集HR任务上MAE达7.02,较次优方法提升13%,验证了个体偏差建模对个性化适配的有效性。
4.4 计算成本
GAP框架参数量略高于ResNet-18,仅为PhysMLE的三分之二,推理速度显著提升,满足实时部署需求。
4.5 驾驶场景性能
在HMPC-D数据集上,GAP-G在日间场景HR估计RMSE为12.37,优于现有域泛化方法;GAP-P通过个性化适配进一步将夜间场景HR估计RMSE降至7.27,绝对误差中位数较通用模型降低15%以上。
4.6 消融实验
移除个体偏差约束(LPE)会导致泛化性能下降,移除频域一致性约束(LFC)会使TTPA阶段性能严重退化,验证了各模块设计的必要性。
讨论与结论部分指出,GAP框架通过先验驱动的表征解耦与自适应约束,有效弥合了域泛化与个性化适配之间的技术鸿沟。研究首次将时域不一致性先验应用于rPPG个体偏差学习,为多任务生理测量提供了统一的优化范式。尽管在复杂驾驶场景下的性能仍有提升空间,但该框架的计算效率与跨域稳定性已达到实用水平。未来工作可聚焦于标签侧差异校正与大尺度无监督预训练,进一步提升极端环境下的测量精度。该研究提出的“泛化-个性化”一体化思路也可推广至显著性检测、语义分割等其他多任务计算机视觉领域。