基于偏振的眼动追踪技术及个性化孪生架构的应用

《Proceedings of the ACM on Human-Computer Interaction》：Polarization-Based Eye Tracking with Personalized Siamese Architecture

【字体：大中小】 时间：2026年05月29日 来源：Proceedings of the ACM on Human-Computer Interaction

编辑推荐：

　　摘要：头戴设备与眼动追踪技术的结合为自然的人机交互提供了解决方案。然而，由于个体间的差异性，它们通常需要针对每个用户进行校准以获得最佳性能。一种差分个性化方法使用孪生架构来学习相对注视位移，并从少量校准帧中重建绝对注视方向。在本文中，我们在基于偏振的眼动追踪上对孪生个性化方法进行

　　摘要：头戴设备与眼动追踪技术的结合为自然的人机交互提供了解决方案。然而，由于个体间的差异性，它们通常需要针对每个用户进行校准以获得最佳性能。一种差分个性化方法使用孪生架构来学习相对注视位移，并从少量校准帧中重建绝对注视方向。在本文中，我们在基于偏振的眼动追踪上对孪生个性化方法进行了基准测试。为了进行基准测试，我们使用了一个包含338名受试者的数据集，这些数据集是用偏振敏感相机和850纳米的照明捕获的。我们实现了与线性校准相当的性能，但样本数量减少了10倍。与基于近红外（NIR）的输入相比，使用偏振输入进行孪生个性化可以将注视误差降低多达12%。将孪生个性化与线性校准结合使用，可以进一步将性能提高多达13%。这些结果证明了孪生个性化是一种实现精确眼动追踪的实用方法。

1 引言
眼动追踪（ET）在虚拟/增强现实[Adhanom等人2023年]、人机交互[Chen等人2023年]和辅助技术[Edughele等人2022年]中发挥着关键作用。实际上，要实现精确的注视估计，必须应对眼睛解剖结构和生理学的显著个体差异、眼睑和睫毛的遮挡、头戴设备佩戴的变化以及会话间的漂移。为了提供可靠的交互，大多数系统依赖于针对每个用户的校准。

孪生个性化是一种方法，它从同一个人的双眼图像对中学习相对注视位移，并使用少量的锚点集在测试时重建绝对注视方向。具体来说，遵循[Liu等人2021年]提出的差分注视公式，一个共享权重（孪生）网络预测测试图像与每个校准图像之间的偏移；将这些偏移与已知的锚点标签结合起来，得到最终的绝对注视方向。这种公式将校准问题转化为一个少样本问题，利用成对关系而不是需要密集的针对每个用户的回归。重要的是，这种方法与具体模式无关，并且自然地扩展到了基于偏振的眼动追踪（PET），后者能够揭示在仅基于强度的成像中不可见的特定于个体的巩膜和角膜特征[?urauskas等人2025年]。

我们的应用场景使用双眼图像，并对校准预算有严格限制。与传统的线性回归校准[Liu等人2021年]不同，后者通常需要数十到数百个设备上的样本才能达到竞争性的准确性，孪生个性化使用数量少一个数量级的图像就能有效工作。我们进一步展示了孪生个性化与线性校准相结合可以带来额外的改进，与线性校准的基线相比，准确性提高了多达13%。我们的主要贡献如下：
- 我们证明了孪生个性化可以有效地应用于基于偏振的眼动追踪（PET）[?urauskas等人2025年]。我们展示了在基于偏振的输入下，孪生个性化的一致性改进，验证了这种方法相对于未校准或线性校准的基线模型的有效性。
- 此外，我们证明了孪生个性化可以与线性校准无缝结合。这种组合将PET上的测试注视误差降低了13%（在误差分布的P50（第50百分位/中位数）、P75（第75百分位）和P95（第95百分位）处）。
- 值得注意的是，对于PET，孪生个性化使用比线性校准少10倍的校准图像就能达到竞争性的性能，显著提高了实际应用的实用性。

本文的其余部分组织如下：第2节回顾相关工作，第3节描述我们的方法，第4节介绍实验设置和结果，第5节以讨论和未来方向作为结论。

2 相关工作
眼动追踪（ET）的早期努力包括基于模型和基于特征的方法，这些方法依赖于几何眼模型和手工制作的特征[Guestrin和Eizenman 2006年；Valenti等人2012年]。虽然这些方法提供了可解释性和计算效率，但它们有显著的局限性：它们需要仔细的特征工程[Blignaut 2014年]，依赖于关于眼睛几何结构的限制性假设[?wirski和Dodgson 2013年]，需要广泛的校准来处理个体解剖学差异[Liu等人2024年]，并且在包括不同的相机距离[Hansen和Pece 2005年]、眼镜和环境变化[Murthy等人2021年]在内的具有挑战性的成像条件下表现出较低的鲁棒性。

随着深度学习的进步，该领域发展到了基于数据的外观驱动方法[Cheng等人2024年]。现代的ET方法使用机器学习，主要是端到端训练来直接从眼睛图像中回归注视方向[Zhang等人2015年]。这些基于深度学习的方法通过直接从数据中学习表示来克服基于模型的方法的局限性，显示出在准确性和鲁棒性方面的显著改进[Cheng等人2020年；Fischer等人2018年]。为了提高性能，一些基于外观的方法结合了超出眼睛区域的额外上下文信息。这些方法采用各种策略：一些处理全脸图像以同时捕捉眼睛外观和头部方向[O Oh等人2022年；Sugano等人2015年；Zhang等人2017年]，而其他方法则将全脸图像与单独提取的眼睛区域或编码的头部位置信息结合起来[Krafka等人2016年；Park等人2019年]。尽管多模态方法提供了更高的准确性和鲁棒性，但它们需要额外的传感器或更大的视野[Zhang等人2017年]。根据应用限制，仅依赖于眼睛图像的外观基方法可能是唯一的可行解决方案，特别是在视野有限的场景中，例如近眼头戴式眼动追踪器。为了解决这些限制，一些工作开发了使用各种机器学习技术从眼睛图像外观直接学习到注视方向的外观基方法[Zhang等人2015年]。这些方法可以根据其输入策略进行分类：单眼方法独立处理左右眼[Zhang等人2020年]，而双眼方法利用来自两只眼睛的互补信息[Kim等人2019年]。无论输入模式如何，个体之间的生理差异，包括眼睛解剖结构、角膜形状和瞳孔动态的变化，都会引入显著的个体间差异[Kar和Corcoran 2017年]。这需要个性化或校准来实现精确的眼动追踪[Zhang等人2019年]。在基于模型的眼动追踪中，校准本质上集成到了几何建模过程中[Hansen和Ji 2010年]。对于基于外观的方法，已经提出了各种个性化方法。传统的后处理校准方法，如线性校准，使用一系列帧来推导出特定于个人的回归参数，以细化基础模型的注视预测[Mansour等人2025年]。最近的基于深度学习的个性化方法探索了领域适应和微调[Wang等人2022年；Yu和Odobez 2020年]。虽然直接在特定于个人的数据上进行微调可以产生强大的结果，但当校准数据有限或适应策略不理想时，存在过拟合的风险[He等人2019年]。一些研究将特征提取和回归组件分开，仅将特征编码器适应于特定于用户的数据[Zhang等人2018年]，而其他方法将个体差异建模为每个眼睛的低维潜在参数[Linden等人2019年]。尽管个性化对于在不同用户之间实现高准确性至关重要，但最小化校准数据需求仍然是一个关键挑战。最近的工作[He等人2019年]采用少样本学习通过基于嵌入的全脸图像进行校准，表明使用更少的校准图像可能需要额外的输入模式。尽管有这些进步，但仅使用眼睛图像并在最小化校准开销的情况下实现高准确性仍然是一个未解决的挑战。为了解决这个问题，本研究特别调查了可以利用双眼PET图像中包含的信息来使用更少校准图像的个性化方法。

孪生网络通过共享权重架构处理输入对来学习相似性度量，已被证明对于图像识别[Koch等人2015年]和对象跟踪[Bertinetto等人2016年]等任务有效。在注视估计的背景下，[Liu等人2021年]证明孪生架构可以通过比较同一人在不同时间点的双眼图像来有效学习特定于用户的注视模式。这种差分注视估计方法预测图像对之间的相对注视位移，而不是绝对坐标，通过利用成对关系更有效地使用有限的校准数据。然而，基于孪生的个性化在基于偏振的眼动追踪中的潜力尚未被探索。基于偏振的方法提供了比传统强度图像更丰富的输入特征[?urauskas等人2025年]，特别是在虹膜/瞳孔不可见且捕获的图像中主要显示白色巩膜的情况下特别有益。我们的工作通过证明基于孪生网络的个性化可以利用偏振信息来实现更高的准确性并减少校准需求来填补这一空白。

3 方法
3.1 问题定义
给定从左右相机捕获的一对眼睛图像，我们的目标是估计用户的注视方向，以极角坐标表示。这里的眼动追踪问题可以表述为一个监督学习问题，其中模型学习一个映射f:I→R^4。输入I=(Ileft,Iright)代表左右眼图像，其中Ileft,Iright∈R^D×H×W，输出是预测的注视角度g^=[θ^left,φ^left,θ^right,φ^right]，其中θ代表偏航，φ代表俯仰。这里，D取决于如何处理偏振数据（例如，不同的偏振通道或派生特征），H和W取决于下采样因子。例如，当使用原始偏振角度（0°, 45°, 90°, 135°）时，D = 4；当使用派生特征（如强度、线偏振度和线偏振角）时，D = 3。相应的真实极坐标来自数据收集期间显示给用户的注视目标，表示为：ggt = [θleft, φleft, θright, φright]。

3.2 偏振数据
遵循[?urauskas等人2025年]中的预处理方法，我们从捕获四个线性方向（0°, 45°, 90°, 135°）原始强度的偏振相机计算强度、线偏振度（DoLP）和线偏振角（AoLP）。经过去马赛克和高斯平滑（σ = 1）后，我们计算Stokes参数：S0=I0°+I45°+I90°+I135°, S1=I0°?I90°, 和 S2=I45°?I135°。从中我们得出强度I = S0/4, DoLP=S1^2+S2^2/(S0+ε)，其中ε确保数值稳定性，以及AoLP=1/2arctan2(S2,S1)，如图1所示。物理上，DoLP量化了线性偏振光的比例，而AoLP编码了偏振方向[?urauskas等人2025年]。在巩膜中，各向异性的胶原蛋白在多次散射下产生细小的、时间稳定的纹理，这在强度成像中几乎不存在。在角膜上，泪膜界面的菲涅尔反射和基质层的双折射产生特征性的偏振模式。这些特定于受试者的特征随时间保持不变[?urauskas等人2025年]，使它们非常适合孪生差分学习，其中网络利用稳定的、特定于个体的锚点来估计注视位移。

3.3 用于个性化的孪生模型
图2. 基于偏振的数据集被分为训练和测试受试者。训练和测试都使用孪生网络架构。在训练期间，网络学习预测同一受试者同一只眼睛的图像对之间的注视位移。在测试期间，通过估计输入图像与受试者校准集中的每个图像之间的注视位移来计算输入图像的预测注视方向，然后根据预测的位移聚合校准注视标签。虽然我们的方法将双眼图像作为每个孪生分支的输入进行处理，但为了清晰起见，我们用单眼图像进行说明。

[Liu等人2021年]提出的孪生方法通过学习同一人同一只眼睛的图像之间的注视位移来解决眼动追踪问题。孪生网络架构不是直接预测绝对注视坐标，而是学习一个函数f: (I1, I2) → Δg，将两个眼睛图像映射到它们对应的注视目标之间的相对位移。我们将这种方法适应于处理双眼图像对。在我们的实现中，I1和I2分别表示从同一人捕获的双眼输入对（I1left,I1right）和（I2left,I2right），g代表注视目标，Δg是两个输入之间的注视位移。孪生差分网络由两个具有共享权重的分支组成，每个分支接受一对双眼图像。每个分支从左右相机图像对中提取特征，每对图像是在不同时间点捕获的。在连接提取的特征后，回归器预测两个输入之间的注视位移Δg。用于孪生模型分支的骨干结构在第4节中进一步解释。图2提供了训练和测试过程的高层次概述。虽然训练和测试都使用相同的差分网络结构并将注视位移作为输出，但它们在如何利用这个输出方面有所不同。在测试时，我们还会聚合多个输入，平均所有校准图像的注视位移预测以获得最终注视方向。

训练。模型接收两个输入并预测它们之间的注视位移Δg。我们使用[Liu等人2021年]中的随机采样策略来处理训练数据，该策略从同一受试者生成随机输入对，应用于所有训练受试者。训练集的成对采样从特定于个人的数据生成更多的训练样本。通过利用图像之间的相对注视位移方法，该模型能够有效地从稀疏的校准样本中进行泛化，使其适用于实际应用。在训练过程中，我们使用带有异常值拒绝功能的平滑L1损失函数 [Mansour等人，2025年]。对于低于阈值θ的误差，我们应用标准的平滑L1损失；对于超过θ的误差，我们通过因子k缩放损失以减少异常值的影响：L(Δgpred,Δggt)={0.5?(Δgpred?Δggt)2β 如果 |Δgpred?Δggt|<β，|δgpred?δggt|?0.5?β 如果><θ，k?(|δgpred?δggt|?0.5?β) 如果 |δgpred?δggt|≥θ (1) 我们使用 β = θ = 0.1 和 k = 0.1，将异常值的权重降低10倍。

测试时，我们随机选择每个受试者的固定数量的双眼输入作为锚点集（也称为校准集）——这是一小部分具有已知注视目标的参考图像，无需重新训练即可实现个性化。给定一个受试者的测试输入，我们计算输入与锚点集中每张图像之间的注视位移δgc。然后按照公式2计算预测的注视方向：g^=1c∑c=1c(δgc+gc) (2)其中c是校准样本的数量，gc是第c个校准样本的已知注视目标，δgc是测试输入与第c个校准样本之间的预测注视位移。在第4节中，我们探讨了校准样本数量对预测性能的影响。

4 实验
4.1 实验设置
数据集和人口统计
从[?urauskas等人，2025年]的数据集中，我们使用了338名受试者，其中196名用于训练，142名用于验证。偏振敏感相机被定位以捕捉眼睛的上部区域，这是一个具有挑战性的场景，因为这个区域更容易被眼睑和睫毛遮挡。图1展示了处理成三个通道的偏振数据：强度、dolp和aolp。对于个性化实验，我们评估了两种输入模式：使用强度-dolp-aolp通道的偏振数据，以及使用三个复制的强度通道的强度数据，以确保模型能力的公平比较。两种模式的图像尺寸都是3 × 256 × 256。

在所有参与者中，大多数被识别为白人（52.5%），其次是亚洲人（28.0%），包括东亚人、南亚人和东南亚人。黑人和非裔美国人占样本的6.8%，而西班牙裔或拉丁裔参与者占4.5%。剩余的8.2%包括自认为是中东人、美洲原住民、夏威夷原住民或其他种族的人。数据收集协议允许使用隐形眼镜，但本研究不记录或使用隐形眼镜的存在与否。

方法比较
我们将连体个性化方法与基线模型进行比较，其中基线模型对应于连体网络的一个分支，该分支直接产生绝对注视预测，而不需要用户特定的校准。由于共享（连体）权重，这个单一分支具有与整个网络相同的模型能力。此外，我们根据[liu等人，2021年；mansour等人，2025年]的方法，在连体模型和基线模型上探索了线性校准的使用。线性校准是一种简单的线性模型，用于用户特定的校准。给定模型输出g^=[θ^left,φ^left,θ^right,φ^right]，校准后的输出为：g^final=θ0+μ⊙g^，其中θ0 = [θ0, left, φ0, left, θ0, right, φ0, right]是偏置向量，μ=[μθleft,μφleft,μθright,μφright]是缩放向量，⊙表示逐元素乘法。线性参数（θ0,left,μθleft,φ0,left,μφleft,θ0,right,μθright,φ0,right,μφright）是通过最小化l1损失来估计的，使用受试者校准序列中的所有帧。在[mansour等人，2025年]中，使用了大约1000个眼动点的整个校准序列。在我们的实验中，线性校准是在大约100帧的序列上进行的，其中9个目标位置排列成覆盖20度的环。

我们将连体个性化方法与线性校准的基线模型进行比较。此外，我们还探索了结合两种方法，其中连体模型的个性化注视预测通过线性校准作为后处理步骤进行细化。

评估指标
为了评估模型性能，我们使用度数表示的注视误差作为性能指标。我们报告误差分布的不同百分位数：p50（第50百分位数/中位数）、p75（第75百分位数）和p95（第95百分位数）。虽然p50是在以前的研究中常用的指标，但对于连续使用的ar/vr应用来说，p95能够捕捉到主要影响用户体验的大规模低频错误；因此，我们的分析中也提供了p95指标。

特征提取器
对于实验，我们使用[mansour等人，2025年]中描述的模型结构作为特征提取器。特征提取器有两个独立的分支：一个处理左眼图像，另一个处理右眼图像。每个分支独立提取特征，然后将特征连接起来进行进一步处理。在[mansour等人，2025年]的原始模型中，得到的特征向量用于直接预测绝对极坐标。相比之下，在连体架构中，我们使用相同的流程从同一受试者的另一对左右眼图像中提取特征。两个特征向量被连接起来，并输入到一个回归器中，输出相对注视差异。

4.2 结果
表1展示了在偏振（强度-dolp-aolp）和仅强度输入上，带有和不带有线性校准的连体模型和基线模型的性能。最佳性能是通过结合偏振输入和连体个性化以及随后的线性校准获得的。我们比较了仅使用9张用户特定校准图像的连体个性化与基于大约100张完整校准序列校准的基线模型。值得注意的是，连体个性化要么优于线性校准的基线模型，要么与其表现相当，这表明可以用显著更少的校准样本实现有效的个性化。具体来说，与线性校准的基线模型相比，连体个性化将p95的注视误差降低了5.4%，而在p50和p75上表现相当，且使用的图像数量减少了10倍。

当有更大的校准数据集可用时，连体方法可以通过线性校准进一步细化。表1显示，对连体预测应用线性校准可以进一步提高性能。将线性校准应用于连体模型而不是基线模型，可以将p50的注视误差降低13%，p75降低11%，p95降低8.6%。因此，校准后的连体预测始终优于校准后的基线预测，证实了连体架构的优势。

值得注意的是，在所有误差百分位数中，偏振输入始终比强度输入产生更低的注视误差，这表明与传统的基于强度的表示相比，偏振信息为注视估计提供了更丰富的特征。与使用强度数据的传统线性校准基线模型相比，提出的使用偏振数据的连体个性化模型在p50上提高了27%，在p75上提高了25%，在p95上提高了19%。当使用带有线性校准的连体模型时，与仅使用强度输入相比，偏振输入将p50的注视误差降低了12%，p75降低了12%，p95降低了5.5%。即使没有额外的校准，使用偏振输入的连体模型也使p50的误差降低了12%，p75降低了12%，p95降低了6.5%。

表1. 线性注视误差（°） ↓
数据模型校准 p50 p75 p95
偏振连体 ?0.91 1.51 2.88 ×1.08 1.65 2.98
基线 ?1.05 1.69 3.15 ×2.36 3.18 4.78
强度连体 ?1.03 1.72 3.05 ×1.23 1.87 3.19
基线 ?1.24 2.02 3.56 ×2.77 3.67 5.32

测试注视误差百分位数（p50, p75, p95）比较了在偏振（强度-dolp-aolp）和强度数据上连体模型和基线模型的性能。连体个性化优于线性校准的基线模型，连体个性化和线性校准的结合实现了最佳的整体性能。提出的使用偏振数据的连体模型比使用强度数据的传统线性校准基线模型实现了更低的注视误差。

如第3.3节所述，在使用连体模型进行推理时使用了锚点图像。表2展示了一项研究，该研究改变了锚点数量（3、5、7和9张校准图像）。结果显示，增加锚点数量一致地降低了偏振和强度数据的注视误差。值得注意的是，虽然9个锚点的性能优于使用大约100张图像的线性校准，但即使只有3个锚点也能提供有竞争力的性能，显著减少了校准需求。

表2. 校准
注视误差（°） ↓
数据模型图像 p50 p75 p95
偏振连体 3 1.16 1.76 3.10 5 1.12 1.71 3.04 7 1.11 1.68 3.01 9 1.08 1.65 2.98
基线～ 100 1.05 1.69 3.15
强度连体 3 1.34 2.02 3.34 5 1.27 1.94 3.27 7 1.26 1.91 3.24 9 1.23 1.87 3.19
基线～ 100 1.24 2.02 3.56

校准/锚点图像数量对p50、p75和p95百分位数误差的影响。随着校准图像数量的增加，性能得到改善，9张图像的结果与使用整个校准序列的线性校准相比具有竞争力。使用偏振数据时，连体个性化和线性校准的基线模型都优于传统的基于强度的线性校准基线模型。

图3显示了在不同数量的校准图像（3、5、7、9）下，连体模型的中位数（p50）和p95测试注视误差的演变，与使用大约100张图像的基线模型（水平线）进行了比较。对于两种模型，偏振输入始终优于强度输入。随着锚点图像数量的增加，两种输入模式的测试注视误差都降低了。值得注意的是，仅使用9张图像的连体个性化实现了与使用大约100张图像的基线模型相当的中位数注视误差，如图3a所示。此外，图3b显示，即使只有3张校准图像，连体个性化在p95上也优于线性校准的基线模型，表明在具有减少的尾部误差的挑战性情况下表现更优。表2进一步支持了这种优势，即使用较少校准图像的连体个性化在所有误差百分位数（p50、p75和p95）上都优于使用大约100张图像的基线模型。

图3. p50（左）和p95（右）注视误差作为连体模型推理期间使用的锚点图像数量的函数。使用9个锚点时，性能与使用大约100张图像校准的基线模型相当。

4.2.1 消融研究
训练数据采样策略
连体训练需要成对的输入，如第3.3节所述。除了随机采样策略外，我们还探索了一种称为校准采样的替代训练数据采样方法。图4展示了两种采样策略：随机采样和校准采样。在这个图中，s表示一个受试者，i表示一个输入样本，c表示来自受试者校准集的样本。每个输入包括一对左右眼图像。图4a显示了随机采样，我们随机配对来自同一训练受试者的输入。对于图4b中显示的校准采样，我们在开始时随机选择每个受试者的3张校准图像来形成一个固定的校准集。训练对包括来自随机时间步长和一个固定校准集的输入。

表3显示，对于偏振数据，随机采样产生了较低的测试误差，表明更好的泛化能力。固定的校准图像是随机为每个受试者选择的；然而，这种策略可能会促进记忆而不是泛化。

表3. 注视误差
数据采样策略 p50 p75 p95
偏振随机采样 1.08 1.65 2.98
校准采样 1.34 2.05 3.56

随机采样与校准采样（每个受试者3张图像）在偏振数据上对连体模型训练的性能比较。随机采样产生的注视误差低于预先选定的固定校准集。虽然强度数据通常只有一个通道，但我们探索了三倍强度（三个相同的强度通道）以确保与三通道偏振数据（强度-dolp-aolp）的公平比较。表4展示了三种配置下的基线模型：单通道强度、三倍强度和偏振。当应用线性校准时，三倍强度和单通道强度的性能相似；然而，不进行线性校准时，三倍强度优于单通道强度。因此，在所有比较中，我们使用三倍强度作为基于强度的基线，并将其称为强度实验。尽管增加通道数量提高了性能，但由于模型能力的提升，偏振在应用线性校准时始终优于单通道强度。因此，即使没有额外的校准，使用偏振输入的连体模型也实现了p50降低12%、p75降低12%、p95降低5.5%的误差减少。

4.3 讨论和实际考虑
头戴设备滑动
在实际应用中，头戴设备的滑动可能会引入系统性的注视偏移，随着时间的推移降低跟踪精度。连体个性化提供了一种自然的重新校准机制：当检测到滑动（例如，通过imu信号或用户发起的重新校准）时，系统可以快速更新锚点集，而用户只需付出最小的努力，利用了该方法在少量校准样本下的效率。

计算延迟如果 |δgpred?δggt|≥θ (1) 我们使用 β=θ = 0.1 和 k=0.1，将异常值的权重降低10倍。测试时，我们随机选择每个受试者的固定数量的双眼输入作为锚点集（也称为校准集）——这是一小部分具有已知注视目标的参考图像，无需重新训练即可实现个性化。给定一个受试者的测试输入，我们计算输入与锚点集中每张图像之间的注视位移δgc。然后按照公式2计算预测的注视方向：g^=1C∑c=1C(Δgc+gc) (2)其中c是校准样本的数量，gc是第c个校准样本的已知注视目标，δgc是测试输入与第c个校准样本之间的预测注视位移。在第4节中，我们探讨了校准样本数量对预测性能的影响。 4 实验 4.1 实验设置数据集和人口统计从[?urauskas等人，2025年]的数据集中，我们使用了338名受试者，其中196名用于训练，142名用于验证。偏振敏感相机被定位以捕捉眼睛的上部区域，这是一个具有挑战性的场景，因为这个区域更容易被眼睑和睫毛遮挡。图1展示了处理成三个通道的偏振数据：强度、dolp和aolp。对于个性化实验，我们评估了两种输入模式：使用强度-dolp-aolp通道的偏振数据，以及使用三个复制的强度通道的强度数据，以确保模型能力的公平比较。两种模式的图像尺寸都是3 × 256 × 256。在所有参与者中，大多数被识别为白人（52.5%），其次是亚洲人（28.0%），包括东亚人、南亚人和东南亚人。黑人和非裔美国人占样本的6.8%，而西班牙裔或拉丁裔参与者占4.5%。剩余的8.2%包括自认为是中东人、美洲原住民、夏威夷原住民或其他种族的人。数据收集协议允许使用隐形眼镜，但本研究不记录或使用隐形眼镜的存在与否。方法比较我们将连体个性化方法与基线模型进行比较，其中基线模型对应于连体网络的一个分支，该分支直接产生绝对注视预测，而不需要用户特定的校准。由于共享（连体）权重，这个单一分支具有与整个网络相同的模型能力。此外，我们根据[liu等人，2021年；mansour等人，2025年]的方法，在连体模型和基线模型上探索了线性校准的使用。线性校准是一种简单的线性模型，用于用户特定的校准。给定模型输出g^=[θ^left,φ^left,θ^right,φ^right]，校准后的输出为：g^final=θ0+μ⊙g^，其中θ0 = [θ0, left, φ0, left, θ0, right, φ0, right]是偏置向量，μ=[μθleft,μφleft,μθright,μφright]是缩放向量，⊙表示逐元素乘法。线性参数（θ0,left,μθleft,φ0,left,μφleft,θ0,right,μθright,φ0,right,μφright）是通过最小化L1损失来估计的，使用受试者校准序列中的所有帧。在[Mansour等人，2025年]中，使用了大约1000个眼动点的整个校准序列。在我们的实验中，线性校准是在大约100帧的序列上进行的，其中9个目标位置排列成覆盖20度的环。我们将连体个性化方法与线性校准的基线模型进行比较。此外，我们还探索了结合两种方法，其中连体模型的个性化注视预测通过线性校准作为后处理步骤进行细化。评估指标为了评估模型性能，我们使用度数表示的注视误差作为性能指标。我们报告误差分布的不同百分位数：p50（第50百分位数中位数）、p75（第75百分位数）和p95（第95百分位数）。虽然p50是在以前的研究中常用的指标，但对于连续使用的ar vr应用来说，p95能够捕捉到主要影响用户体验的大规模低频错误；因此，我们的分析中也提供了p95指标。特征提取器对于实验，我们使用[mansour等人，2025年]中描述的模型结构作为特征提取器。特征提取器有两个独立的分支：一个处理左眼图像，另一个处理右眼图像。每个分支独立提取特征，然后将特征连接起来进行进一步处理。在[mansour等人，2025年]的原始模型中，得到的特征向量用于直接预测绝对极坐标。相比之下，在连体架构中，我们使用相同的流程从同一受试者的另一对左右眼图像中提取特征。两个特征向量被连接起来，并输入到一个回归器中，输出相对注视差异。 4.2 结果表1展示了在偏振（强度-dolp-aolp）和仅强度输入上，带有和不带有线性校准的连体模型和基线模型的性能。最佳性能是通过结合偏振输入和连体个性化以及随后的线性校准获得的。我们比较了仅使用9张用户特定校准图像的连体个性化与基于大约100张完整校准序列校准的基线模型。值得注意的是，连体个性化要么优于线性校准的基线模型，要么与其表现相当，这表明可以用显著更少的校准样本实现有效的个性化。具体来说，与线性校准的基线模型相比，连体个性化将p95的注视误差降低了5.4%，而在p50和p75上表现相当，且使用的图像数量减少了10倍。当有更大的校准数据集可用时，连体方法可以通过线性校准进一步细化。表1显示，对连体预测应用线性校准可以进一步提高性能。将线性校准应用于连体模型而不是基线模型，可以将p50的注视误差降低13%，p75降低11%，p95降低8.6%。因此，校准后的连体预测始终优于校准后的基线预测，证实了连体架构的优势。值得注意的是，在所有误差百分位数中，偏振输入始终比强度输入产生更低的注视误差，这表明与传统的基于强度的表示相比，偏振信息为注视估计提供了更丰富的特征。与使用强度数据的传统线性校准基线模型相比，提出的使用偏振数据的连体个性化模型在p50上提高了27%，在p75上提高了25%，在p95上提高了19%。当使用带有线性校准的连体模型时，与仅使用强度输入相比，偏振输入将p50的注视误差降低了12%，p75降低了12%，p95降低了5.5%。即使没有额外的校准，使用偏振输入的连体模型也使p50的误差降低了12%，p75降低了12%，p95降低了6.5%。表1. 线性注视误差（°） ↓ 数据模型校准 p50 p75 p95 偏振连体 ?0.91 1.51 2.88 ×1.08 1.65 2.98 基线 ?1.05 1.69 3.15 ×2.36 3.18 4.78 强度连体 ?1.03 1.72 3.05 ×1.23 1.87 3.19 基线 ?1.24 2.02 3.56 ×2.77 3.67 5.32 测试注视误差百分位数（p50, p75, p95）比较了在偏振（强度-dolp-aolp）和强度数据上连体模型和基线模型的性能。连体个性化优于线性校准的基线模型，连体个性化和线性校准的结合实现了最佳的整体性能。提出的使用偏振数据的连体模型比使用强度数据的传统线性校准基线模型实现了更低的注视误差。如第3.3节所述，在使用连体模型进行推理时使用了锚点图像。表2展示了一项研究，该研究改变了锚点数量（3、5、7和9张校准图像）。结果显示，增加锚点数量一致地降低了偏振和强度数据的注视误差。值得注意的是，虽然9个锚点的性能优于使用大约100张图像的线性校准，但即使只有3个锚点也能提供有竞争力的性能，显著减少了校准需求。表2. 校准注视误差（°） ↓ 数据模型图像 p50 p75 p95 偏振连体 3 1.16 1.76 3.10 5 1.12 1.71 3.04 7 1.11 1.68 3.01 9 1.08 1.65 2.98 基线～ 100 1.05 1.69 3.15 强度连体 3 1.34 2.02 3.34 5 1.27 1.94 3.27 7 1.26 1.91 3.24 9 1.23 1.87 3.19 基线～ 100 1.24 2.02 3.56 校准锚点图像数量对p50、p75和p95百分位数误差的影响。随着校准图像数量的增加，性能得到改善，9张图像的结果与使用整个校准序列的线性校准相比具有竞争力。使用偏振数据时，连体个性化和线性校准的基线模型都优于传统的基于强度的线性校准基线模型。图3显示了在不同数量的校准图像（3、5、7、9）下，连体模型的中位数（p50）和p95测试注视误差的演变，与使用大约100张图像的基线模型（水平线）进行了比较。对于两种模型，偏振输入始终优于强度输入。随着锚点图像数量的增加，两种输入模式的测试注视误差都降低了。值得注意的是，仅使用9张图像的连体个性化实现了与使用大约100张图像的基线模型相当的中位数注视误差，如图3a所示。此外，图3b显示，即使只有3张校准图像，连体个性化在p95上也优于线性校准的基线模型，表明在具有减少的尾部误差的挑战性情况下表现更优。表2进一步支持了这种优势，即使用较少校准图像的连体个性化在所有误差百分位数（p50、p75和p95）上都优于使用大约100张图像的基线模型。图3. p50（左）和p95（右）注视误差作为连体模型推理期间使用的锚点图像数量的函数。使用9个锚点时，性能与使用大约100张图像校准的基线模型相当。 4.2.1 消融研究训练数据采样策略连体训练需要成对的输入，如第3.3节所述。除了随机采样策略外，我们还探索了一种称为校准采样的替代训练数据采样方法。图4展示了两种采样策略：随机采样和校准采样。在这个图中，s表示一个受试者，i表示一个输入样本，c表示来自受试者校准集的样本。每个输入包括一对左右眼图像。图4a显示了随机采样，我们随机配对来自同一训练受试者的输入。对于图4b中显示的校准采样，我们在开始时随机选择每个受试者的3张校准图像来形成一个固定的校准集。训练对包括来自随机时间步长和一个固定校准集的输入。表3显示，对于偏振数据，随机采样产生了较低的测试误差，表明更好的泛化能力。固定的校准图像是随机为每个受试者选择的；然而，这种策略可能会促进记忆而不是泛化。表3. 注视误差数据采样策略 p50 p75 p95 偏振随机采样 1.08 1.65 2.98 校准采样 1.34 2.05 3.56 随机采样与校准采样（每个受试者3张图像）在偏振数据上对连体模型训练的性能比较。随机采样产生的注视误差低于预先选定的固定校准集。虽然强度数据通常只有一个通道，但我们探索了三倍强度（三个相同的强度通道）以确保与三通道偏振数据（强度-dolp-aolp）的公平比较。表4展示了三种配置下的基线模型：单通道强度、三倍强度和偏振。当应用线性校准时，三倍强度和单通道强度的性能相似；然而，不进行线性校准时，三倍强度优于单通道强度。因此，在所有比较中，我们使用三倍强度作为基于强度的基线，并将其称为强度实验。尽管增加通道数量提高了性能，但由于模型能力的提升，偏振在应用线性校准时始终优于单通道强度。因此，即使没有额外的校准，使用偏振输入的连体模型也实现了p50降低12%、p75降低12%、p95降低5.5%的误差减少。 4.3 讨论和实际考虑头戴设备滑动在实际应用中，头戴设备的滑动可能会引入系统性的注视偏移，随着时间的推移降低跟踪精度。连体个性化提供了一种自然的重新校准机制：当检测到滑动（例如，通过imu信号或用户发起的重新校准）时，系统可以快速更新锚点集，而用户只需付出最小的努力，利用了该方法在少量校准样本下的效率。>
测试时，我们随机选择每个受试者的固定数量的双眼输入作为锚点集（也称为校准集）——这是一小部分具有已知注视目标的参考图像，无需重新训练即可实现个性化。给定一个受试者的测试输入，我们计算输入与锚点集中每张图像之间的注视位移δgc。然后按照公式2计算预测的注视方向：g^=1c∑c=1c(δgc+gc) (2)其中c是校准样本的数量，gc是第c个校准样本的已知注视目标，δgc是测试输入与第c个校准样本之间的预测注视位移。在第4节中，我们探讨了校准样本数量对预测性能的影响。

4 实验
4.1 实验设置
数据集和人口统计
从[?urauskas等人，2025年]的数据集中，我们使用了338名受试者，其中196名用于训练，142名用于验证。偏振敏感相机被定位以捕捉眼睛的上部区域，这是一个具有挑战性的场景，因为这个区域更容易被眼睑和睫毛遮挡。图1展示了处理成三个通道的偏振数据：强度、dolp和aolp。对于个性化实验，我们评估了两种输入模式：使用强度-dolp-aolp通道的偏振数据，以及使用三个复制的强度通道的强度数据，以确保模型能力的公平比较。两种模式的图像尺寸都是3 × 256 × 256。

在所有参与者中，大多数被识别为白人（52.5%），其次是亚洲人（28.0%），包括东亚人、南亚人和东南亚人。黑人和非裔美国人占样本的6.8%，而西班牙裔或拉丁裔参与者占4.5%。剩余的8.2%包括自认为是中东人、美洲原住民、夏威夷原住民或其他种族的人。数据收集协议允许使用隐形眼镜，但本研究不记录或使用隐形眼镜的存在与否。

方法比较
我们将连体个性化方法与基线模型进行比较，其中基线模型对应于连体网络的一个分支，该分支直接产生绝对注视预测，而不需要用户特定的校准。由于共享（连体）权重，这个单一分支具有与整个网络相同的模型能力。此外，我们根据[liu等人，2021年；mansour等人，2025年]的方法，在连体模型和基线模型上探索了线性校准的使用。线性校准是一种简单的线性模型，用于用户特定的校准。给定模型输出g^=[θ^left,φ^left,θ^right,φ^right]，校准后的输出为：g^final=θ0+μ⊙g^，其中θ0 = [θ0, left, φ0, left, θ0, right, φ0, right]是偏置向量，μ=[μθleft,μφleft,μθright,μφright]是缩放向量，⊙表示逐元素乘法。线性参数（θ0,left,μθleft,φ0,left,μφleft,θ0,right,μθright,φ0,right,μφright）是通过最小化l1损失来估计的，使用受试者校准序列中的所有帧。在[mansour等人，2025年]中，使用了大约1000个眼动点的整个校准序列。在我们的实验中，线性校准是在大约100帧的序列上进行的，其中9个目标位置排列成覆盖20度的环。

我们将连体个性化方法与线性校准的基线模型进行比较。此外，我们还探索了结合两种方法，其中连体模型的个性化注视预测通过线性校准作为后处理步骤进行细化。

评估指标
为了评估模型性能，我们使用度数表示的注视误差作为性能指标。我们报告误差分布的不同百分位数：p50（第50百分位数/中位数）、p75（第75百分位数）和p95（第95百分位数）。虽然p50是在以前的研究中常用的指标，但对于连续使用的ar/vr应用来说，p95能够捕捉到主要影响用户体验的大规模低频错误；因此，我们的分析中也提供了p95指标。

特征提取器
对于实验，我们使用[mansour等人，2025年]中描述的模型结构作为特征提取器。特征提取器有两个独立的分支：一个处理左眼图像，另一个处理右眼图像。每个分支独立提取特征，然后将特征连接起来进行进一步处理。在[mansour等人，2025年]的原始模型中，得到的特征向量用于直接预测绝对极坐标。相比之下，在连体架构中，我们使用相同的流程从同一受试者的另一对左右眼图像中提取特征。两个特征向量被连接起来，并输入到一个回归器中，输出相对注视差异。

4.2 结果
表1展示了在偏振（强度-dolp-aolp）和仅强度输入上，带有和不带有线性校准的连体模型和基线模型的性能。最佳性能是通过结合偏振输入和连体个性化以及随后的线性校准获得的。我们比较了仅使用9张用户特定校准图像的连体个性化与基于大约100张完整校准序列校准的基线模型。值得注意的是，连体个性化要么优于线性校准的基线模型，要么与其表现相当，这表明可以用显著更少的校准样本实现有效的个性化。具体来说，与线性校准的基线模型相比，连体个性化将p95的注视误差降低了5.4%，而在p50和p75上表现相当，且使用的图像数量减少了10倍。

当有更大的校准数据集可用时，连体方法可以通过线性校准进一步细化。表1显示，对连体预测应用线性校准可以进一步提高性能。将线性校准应用于连体模型而不是基线模型，可以将p50的注视误差降低13%，p75降低11%，p95降低8.6%。因此，校准后的连体预测始终优于校准后的基线预测，证实了连体架构的优势。

值得注意的是，在所有误差百分位数中，偏振输入始终比强度输入产生更低的注视误差，这表明与传统的基于强度的表示相比，偏振信息为注视估计提供了更丰富的特征。与使用强度数据的传统线性校准基线模型相比，提出的使用偏振数据的连体个性化模型在p50上提高了27%，在p75上提高了25%，在p95上提高了19%。当使用带有线性校准的连体模型时，与仅使用强度输入相比，偏振输入将p50的注视误差降低了12%，p75降低了12%，p95降低了5.5%。即使没有额外的校准，使用偏振输入的连体模型也使p50的误差降低了12%，p75降低了12%，p95降低了6.5%。

表1. 线性注视误差（°） ↓
数据模型校准 p50 p75 p95
偏振连体 ?0.91 1.51 2.88 ×1.08 1.65 2.98
基线 ?1.05 1.69 3.15 ×2.36 3.18 4.78
强度连体 ?1.03 1.72 3.05 ×1.23 1.87 3.19
基线 ?1.24 2.02 3.56 ×2.77 3.67 5.32

测试注视误差百分位数（p50, p75, p95）比较了在偏振（强度-dolp-aolp）和强度数据上连体模型和基线模型的性能。连体个性化优于线性校准的基线模型，连体个性化和线性校准的结合实现了最佳的整体性能。提出的使用偏振数据的连体模型比使用强度数据的传统线性校准基线模型实现了更低的注视误差。

如第3.3节所述，在使用连体模型进行推理时使用了锚点图像。表2展示了一项研究，该研究改变了锚点数量（3、5、7和9张校准图像）。结果显示，增加锚点数量一致地降低了偏振和强度数据的注视误差。值得注意的是，虽然9个锚点的性能优于使用大约100张图像的线性校准，但即使只有3个锚点也能提供有竞争力的性能，显著减少了校准需求。

表2. 校准
注视误差（°） ↓
数据模型图像 p50 p75 p95
偏振连体 3 1.16 1.76 3.10 5 1.12 1.71 3.04 7 1.11 1.68 3.01 9 1.08 1.65 2.98
基线～ 100 1.05 1.69 3.15
强度连体 3 1.34 2.02 3.34 5 1.27 1.94 3.27 7 1.26 1.91 3.24 9 1.23 1.87 3.19
基线～ 100 1.24 2.02 3.56

校准/锚点图像数量对p50、p75和p95百分位数误差的影响。随着校准图像数量的增加，性能得到改善，9张图像的结果与使用整个校准序列的线性校准相比具有竞争力。使用偏振数据时，连体个性化和线性校准的基线模型都优于传统的基于强度的线性校准基线模型。

图3显示了在不同数量的校准图像（3、5、7、9）下，连体模型的中位数（p50）和p95测试注视误差的演变，与使用大约100张图像的基线模型（水平线）进行了比较。对于两种模型，偏振输入始终优于强度输入。随着锚点图像数量的增加，两种输入模式的测试注视误差都降低了。值得注意的是，仅使用9张图像的连体个性化实现了与使用大约100张图像的基线模型相当的中位数注视误差，如图3a所示。此外，图3b显示，即使只有3张校准图像，连体个性化在p95上也优于线性校准的基线模型，表明在具有减少的尾部误差的挑战性情况下表现更优。表2进一步支持了这种优势，即使用较少校准图像的连体个性化在所有误差百分位数（p50、p75和p95）上都优于使用大约100张图像的基线模型。

图3. p50（左）和p95（右）注视误差作为连体模型推理期间使用的锚点图像数量的函数。使用9个锚点时，性能与使用大约100张图像校准的基线模型相当。

4.2.1 消融研究
训练数据采样策略
连体训练需要成对的输入，如第3.3节所述。除了随机采样策略外，我们还探索了一种称为校准采样的替代训练数据采样方法。图4展示了两种采样策略：随机采样和校准采样。在这个图中，s表示一个受试者，i表示一个输入样本，c表示来自受试者校准集的样本。每个输入包括一对左右眼图像。图4a显示了随机采样，我们随机配对来自同一训练受试者的输入。对于图4b中显示的校准采样，我们在开始时随机选择每个受试者的3张校准图像来形成一个固定的校准集。训练对包括来自随机时间步长和一个固定校准集的输入。

表3显示，对于偏振数据，随机采样产生了较低的测试误差，表明更好的泛化能力。固定的校准图像是随机为每个受试者选择的；然而，这种策略可能会促进记忆而不是泛化。

表3. 注视误差
数据采样策略 p50 p75 p95
偏振随机采样 1.08 1.65 2.98
校准采样 1.34 2.05 3.56

随机采样与校准采样（每个受试者3张图像）在偏振数据上对连体模型训练的性能比较。随机采样产生的注视误差低于预先选定的固定校准集。虽然强度数据通常只有一个通道，但我们探索了三倍强度（三个相同的强度通道）以确保与三通道偏振数据（强度-dolp-aolp）的公平比较。表4展示了三种配置下的基线模型：单通道强度、三倍强度和偏振。当应用线性校准时，三倍强度和单通道强度的性能相似；然而，不进行线性校准时，三倍强度优于单通道强度。因此，在所有比较中，我们使用三倍强度作为基于强度的基线，并将其称为强度实验。尽管增加通道数量提高了性能，但由于模型能力的提升，偏振在应用线性校准时始终优于单通道强度。因此，即使没有额外的校准，使用偏振输入的连体模型也实现了p50降低12%、p75降低12%、p95降低5.5%的误差减少。

4.3 讨论和实际考虑
头戴设备滑动
在实际应用中，头戴设备的滑动可能会引入系统性的注视偏移，随着时间的推移降低跟踪精度。连体个性化提供了一种自然的重新校准机制：当检测到滑动（例如，通过imu信号或用户发起的重新校准）时，系统可以快速更新锚点集，而用户只需付出最小的努力，利用了该方法在少量校准样本下的效率。

计算延迟>暹罗式架构在推理过程中需要对每个锚点图像进行一次前向传递。对于我们的9个锚点配置，这意味着每个注视预测的计算成本大约是基线模型的9倍。在延迟至关重要的应用中，可以通过在校准后缓存锚点特征来减轻这一开销，将推理过程简化为一次前向传递加上轻量级的位移聚合。或者，如表2.5所示，将锚点数量减少到3-5张图像可以在保持竞争性准确性的同时降低计算负担。

**结论与未来工作**
在这项工作中，我们证明了暹罗式个性化方法可以有效地应用于基于偏振的眼动追踪（PET）技术，仅使用双眼图像作为输入，从而在保持低校准负担的同时实现高精度，适用于实际部署。我们的研究结果表明，使用偏振数据（Intensity-DoLP-AoLP）的暹罗式个性化方法所需的校准图像数量比传统线性校准方法少10倍，同时仍能实现相当或更优的性能。此外，我们还发现暹罗式个性化方法和线性校准方法是互补的：结合这两种方法可以获得最佳的整体性能，与仅使用线性校准方法相比，在P50、P75和P95的误差率分别降低了13%、11%和8.6%。这一发现使得系统能够通过暹罗式个性化实现准确的注视估计，并且随着更多校准数据的获取，还可以进一步优化预测结果。未来的工作可以探索智能的校准数据选择策略，以确定每个用户校准集中最具信息量的图像，平衡模型在高不确定性情况下的挑战性，并找到作为可靠锚点的代表性示例，从而实现稳健的个性化。此外，与MAML等元学习方法的比较将为分离暹罗式架构的特定贡献提供有价值的理论依据；然而，这些方法尚未在基于偏振的眼动追踪数据上进行验证，因此是未来研究的一个有前景的方向。

热点排行