前瞻：混合注视（视觉）与头部追踪技术——实现免手计算机交互的新方法

《Proceedings of the ACM on Human-Computer Interaction》：LookAHead: Hybrid Gaze (Look) And Head Refinement Approach for Hands-Free Computer Interaction

【字体：大中小】 时间：2026年05月29日 来源：Proceedings of the ACM on Human-Computer Interaction

编辑推荐：

　　摘要免提计算机交互为有运动障碍的用户提供了重要的替代方案，这些用户在使用传统输入设备时遇到困难。在本文中，我们介绍了LookAHead，这是一种基于注视和头部的混合交互系统，可以实现自然且免提的计算机控制。该系统利用注视估计来提供粗略的目标位置，然后通过头部运动进行精细调整，以

　　摘要
免提计算机交互为有运动障碍的用户提供了重要的替代方案，这些用户在使用传统输入设备时遇到困难。在本文中，我们介绍了LookAHead，这是一种基于注视和头部的混合交互系统，可以实现自然且免提的计算机控制。该系统利用注视估计来提供粗略的目标位置，然后通过头部运动进行精细调整，以实现快速便捷的指针控制。为了提高模型的准确性，不仅使用面部特征点进行光标控制和3D头部姿态估计以及输入标准化，还用于增强注视估计模型。我们提出了一种改进的注视标准化过程，以在面部表情变化时提高稳定性。LookAHead无需显式校准即可运行，它采用了一种自动校准策略，能够持续适应用户的注视方向。实验结果表明，所提出的方法能够实现快速便捷的控制，同时将头部运动减少了三倍，这使得它成为更易于使用的免提计算技术。

1 引言
有运动障碍的人利用各种辅助技术与计算机进行交互，例如头部跟踪[1; 2; 3]、基于注视的界面[4; 5; 6]、脑机接口（BCIs）[7; 8; 9]以及结合多种模态技术的混合系统[10; 11; 12; 13]，这些技术旨在帮助有运动障碍的人使用计算机。然而，大多数这些技术依赖于专门的外部传感器或专用硬件，这增加了成本、设置复杂性，限制了便携性，并降低了用户舒适度，使得在实验室环境或临床环境之外日常使用变得不切实际。为了设计出更实用和易于使用的解决方案，许多研究人员专注于基于视觉的界面，这种界面只需要一个标准的RGB摄像头。这种方法可以利用大多数现代笔记本电脑上已有的内置RGB摄像头来实现注视和头部跟踪。虽然使用内置RGB摄像头的头部跟踪技术已经达到了相对较高的准确性，并已在许多应用中得到使用[1; 2; 3; 14]，但仅依赖头部运动往往会导致疲劳，因为需要大范围或连续的运动。这一限制使得它不太适合颈部活动受限的有运动障碍的人。此外，长时间的运动可能会导致误差累积，使光标偏离用户的实际头部方向。一些系统会将光标重新定位到屏幕中心[14]，但我们认为将其直接返回到用户实际注视的位置更为直观。

相比之下，基于RGB的注视跟踪更加自然、快速和直观，但其精度较低，在光照或头部姿态变化时不稳定，并且存在“Midas touch”问题（由于仅依靠注视输入而导致的意外激活）。为了解决这个问题，许多系统采用了停留时间机制[15]、追踪[16]或注视手势[17]。然而，这种方法通常会增加延迟并导致用户疲劳。另一个主要限制是需要显式校准来补偿用户特定的偏差和头部姿态变化。即使头部位置的微小变化也会降低注视精度，因此需要频繁重新校准。尽管如此，注视仍然可以提供有关用户意图的宝贵上下文信息。

为了克服这些限制，我们提出了一种创新的多模态非接触式交互系统，该系统利用了注视和头部运动交互的优点。眼睛负责快速移动到用户想要交互的目标位置，而头部运动则用于将光标调整到更精确的位置。有趣的是，我们还可以利用这些交互来自动校准模型，这是仅依靠注视的系统无法实现的。这种多模态方法不仅旨在缓解“Midas touch”问题，还提供了一种精确交互的精细机制。该系统旨在提供更直观、高效且低疲劳的免提计算机交互。总之，我们的主要贡献包括：
- 我们设计了一种新颖的混合系统，允许光标跳转到注视位置进行交互。用户可以通过微妙的头部运动来调整指针位置。这种混合方案实现了快速精确的控制，最小化了不必要的运动，并减少了用户的疲劳。
- 我们利用交互数据执行自动校准策略，在不断适应用户姿态和环境的同时消除了显式校准的需要。
- 我们重新设计了基于外观的注视估计方法，以更好地适应现实世界的免提HCI场景，并利用现有的面部特征点数据来提高模型准确性，而不会增加计算成本。

2 相关工作
2.1 注视估计技术
注视估计可以分为基于模型、基于特征和基于外观的方法。基于特征的方法依赖于手工制作的几何或外观特征，例如应用于水平显示交互的瞳孔中心-眼角向量[18; 20]，或者描述符如高斯拉普拉斯、HOG和LBP[21; 22]。基于模型的方法拟合3D眼球模型[23; 24]，使用红外或RGB-D摄像头[23; 25; 26]或仅使用RGB输入和2D特征点[27; 28]。尽管它们有效，但基于模型和基于特征的方法仍然对光照和头部姿态敏感[29]，这促使人们转向基于外观的方法。
基于外观的注视估计使用机器学习或深度学习将原始图像直接映射到注视向量。早期的方法包括线性拟合[30]、半监督高斯过程回归[31]和显著性整合[32]，尽管在跨受试者评估[21]或运动变化[33]下性能通常会下降。最近，得益于大规模数据集[34; 35]和深度学习的进步，基于外观的注视估计主要由基于CNN的方法主导。方法从仅使用眼睛[36]发展到全脸[34]以及结合面部和眼睛输入[66; 37; 38]，从而提高了实际性能。一些数据集甚至包括额外的上下文线索，如屏幕内容，用于注视估计[39]。当前的研究强调架构创新，如注意力驱动的区域裁剪[38]、多任务学习[40; 41]和面部特征点的整合[27; 28; 42; 43; 44; 45]。我们的方法通过将面部特征点纳入基于外观的流程中，避免了多任务或注意力机制的计算开销，同时提高了准确性。

2.2 基于注视的交互技术
2.2.1 仅基于注视的交互技术
通过用户的眼球注视来控制计算机是最直观的基于注视的应用。最近的研究[4]开发了一种实时的基于外观的眼球注视系统，无需额外硬件即可控制鼠标光标。该系统在多次用户校准后达到了平均1.81°的注视精度。一些系统利用注视来打字[5]或选择项目[6]。为了交互，我们可以使用停留时间机制[15]、追踪[16]或注视手势[17]。
仅基于注视的交互系统通常需要显式的用户校准，其实际精度仍然有限。它还受到“Midas Touch”问题的影响，即由于无意中的注视而导致意外选择。

2.2.2 结合多种输入的注视
许多研究试图克服仅基于注视的交互的局限性，特别是通过结合额外的模型或输入模态。在论文[11]中，作者提出了一种结合眼球跟踪和语音输入的免提交互方法，以解决基于注视的交互中的Midas Touch问题。EyeMU[46]利用眼球和手部运动来控制智能手机界面，而GazeSwipe[47]结合注视和滑动来提高移动触摸屏的可访问性。ReType[48]引入了一种结合键盘和注视输入的注视辅助文本编辑技术，可以加快光标重新定位和小型编辑的速度，而无需用户离开键盘。

2.2.3 结合头部输入的注视
此外，许多研究结合了注视和头部运动以实现免提交互。HGaze Typing[12]将快速的基于注视的单词选择与简单的头部手势结合，实现了高效的、无需停留的文本输入。在AR/VR[49, 50, 51, 52]中的基础工作广泛探索了混合交互技术。值得注意的是，Pinpointing[49]评估了包括眼睛、头部和手势在内的多种输入组合。他们的结果表明，将粗略选择分配给眼球注视并将精细调整分配给头部运动可以显著提高精度。然而，将这些发现应用于桌面访问的辅助技术存在独特的挑战。首先，虽然之前的研究可以利用手势[49]或全身（躯干）协调[50]，但我们的目标用户（有严重运动障碍的人）通常只能自主控制他们的眼睛和头部。此外，就硬件而言，依赖头戴式显示器（HMDs）或专用的眼球跟踪器往往成本较高。
据我们所知，最相关的工作是HMAGIC[13]。然而，由于基于RGB的注视估计精度有限，HMAGIC依赖于专用的眼球跟踪器。相比之下，我们的方法通过引入一种自动校准机制来解决这些限制，该机制能够持续适应每个用户的注视方向，仅使用内置的RGB摄像头即可无缝集成基于注视和头部的免提指针控制。

2.3 校准技术
校准方法可以分为显式校准和隐式校准。显式校准需要用户的主动配合。常见的基于点的方法要求用户跟随屏幕上的目标来收集标记的注视数据。基于追踪的方法沿着圆形或矩形等路径跟踪移动目标[53]，收集数据更快更舒适。虽然更准确，但显式校准会中断使用，需要努力，并且必须在位置、光照或设备变化时重新校准。
另一方面，已经开发了隐式或自动校准技术，以便在不中断用户正常使用的情况下从背景中收集真实数据[54; 55]。在手持设备上，可以从手指滑动[47]释放位置收集真实数据作为真实值。此外，还有针对移动注视跟踪的运动感知连续校准方法，这些方法使用智能手机的惯性测量单元（IMU）传感器和持续学习来检测用户运动状态的变化并更新注视模型[56]。此外，Sugano等人[57]在桌面PC环境中探索了带有自动校准的注视估计，考虑了头部运动。一些研究人员还研究了哪种计算机交互事件与屏幕上的注视位置最对齐[55]，而另一项研究则使用了视觉显著性[58]。基于这些见解，我们的工作采用了基于点击的注意力线索，并将其扩展到基于头部的免提交互场景中，以实现隐式校准。

3 提出的系统
3.1 注视-头部交互设计概述
最近使用单目RGB摄像机的基于外观的注视估计方法取得了显著进展，但它们仍然无法达到直接光标控制所需的像素级精度。通常，用户需要进行校准以提高性能。然而，在实践中，即使经过校准，这些方法在头部姿态或光照条件变化时仍然不准确且不可靠，有时需要定期重新校准以确保足够的精度。
为了克服这些限制，我们实现了一个混合的注视-头部交互系统。该系统主要作为标准的头戴式鼠标运行，但引入了两种额外的基于注视的动作。我们使用[1]中描述的轻量级开源3M-HCI头戴式鼠标作为我们的头戴式鼠标。光标控制是根据选定的参考面部特征点的位移计算的。同时，一个注视估计模型在后台运行。它预测用户的3D注视向量并将其映射到显示器上的2D位置，通过眼睛图标可视化。这个注视位置不是用来直接移动光标，而是作为快速跳跃的目的地。遵循许多最近的研究[1, 3]，面部表情和语音命令被用作触发模式，无需额外硬件：
- 面部表情：利用MediaPipe Blendshape，系统持续监控52个不同的面部blendshape值（归一化为0-1范围内的连续值）。我们为每个blendshape提供了一个实时可视化条，允许用户观察他们的表情强度并手动设置激活阈值。
- 语音命令：利用Microsoft Speech API（SAPI5），系统监听用户定义的小词汇表中的关键词（例如，“click”、“jump”）。
这些触发器（例如，“微笑”或说“jump”）可以映射到头戴式鼠标动作或基于注视的动作：
- 头戴式鼠标动作：在当前光标位置进行单击、右键点击、中键点击或双击。
- 基于注视的动作：我们引入了两种基于注视的动作：(1) 传送：立即将光标从当前位置移动到预测的注视目标，以实现快速粗略定位。(2) 直接点击：立即在注视目标坐标处执行点击，绕过当前光标位置（适用于大型、容易击中的目标）。
图1展示了交互流程的一个示例。在前两个步骤中，注视模块提供了用户注视的2D映射，在屏幕上显示为眼睛图标。如果这个图标位于一个大的目标区域内，用户可以通过他们选择的触发器执行直接点击，从而无需任何手动光标移动。

图1：示例交互流程的概述。它首先从RGB相机估计3D注视和头部姿态（步骤1）。蓝色点标记了预期的目标，而眼睛图像显示了模型预测的注视方向映射到屏幕上的结果（步骤2）。用户通过触发面部表情来移动光标到预测的注视位置（步骤3）。之后，用户稍微调整头部位置，将光标移动到所需位置并点击，系统会收集这些数据用于自动校准（步骤4）。请注意，如果估计的注视方向已经在目标位置，用户可以在步骤2中立即点击。如果初始估计不够准确，用户可以快速将指针移动到估计的注视位置进行粗略定位，然后使用头部鼠标进行像素级精细调整。一旦指针到达预期目标，就使用另一个激活手势进行交互（例如左键点击）。当用户点击时，系统会收集用户的交互数据以进行自动校准，从而随着时间的推移不断优化注视方向与光标的映射关系，而无需重新校准，从而提高舒适度和准确性。为了确保自然和响应迅速的交互，估计的注视位置和鼠标光标都使用1-Euro滤波器[59]进行平滑处理，以减少抖动同时保持响应性。

3.2 注视方向估计
3.2.1 估计模型
LookAHead使用基于外观的注视方向估计方法，允许应用程序以即插即用的方式运行，无需显式校准，并且可以与标准设备上的任何内置摄像头无缝配合使用。我们在L2CS-Net[60]的基础上进行了扩展，通过将额外的几何特征集成到全连接层中。L2CS-Net将注视方向估计视为一个联合分类-回归任务，而不是直接回归。通过softmax预测概率分布并计算每个注视方向的期望值，该模型比标准的全连接层能够获得更稳定且无抖动的预测结果。L2CS-Net还将偏航和俯仰预测分离为两个独立的模块。这种设计与我们的几何描述符（Px, EAR）相匹配，其中Px与偏航相关，而EAR与俯仰相关。如果使用单一模块，会将不相关的线索混合在一起，从而降低准确性。整体架构如图2所示。
图2：修改后的L2CS-Net，包含两个独立的全连接层和辅助特征。
然后，该模型在MPIIFaceGaze数据集上进行训练，因为该数据集捕捉了用户在真实计算机交互中的自然注视行为。然而，由于MPIIFaceGaze数据集中的15个笔记本电脑屏幕中有14个是13.3英寸的，因此数据分布不能完全代表现代笔记本电脑的情况。因此，我们还结合了Gaze_Nv_Rendering[61]中的合成数据，以增强对不同屏幕尺寸的泛化能力。

3.2.2 地标规范化和特征提取
面部地标使用MediaPipe FaceMesh[62]提取，它提供了478个3D坐标，包括10个虹膜地标。由于这些地标在面部裁剪和头部姿态估计过程中已经必不可少，我们还将它们作为辅助特征使用，以提高模型的准确性，而不会增加额外的计算成本。在我们的实现中，地标坐标遵循MediaPipe的约定，其中z坐标表示相对于通过网格质心的参考平面的相对深度。为了在不同分辨率的图像中获得规范的3D坐标，我们首先根据图像大小重新缩放地标：x和z坐标乘以图像宽度，y坐标乘以图像高度。
设pi∈ R3为MediaPipe FaceMesh提取的第i个3D地标。我们旋转这些地标以模拟面部的正面视图，这样任何残差偏移都直接表示眼睛偏离正前方的程度（见图2中的标准化面部地标）。每个点都使用MediaPipe的标准化空间R∈SO(3)中的估计头部旋转矩阵转换为以头部为中心的规范坐标系：Pi=RTpi。从这些规范地标中，我们推导出两个描述符：
- 眼睛偏差特征（Px）：量化眼睛相对于正面眼睛位置的水平偏移，提供关于注视方向的明确线索。
- 眼睛纵横比（EAR）：虽然EAR广泛用于眨眼检测，但它也隐含地编码了由垂直眼球运动引起的 eyelid（眼睑）几何变化，例如向上或向下看。
为了计算EAR，我们遵循标准定义[63]。我们分别计算左右眼的EAR：
EARright=||P159?P145|| ||P133?P33||，
EARleft=||P386?P374|| ||P362?P263||
其中P159、P145是上下眼睑的地标，P133、P33是右眼的左右角；P386、P374是左眼的上下眼睑地标，P263、P362是左眼的左右角。最后，我们使用它们的平均值来表示眼睛的开度：EAR=0.5×(EARleft+EARright)。
为了计算Px，我们将虹膜中心与相应的眼睛中心进行比较。对于右眼，眼睛中心为：Cr=0.5×(P33+P133)，其中P33和P133分别对应右眼的左右角。
之后，我们计算右眼的标准化位移：Px, right=Cr.x?P468.x||P133?P33||，Px, left=Cl.x?P473.x||P362?P263||，其中P468和P473分别对应右眼和左眼的虹膜中心。眼睛偏差为：Px=0.5×(Px, left+Px, right)。
最后，我们将这些几何特征直接连接到全连接层中，如图2所示。

3.2.3 重新设计注视方向估计的规范化和姿态估计
在MPIIFaceGaze[34]的数据规范化和头部姿态估计流程中，使用了六个面部地标，包括四个眼角和两个嘴角。然而，在我们的实验中，我们观察到这种配置在用户进行微笑等面部表情时经常导致头部姿态估计不准确。这种不准确主要是由于嘴角容易受到面部表情的影响，从而导致姿态估计不稳定。为了解决这个问题，我们采用了一个7点地标集（图3中的标记点），包括四个眼角、鼻尖和两个耳中心，这提供了更稳定且不受表情影响的头部姿态估计。应用这一修改后，注视方向估计不再受到面部表情引起的姿态错误的影响。我们还采用了[64]中的注视方向规范化策略，以获得更稳定的注视方向估计。

3.2.4 注视方向映射流程
我们遵循[64]提出的注视方向映射流程（图4）。基本上，系统首先从用户面部图像中检测关键面部地标，然后使用这些地标进行头部姿态估计，并裁剪出一个只有两个自由度的标准化面部图像。这个标准化的面部图像被传递到注视方向估计模型中，以预测一个标准化的3D注视向量。同时，SolvePnP通过将检测到的2D面部地标与规范化的3D面部模型匹配来估计头部姿态和位置。通过将预测的注视向量与估计的头部姿态结合起来，系统将注视方向映射到屏幕上的2D位置。这个投影的2D位置随后被用作基于注视方向的操作的目标。

3.3 自动校准
许多研究人员使用鼠标点击作为真实数据来逐步更新注视方向模型[55, 57]。根据[55]，我们排除了拖动事件和由注视方向触发的快速点击（这些通常针对大对象并且空间精度不高），仅使用标准的单次点击作为校准真实数据。我们还丢弃了与预测注视方向偏差过大的点击，因为这些点击很可能是用户的意外操作。
每当有新的有效校准样本可用时，我们使用以下隐式校准策略之一来更新用户特定的注视方向校正：（1）多项式拟合方法[29]，学习将2D估计的注视方向映射到真实注视方向；（2）逆距离加权[47]，根据空间接近度调整预测；（3）在线校准方法，使用小的重放缓冲区逐步更新模型参数，以防止遗忘[56]。对于模型更新方法，我们维护一个3x3网格缓冲区，仅存储每个屏幕区域最新的样本。对于每次更新，我们构建一个包含当前实时样本和来自空间对立区域的存储样本的小批量（例如，左上角与右下角）。使用不同的学习率（对于主干网络的最终特征层使用较低的学习率，对于全连接层使用较高的学习率）来保留预训练的特征并防止对稀疏校准数据的过拟合，我们优化了混合损失：L=∑wi?(Lc?s(y^,y)+Lreg(y^,y))。这里，Lc?s是注视方向的Cross-Entropy损失，Lreg是L2CS-Net中连续角度的MSE损失。权重因子wi对于实时样本设置为1.0，对于重放样本设置为0.2，优先适应当前上下文，同时保持足够的正则化。我们采用不同的学习率，其中ηbackbone=5×10?6，ηhead=5×10?5。这些策略的性能在第4.4节“实验和结果”中进行了展示。

4.1 模型训练和结果
我们在三个广泛使用的外观基注视方向估计数据集上评估了我们的模型。MPIIFaceGaze包含从15名受试者在自然使用笔记本电脑过程中收集的45,000张面部图像。Gaze360包含197,000张图像，这些图像是在室内和室外捕获的。ColumbiaGaze包括56名参与者在实验室控制环境下的5880张高分辨率图像。我们遵循[60]对MPIIFaceGaze和Gaze360进行图像规范化和评估，并遵循[42, 65]对ColumbiaGaze进行5折交叉受试者验证。从原始图像计算几何特征（EAR, Px）以模拟真实地标检测。我们的应用程序使用七个地标进行规范化，并包括额外的合成数据，但对于模型比较，我们遵循标准的六个地标设置（4个眼角，2个嘴角），并使用原始数据集。
对于某些图片，MediaPipe无法检测到面部，导致EAR和Px的值为缺失。在这种情况下，训练集中会移除无法检测到面部的样本；而对于测试集，缺失值则使用从训练集中计算出的EAR和Px的平均值进行插补，以避免数据泄露。在MPIIFacegaze数据集中，45,000张图片中有126张（0.28%）未能检测到面部。在Gaze360正面子集（40°）中，所有面部都被成功检测到，包括25,494张训练图像和4,248张测试图像。在Gaze360正面子集（180°）中，83,749张训练图像中有888张（1.06%）和15,897张测试图像中有101张（0.64%）未能检测到面部。对于ColumbiaGaze数据集，所有5880张面部都被成功检测到。
我们使用ImageNet预训练的EfficientNetV2-S作为主干网络。遵循[60]，我们的网络在PyTorch框架中使用Adam优化器进行训练，学习率为0.00001。我们训练了40个周期，批量大小为16，测试结果来自第40个周期的模型。注视方向角度误差被用作评估指标。假设真实注视方向为g∈R3，预测的注视方向为g^∈R3，注视方向角度误差可以计算为：Langular=g?g^ ||g||||g^||。我们在MPIIFaceGaze数据集上采用标准的留一受试者交叉验证协议。对于ColumbiaGaze数据集，我们遵循[42, 65]进行五折交叉受试者验证。表1比较了平均角度误差，显示我们的简单CNN基模型在两个数据集上都达到了最先进的性能。与使用复杂注意力机制、循环模块或变换器的先前方法不同，我们的方法结合了几何特征和CNN主干网络，实现了高精度且模型简单。

表1：方法输入网络架构
MPIIFaceGaze ColumbiaGaze
FLAME [45] 眼睛和地标热图 2 CNN和多模态传输模块不适用 4.64°
3DGazeNet [27] 面部图像 + 合成图像 CNN。预测密集的3D眼网格 4° N/AS
2LanGaze [42] 面部 + 眼睛图像 CNN。使用眼睛地标作为辅助任务 3.99° 2.76°
L2CS-Net [60] 面部图像 CNN 3.92° N/
Multitask-Gaze [41] 面部图像 CNN 3.9° N/
AFGI-Net [67] 面部图像 CNN和Swin Transformer 3.74° N/
AFE-Net [68] 面部 + 眼睛图像 2个CNN主干网络，带有自注意力和RNN 3.63° N/
IGTG-Gaze [65] 面部图像 CNN和眼睛几何模型 3.6° 2.98°
我们的（带几何特征的L2CS-Net）面部图像 + 几何特征 CNN 3.76° 2.51°
我们的模型与MPIIFaceGaze和ColumbiaGaze上最先进方法（SOTA）的平均角度误差比较。粗体表示最佳结果，下划线表示第二佳结果。
对于Gaze360数据集，我们遵循[35]中的评估协议，将Gaze360数据集分为训练-验证-测试集，并在三个评估范围内报告结果：完整的360°、前180°和正面40°视图。由于我们的模型依赖于面部地标，我们仅在正面和正面子集上报告结果，以确保与在此范围内训练和评估的相关方法进行公平比较。
表2显示了平均角度误差的比较。尽管我们的方法很简单，但它显著降低了误差，与L2CS-Net相比。我们的模型在正面子集上达到了最先进的性能，并且在180°子集上略微优于L2CS-Net。尽管在前180°子集上的结果尚未达到最优，但这是可以预料的，因为在较大的头部角度下，准确的3D面部特征点检测仍然具有挑战性。表2：方法前180° 正面40° 注视 360 [35] 11.4° 11.1° DAM [69] 9.6° 9.2° 3DGazeNet [27] 9.6° N/AL2CS-Net [60] 10.41° 9.02° CrossGaze（未在VggFace2上进行预训练）[70] 10.65° 7.84° 我们的方法（带有几何特征的L2CS-Net）10.35° 7.25° 我们提出的模型与SOTA方法在Gaze360数据集上的平均角度误差比较。粗体表示最佳结果，下划线表示第二佳结果。从本节的结果来看，几何特征对于注视估计是有效的，特别是当用户的面部朝向前方时。这使它们特别适合计算机交互，包括我们的系统。

4.2 校准策略的比较
我们实证实施了第3节中提到的所有校准策略，并发现它们大多数都提高了注视估计的准确性。然而，由于性能不佳，[47]提出的两种逆距离加权方法被排除在外。虽然这些方法在校准点附近表现良好，但当注视远离这些点时，会产生不稳定且不可接受的较大误差，这可能是由于它们是为小型智能手机屏幕设计的。因此，这种方法不适用于桌面环境，因此没有包括在定量比较中。为了比较剩余的方法，我们在MPIIFaceGaze数据集上进行了留一法评估，该数据集包含15名参与者，每人有3000个样本。具体来说，注视估计模型在14名参与者上进行了训练，并在剩下的1名参与者上进行了测试。对于每个测试参与者，我们随机选择了N个样本，其中N∈{9, 16, 50, 100, 200, 400, 600, 800}，以校准模型。然后在校准后的模型上评估剩余的测试参与者样本。报告的注视误差对应于这些剩余样本的平均角度误差。这种设置提供了对每种方法适应未见用户的程度的公平评估，且校准工作量最小。为了确保结果的稳定性，每种校准技术和每个特定校准样本大小的评估都重复了5次。报告的误差是这5次运行的平均值。结果可以在图5中找到。

图5：
（左）所有15名参与者在50个校准样本下的误差。（右）平均误差作为校准样本大小的函数，比较了三种校准方法与基线方法。
进行了一项单因素重复测量方差分析（one-way repeated-measures ANOVA），以比较四种校准方法（无校准、多项式拟合（2度和3度）和在线更新模型）在50个校准样本下对平均注视误差的影响。校准的效果显著，F(1.10, 15.47) = 13.47, p = .0017, ηp2= 0.32。使用Holm校正进行了事后成对比较，以确定哪些条件彼此不同。分析显示，所有四种条件都显著不同（所有p值≤0.01）。
如图所示，平均注视误差的降低顺序如下：无校准 > 多项式拟合（3度）> 多项式拟合（2度）> 在线更新模型。在线更新模型提供了最低的注视误差，并且在统计上优于所有其他方法。多项式拟合有两个关键限制：
- 它们需要最小数量的样本来稳定并避免“冷启动”（如图5右侧所示）。
- 它们很快就会饱和，性能趋于平稳。这可能是由于它们的表示能力有限，无法适应复杂的姿势或环境。相比之下，更新模型可以不断学习并适应，更好地利用来自隐式校准的丰富数据。

此外，我们观察到多项式拟合无法超出基础注视估计器的有限预测范围，导致在极端注视角度（例如，靠近屏幕边缘）时产生较大误差。相比之下，自适应在线模型使用新数据不断优化其参数，从而在整个屏幕上实现更准确的注视预测。

5. 试点用户研究
进行了一项试点用户研究，以评估所提出系统的可用性和可行性，并与传统头鼠基线进行了比较。我们没有包括仅使用注视的鼠标（特别是基于摄像头的注视跟踪），因为纯注视交互通常不适合需要精确光标控制的标准Fitts定律任务。

5.1 参与者
我们招募了11名大学生（9名男性，2名女性），年龄在18至21岁之间（平均年龄=20.33岁，标准差=1岁），没有残疾，以验证我们的系统。所有参与者都具有正常或矫正后的正常视力，并且熟悉桌面计算机。他们中没有一个人有眼动追踪的经验，其中三人有使用头鼠的经验。由于两名佩戴眼镜的参与者的注视追踪质量较差，因此排除了他们的数据，最终有九名参与者的数据可用于进一步分析。

5.2 设备和实现
实验设置在配备有Intel Core i5-12400F CPU、32 GB RAM、NVIDIA RTX 3060 GPU（12 GB VRAM）和24.5英寸全高清（1920×1080）显示器的桌面计算机上进行。使用StaFor HD 1080P USB相机进行头部和注视追踪。校准了相机以获取其内在参数，并进行了外部校准以确定相机与显示器的空间关系。我们将LookAHead与3M-HCI [1]进行了比较，后者是一种最近表现强劲的头部追踪系统，作为基线头追踪系统。

5.3 实验设计和程序
我们使用[71]开发的Fitts定律软件来实现标准的点击任务（图6）。为了减轻学习效应，界面呈现的顺序进行了平衡，5名参与者首先使用3M-HCI，4名参与者首先使用LookAHead。请注意，如果没有第3节中描述的基于注视的动作，LookAHead的功能与3M-HCI系统相同。因此，为了评估我们提出的交互技术的有效性，明确指示参与者遵循图1中描绘的从粗略到精细的交互策略。这种设置使我们能够将这种新颖的混合交互范式与传统的头鼠进行比较。

图6：点击任务。我们使用了四种目标配置，结合了两种距离（900像素和750像素）和两种大小（40像素和80像素）。每种组合有15个点。
程序从简报和同意书开始。对于每个界面，参与者首先进入一个熟悉和调整阶段。对于3M-HCI，这允许参与者适应交互并根据个人喜好调整任何参数（例如速度）。对于LookAHead，这个阶段有两个目的：它同时允许参与者适应和调整参数，同时也为隐式校准提供必要的“热身”数据。这一步确保了两个系统都在其稳定的、预期的性能水平上进行评估。参与者坐在距离24.5英寸显示器大约60-70厘米的位置，环境光线充足。网络摄像头位于屏幕的顶部中央，并进行了调整，以清晰捕捉参与者的面部，避免追踪错误。指示参与者保持自然姿势，并且只有在他们对设置感到舒适时才能开始试验。
然后我们测量了客观指标（吞吐量、任务完成时间、错误率和头部的运动范围）。完成所有任务后，我们要求参与者提供关于速度、准确性、舒适度和易用性的主观反馈，以及任何额外的评论或印象。

5.4 结果
总移动量以累积光标位移（以像素计）来衡量，计算为连续位置之间的欧几里得距离之和，排除了基于注视的跳跃。尽管像素值取决于屏幕分辨率，但所有实验都使用了相同的显示器以进行公平比较。从表3中我们可以观察到，与3M-HCI相比，LookAHead显著减少了头部移动（3M-HCI：80355.89±20248.74像素；LookAHead：26654.69±6452.16像素；t(8) = 8.755，p < 0.0001）。这表明用户为了执行相同的点击任务需要移动头部的距离要少得多。

表3：指标
3M-HCI（平均值±标准差） LookAHead（平均值±标准差） t统计量 p值
总移动量（像素） 80355.89±20248.74 26654.69±6452.16 8.755 < 0.0001
每次点击的时间（毫秒） 2773.01±544.28 2792.01±413.42 -0.197 0.848
错误率（%） 4.82±3.05 3.89±2.89 0.641 0.540
吞吐量（比特/秒） 1.47±0.4 1.51±0.4 -0.395 0.703
系统性能比较（配对样本t检验）。N = 9名参与者。结果显示平均值±标准差（SD）。
关于其他性能指标，每次点击的时间、错误率和吞吐量在系统之间没有显著差异（每次点击的时间：2773.01±544.28毫秒 vs. 2792.01±413.42毫秒，t(8) = -0.197，p = 0.848；错误率：4.82%±3.05 vs. 3.89%±2.89，t(8) = 0.641，p = 0.540；吞吐量：1.47±0.4 vs. 1.51±0.4比特/秒，t(8) = -0.395，p = 0.703）。尽管眼跳比头部移动快，但我们的系统需要两个步骤的交互。我们观察到，这个额外的交互步骤可能与在评估任务中相对于头鼠基线的性能提升不足有关。总之，结果显示LookAHead将头部移动减少了大约三倍，同时在每次点击的时间、错误率和吞吐量方面保持了可比的性能。
从表4中可以看出，大多数参与者主观上认为LookAHead更快，因为指针可以直接“传送到”目标。他们中的大多数人还认为LookAHead更准确。此外，参与者没有报告他们的点击方法（例如面部表情）与光标控制之间有任何干扰。这与我们在研究中的观察结果以及第3节中描述的系统设计一致，表明触发机制没有影响评估任务中的注视指向。关于舒适度，意见不一：一些人认为两步交互不太舒适，而另一些人则更喜欢它，因为纯头部控制在较远的距离上会导致疲劳。例如，P01指出，“使用3M-HCI进行较长的路径使我的脖子感到疲劳”，这验证了我们减少运动努力的设计目标。总体而言，两种系统都被认为同样容易使用，虽然一些参与者提到基于注视的控制需要一个短暂的适应期，但随着练习会变得更快，表明可能存在学习效应。

表4：关于感知速度、准确性、舒适度和易用性的调查结果。

6. 局限性和未来工作
我们的研究有几个局限性。首先，用户研究涉及的参与者样本量较小（N=9），限制了其在可访问性情境中的普遍性。因此，结果展示了可行性，而不是为有运动障碍的用户验证的结果。此外，评估集中在一个目标布局可预测的简化点击任务上，可能无法完全捕捉日常计算机交互的复杂性。其次，由于基于外观的注视估计的鲁棒性降低，系统目前排除了佩戴眼镜的用户。先前的工作[29]报告称，对于在MPIIFaceGaze上训练的基于外观的模型，眼镜可以使注视估计误差增加60%。这限制了其在实际辅助场景中的适用性，并突出了在多样化视觉条件下需要更鲁棒的注视追踪。最后，比较基线仅限于传统的头鼠系统。尽管这个基线是相关的，但与仅使用眼睛和其他混合交互技术的更广泛比较将有助于进一步将所提出的方法置于基于注视的交互设计空间中。
未来的工作将评估该系统在有运动障碍的用户中的表现，提高对眼镜的鲁棒性，并探索更多交互技术以获得更好的速度和准确性。此外，我们将探索更高效和自适应的注视建模和校准策略，以支持长期的实际使用，包括减少计算开销、提高数据效率，并在用户和环境变化时实现渐进式适应，同时保持稳定的交互性能。

7. 结论
我们描述了LookAHead的设计、实现和评估，这是一种免提计算机交互系统，它协同整合了眼睛注视用于快速光标放置和头部移动用于精确微调。通过利用内置的RGB摄像头，我们的系统旨在解决传统辅助技术的实际财务障碍，这些技术通常依赖于专门的外部硬件。我们的主要贡献在于一种新颖的混合交互范式，它协同结合了注视的速度和头部移动的精确性。这种“注视跳跃和头部微调”机制允许用户使用眼睛快速切换焦点，同时利用微妙的头部动作进行精确的光标控制。这种设计理念同时减轻了仅基于注视的系统固有的“Midas touch问题”和与连续头部追踪相关的身体疲劳。与传统的头鼠系统相比，我们的系统将头部移动减少了大约三倍，同时保持了可比的点击速度和准确性。这些结果表明，该系统作为一种低疲劳输入方法是可行的。此外，我们成功地将系统与显式校准的需求解耦。我们引入了一种自动校准策略，使系统能够实时持续适应用户的面部和环境，从而实现真正的“即插即用”体验。
尽管存在这些局限性，LookAHead仍然证明了混合注视和头部界面的概念验证。我们发现的挑战为这项技术的下一代发展提供了明确的路线图。我们希望未来的研究能够在此基础上进一步发展，解决这些不足之处，从而充分发挥可访问的多模态交互的潜力。

**隐私与伦理声明**
本研究提出了一个混合式注视-头部交互系统的基础原型，该系统纯粹用于辅助技术研究。我们认识到这只是一个早期阶段的设计，未来需要通过有运动障碍的个体进行大量验证。因此，该系统目前还不适合临床应用或实际部署，在任何实际应用之前，还需要进一步的工作来确保其安全性和有效性。

**致谢**
我们感谢使用ChatGPT进行文本编辑以及生成用户角色插图，这些插图随后由作者手动组装成图1。

**接收时间**：2025年11月
**修订时间**：2026年2月
**接受时间**：2026年3月

热点排行