Aligner、Nodder 和 Winker:打造完整的免手交互技术,实现精确且与用户界面无关的选择与拖拽操作
《Proceedings of the ACM on Human-Computer Interaction》:Aligner, Nodder, and Winker: Creating Complete, Hands-Free Interaction Techniques that Unify Precise, UI-Independent Selection and Dragging
【字体:
大
中
小
】
时间:2026年05月29日
来源:Proceedings of the ACM on Human-Computer Interaction
编辑推荐:
**摘要**
当用户的手忙于其他主要任务时,免提交互至关重要。一个关键挑战是在不进行显式模式切换的情况下,实现精确的、与用户界面无关的选择操作和连续的拖动操作。本文介绍了两种新颖的技术:Aligner(空间眼-头对齐)和Nodder(点头动作的分解),并将它们与现有的Wink
**摘要**
当用户的手忙于其他主要任务时,免提交互至关重要。一个关键挑战是在不进行显式模式切换的情况下,实现精确的、与用户界面无关的选择操作和连续的拖动操作。本文介绍了两种新颖的技术:Aligner(空间眼-头对齐)和Nodder(点头动作的分解),并将它们与现有的Winker技术(通过单眼闭合进行手势控制)进行了对比评估。通过控制Fitts定律的的用户研究以及拖动任务的实际应用,对这些技术进行了评估。结果表明,Aligner提供了更高的选择精度,但在拖动过程中会产生视觉-运动冲突;Nodder在处理大幅度目标时提高了运动效率,尽管需要更大的体力消耗;而Winker虽然性能最快,但容易发生意外激活。这些发现通过强调这一交互挑战的上下文依赖性,为未来免提系统的设计提供了参考。
**图1. 免提技术的核心挑战:**
(a) 在用户界面上下文不足的情况下,区分“选择”和“拖动”的操作——例如,一个应用程序图标可以被选中以启动,或者被拖动以重新定位。
(b) 支持与用户界面无关的自由形式任务,包括精确拖动(时间定位)和套索选择(圈选)。杂乱的控制界面进一步凸显了对精确性的需求。
**1. 引言**
当用户的手无法使用时,我们如何实现精确的选择和连续的拖动操作?这里的“拖动”指的是任何连续的控制动作,如重新定位面板、移动滑块或自由形式的绘图。系统必须解决这种模糊性——仅靠用户界面上下文是无法解决的:用户必须能够启动一个应用程序(选择)或重新定位同一个应用程序(拖动)。这种能力必须是精确的,并且与用户界面无关;用户必须能够进行离散的“点击”(如绘制一个点),或者执行连续的“套索”动作来圈选屏幕上的任意非用户界面区域。这种情况在日常场景中很常见(见图1)。例如,用户在平板电脑或AR眼镜上观看烹饪教程时,如果手部不方便,可能需要暂停视频、重新定位窗口、定位到特定帧,然后对屏幕上的某个食材进行套索选择以寻找替代品。
虽然针对单个组件的解决方案已经存在(例如,用于光标控制的双模指针[41]、用于选择的停留[19]、用于发出命令的头部手势[56]),但这些解决方案并未集成在一起,且通常依赖于离散的用户界面元素。将它们结合起来以同时支持选择和拖动操作通常需要显式的模式切换,这会增加认知负担和摩擦。因此,核心挑战在于设计仅使用眼睛和头部数据就能连贯地整合“点选”、“选择”和“拖动”操作的交互技术,其中交互本身就能区分这两种动作。
本文通过引入两种基于不同交互隐喻的新技术——Aligner和Nodder——来解决这一问题。Aligner是一种利用眼睛和头部的自然(或错误)对齐来实现命令复用的技术[40, 42];Nodder则探索了一种手势分解的隐喻,将一个点头动作分解为“向下-向上”表示选择,“向下-保持”表示拖动。这项技术得到了E+H指针的支持,这是一种优化的双模指针,它允许快速、粗略的基于注视的目标定位,随后通过精确的头部动作进行细化,扩展了之前的研究[7, 41]。
我们将提出的技术与Winker进行了比较——Winker是一种基于手势控制的隐喻,通过单眼闭合来“抓取”和“保持”对象以进行操作。这项技术已在先前的文献中有所描述[11],但从未经过实证研究。为了了解这些技术的权衡,我们进行了全面的评估,包括三个部分:(1)Fitts定律任务(幅度:10°、30°;宽度:1°、2.5°、5°)来测量选择性能;(2)拖动任务(幅度:10°、30°)来评估拖放性能;(3)使用视频播放器的应用研究来模拟真实的、间歇性的交互场景。
我们的研究结果揭示了这些技术之间的细微权衡:Aligner在选择操作上非常精确,但其拖动机制与用户自然的前瞻目标倾向存在冲突;Nodder在体力要求上更高,但其E+H指针在大幅度移动时表现优异;Winker虽然性能最快,但容易意外激活。这些发现通过强调这一交互挑战的上下文依赖性,为未来免提系统的设计提供了指导。
**2. 相关工作**
我们的工作引入了基于现有交互范式的免提技术,并对其进行了扩展。我们将我们的设计——Aligner、Winker、Nodder和E+H指针——置于眼-头协调的生理基础和现有技术的框架内。
**2.1 免提交互的现状**
免提设计的空间非常广泛。最常见的方法是停留手势[3, 19, 23, 29, 32],它适用于简单的选择[13, 20, 22, 29, 47, 53]、状态切换[13],以及标记连续动作的开始和结束(如滑动输入[22]或释放被拖动的对象[20])。然而,这种方法引入了“Midas Touch”问题[9],迫使用户采取不自然的观看姿势,并且提供的提示有限,难以区分重叠的操作(如选择和拖动)。
显式的手势提供了更直接的控制方式。头部手势提供了丰富的词汇,例如点头或摇头用于选择[1, 4, 5, 31, 35, 44, 52, 56]、转动用于滚动[4, 31, 32, 46, 47, 48]、Z轴移动用于缩放[48, 56, 59],或者保持摇头动作用于切换模式[38]。眼睑手势提供了另一种低能耗的控制方式。之前的研究使用单眼闭合作为“抓取”和拖动对象的“离合器”[11, 36],或者利用眼闭合的程度来调整深度[19]。然而,如果拖动是由单只睁开的眼睛控制的,用户可能会感到疲劳并且指向精度会下降[36]。
尽管这些技术都很强大,但它们大多依赖于预定义的用户界面元素[8, 12, 37, 54, 55]。最近的创新如EyeShadows[33]利用扫视确认来快速选择预定义的目标。我们将这些努力扩展到支持连续操作和与用户界面无关的交互,使得目标位置事先未知的情况也能得到处理,为完全独立于用户界面的技术提供了可能性,正如我们在本文中评估的三种技术一样。
**2.2 目标获取过程中的眼-头协调**
有效的免提设计依赖于自然的眼-头协调。当用户转移视线时,眼睛会先移动(快速扫视),然后是较慢的头部旋转。这种头部运动不是为了指向;它是为了重新调整眼睛的位置,保持舒适的姿势并为下一次视线转移做准备。当头部移动时,眼睛会进行补偿性反向旋转(前庭眼反射,或VOR),以保持视线锁定和视觉稳定[39]。关键的是,眼睛和头部的方向几乎总是不一致的;它们只有7.5%的时间是对齐的[40]。这种可预测的不一致性对设计有重要影响。扫视后的头部运动是一种预编程的运动动作,不受即时自愿控制的影响[6, 7, 41]。因此,使用头部输入的系统必须将这种自然的、由视线驱动的运动与有意的手势区分开来。这一生理原理为E+H指针和Aligner提供了基础。
**2.3 通过对齐进行选择和操作**
利用多个输入的对齐作为确认机制是一种强大的交互原语[24, 25, 50]。在扩展现实(XR)中,当应用于眼-头关系时,这种方法特别有效,因为它利用了它们之间的自然不一致性作为明确、有意动作的基础。
在此基础上,一些技术利用注视和头部的有意对齐作为明确的命令。Eye+Head在用户将头部指针移动到目标用户界面元素上的“汇聚区域”时,确认选择[40]。Radi-Eye将其应用于 radial 菜单,用户先注视一个楔形区域,然后通过头部交叉动作来确认或操作滑块[42]。Aligner将这种对齐隐喻进行了推广。虽然上述技术非常直观,但它们本质上依赖于用户对目标位置的预先知识。Aligner将交互与用户界面语义解耦,使得用户可以在屏幕上的任何位置进行选择和拖动操作,而不仅仅是在预定义的用户界面元素上。
**2.4 结合注视速度和头部精度的细化**
对于指向操作来说,精细化的能力至关重要,它允许用户从粗略、快速的移动过渡到精细的调整。注视可以快速定位目标,然后通过鼠标、触摸、自由手势或辅助目标放大/缩小镜头进行细化[2, 16, 34, 45, 49, 57]。在免提系统中,这通常是通过利用眼睛和头部的不同动态能力来实现的。一个主要的范式是结合快速、粗略的注视和缓慢、精确的头部运动来进行细化[7, 10, 15, 16, 41, 43, 58]。
这些系统的有效性取决于模式切换机制。例如BimodalGaze[41]这种启发式方法要求最小头部速度为15°/s,以区分有意操作和无意动作。虽然稳定,但这个高阈值使得细微的调整变得困难,因为用户必须“夸大”他们的头部运动才能触发它。该系统还依赖于150ms的扫视后冷却时间[39]和小于20°的轨迹差异。如果眼睛速度超过160°/s或眼睛-光标距离大于10°,系统会恢复到注视指向模式。
基于机器学习(ML)的GazeSwitch[7]可以更早地检测到有意的手势。它能够准确分类微小的头部运动,并比BimodalGaze提前120ms进入头部模式,从而减少了整体头部运动,提供了更流畅的用户体验。然而,它的可预测性较低,且容易发生“延迟触发错误”[14]。用户还观察到其准确性高度依赖于眼动追踪的质量。
我们的新技术E+H指针解决了这些权衡问题。与基于ML的GazeSwitch[7]不同,我们保留了BimodalGaze[41]的可预测的、启发式方法,但使用了贝叶斯优化的阈值。这提供了一种稳健、稳定的状态转换,对细微动作反应迅速,无需夸大动作或牺牲可预测性。Nodder为这种指针提供了手势命令机制。虽然常见的头部手势系统受到位置限制(需要中性起始位置)或分类延迟的影响,但Nodder的反应更快。它将熟悉的点头动作分解为启动阶段,在动作开始时立即冻结光标,提供即时反馈。快速的“向下-向上”动作表示“点击”,而“向下-保持”动作表示拖动。这将两个基本动作合并到一个手势中,使得可以从任何像素开始进行即时、与用户界面无关的拖动操作。
**3. 新颖的免提交互技术:Aligner和Nodder**
我们探索了仅依赖用户的眼睛和头部运动来支持基本操作(如选择和拖动)的技术,而无需了解用户界面或进行显式模式切换:Aligner通过分环设计扩展了第2.3节中的隐喻,无需预先知道目标位置即可明确意图;Nodder通过时间手势阶段实现了选择和拖动的新型复用;E+H指针则改进了BimodalGaze[41]的特征和阈值,实现了稳健且无力的指向操作。我们在下文中详细介绍了这两种技术。
**图2.**
当手部忙于其他任务时,需要一种辅助的免提模式。它应该能够区分用户的意图是选择还是拖动,并在用户界面和自由形式环境中(如套索选择和精确的滑块释放)实现精确的操作。这三种技术都是解决这一挑战的完整方案。
- **顶部:Aligner**——通过眼部和头部方向的对齐实现选择和拖动。
- **中间:Nodder**——通过点头实现选择和拖动。
- **底部:Winker**——通过单眼闭合结合头部运动实现选择和拖动。
**3.1 Aligner**
Aligner将用户的视线方向和头部方向之间的空间关系转化为命令。它使用一个始终可见的头部光标(一个十字形)和一个最初隐藏的注视环。当用户注视到一个感兴趣的区域,然后将头部光标移向该固定点时,一个与目标用户界面控制无关的3°半径的注视环会出现在注视位置(见图2,列(a))。为了防止视觉上的杂乱,该环仅当头部朝向眼睛移动时才会触发,而不会在相反方向移动时触发。为了区分选择和拖拽的意图,环的周长被分为两个颜色区域:绿色区域(120°)和蓝色区域(240°)。绿色区域会动态地指向接近的头部光标。穿过绿色边界表示选择意图(图2b),而穿过蓝色边界(需要弯曲路径)表示拖拽意图(图2c)。用户将视线固定在对目标上,然后简单地通过所需颜色编码的区域引导头部光标进入环内。实际的命令(无论是选择还是开始拖拽)在头部光标在环内稳定80毫秒后得到确认,随后会有300毫秒的停留时间。一个圆形进度条显示在头部光标周围,在此确认过程中提供视觉反馈。当处于拖拽状态时,环会扩展到6°的半径,并跟随用户的视线移动(图2d)。为了保持拖拽状态,用户必须主动保持头部光标在这个扩展的视线环内对齐。当这种眼-头对齐被打破时,即用户的视线偏离头部光标超过6°时,拖拽就会释放(图2e)。释放后,视线环会消失。根据目标UI控制的不同,选择和拖拽命令会转化为不同的动作。例如,选择可以在画布上放置一个点,而拖拽可以绘制一条连续的线。其他例子包括将滑块立即扭曲到指定位置,或者激活一个窗口,而不是在空间中移动它等。虽然命令的功能由UI控制决定,但控制本身并不定义用户是执行选择还是拖拽。
3.2 Nodder
Nodder采用了一个复杂的双模系统,我们称之为E+H Pointer,用于指向,以及一个单一的多阶段头部手势(点头),用于区分选择和拖放操作。E+H Pointer可以在快速、基于视线的控制和精确的、基于头部的控制之间动态切换,以实现粗略定位和精细调整,适用于选择和拖拽。切换是通过系统区分由视线支持的头部运动和自愿的头部运动来实现的。最初,用户尝试仅用视线来选择目标。如果由于眼动追踪不准确导致光标稍微偏离目标,用户可以做一个小的、自愿的头部运动来纠正其位置。E+H Pointer会自动检测到这种自愿的头部旋转,并激活微调模式(见图2,a列)。为了执行选择(类似于标准的鼠标点击),用户执行一个快速的、连续的点头动作。这个动作包括一个向下的快速阶段,紧接着是一个向上的阶段,使头部回到中立位置(图2b)。系统在检测到向上阶段时立即记录“选择”事件,但是命令执行的位置基于点头手势开始的位置。拖放操作对应于按住鼠标按钮的概念。要开始拖拽,用户执行点头的向下阶段,然后在手势的最低点暂停800毫秒(图2c)。这个“按住并保持”的动作表示抓取物体的意图,比喻为按住鼠标按钮。类似地,抓取点的位置也是基于点头手势开始的位置确定的。系统通过即时的视觉反馈来确认拖拽操作的开始,在“保持”期间进度条会填充,然后光标的颜色变为红色,表示拖拽被启用。选中的对象随后虚拟地附着在光标上,可以通过E+H Pointer进行快速基于视线的定位和精确的基于头部的调整。要释放对象,用户执行另一个点头动作(一个快速的上下动作)。这个最后的点头动作作为放置位置的确认,比喻为“确认放置”并完成拖放序列。
3.2.1 E+H Pointer:快速眼球指向和精确头部调整
图3. E+H Pointer算法概述。要触发头部模式,头部速度(Head Vel)必须在一定范围内,以过滤噪声并排除弹道性移动;VOR补偿分数(眼睛/头部角速度的余弦相似度)必须超过一个阈值,以确保眼-头相关性;并且必须经过足够的时间(T_cooldown)来区分有意和自然的视线移动。眼睛速度(Eye Vel)阈值用于识别将控制权交还给视线的扫视动作。E+H Pointer是一个双模系统,它结合了快速基于视线的控制以实现粗略定位,以及精确基于头部的调整以实现精细定位。我们通过增强功能和贝叶斯优化的阈值(图3)改进了BimodalGaze机制[41],以确保指向体验既稳健又毫不费力。
区分点头手势和功能调整是具有挑战性的,因为向下的调整可能会被误认为是点头。为了解决这种歧义,我们采用了一种针对个人的校准程序,该程序可以模拟个体的速度曲线。这使得系统能够准确地区分用户调整光标位置的意图和发出命令的意图。所有技术实现细节可以在附录中找到。完整的实现参数和Unity源代码可以通过Zenodo获取。
1.4 实证研究
为了实证评估我们的眼睛和头部输入技术的性能,我们进行了一项受控的被试内实验,评估它们在不同条件下的选择和拖拽效率和准确性,随后通过一个基于应用程序的任务来了解这些技术在模拟现实世界环境中的表现。使用HTC Vive Pro Eye记录了在Unity 2021.3.24f1构建的应用程序中的眼睛和头部追踪数据。
1.4.1 技术
我们比较了三种技术:Aligner、Nodder(第3节)和Winker。Winker提供了对Kim等人[11]提出的单眼闭合离合器概念的实证评估。当检测到单眼闭合并且用户随后重新睁开眼睛时,就执行选择操作(图2,底部行)。为了避免误激活,我们的实现使用了单眼闭合期间的头部速度阈值(15°/秒)来启动拖拽。此外,为了避免Ramirez Gomez等人[36]报告的跟踪单眼睁开时的指向退化和不稳定性,我们在闭合期间完全将光标控制权交给头部指向。因此,眼睛追踪仅用于通过头戴设备的开眼度指标来检测眼睛闭合。
图4. 研究程序和任务截图。在拖拽任务中,前三次尝试及其拖拽方向用红色箭头显示。在应用程序中,左上角的图片显示了两个重叠的应用程序窗口。参与者需要拖拽它们以分开并舒适地定位它们。然后他们播放视频,调整音量,并拖拽来寻找时间(右上角)。接着他们在视频中圈出并搜索碗的位置(底部)。
1.4.2 参与者
共有18名参与者(9名女性),平均年龄为27.6岁,标准差为6.06岁参与了这项研究。其中12人的视力未经矫正,6人通过眼镜或隐形眼镜进行了矫正。5人之前从未使用过VR或眼睛追踪设备。12人有偶尔使用VR和眼睛追踪的经验。1人是每周使用VR的人,偶尔有眼睛追踪的经验。
1.4.3 研究任务和测量
1.4.3.1 通过2D Fitts定律评估选择
对于选择任务,我们采用了经典的2D Fitts定律范式[28]。我们测试了两种幅度(10°和30°)和三种目标宽度(1°、2.5°和5°),以覆盖从像素级精度到标准UI元素大小的范围。如果选择了指定目标之外的任何区域、超时(10秒),或者启动了拖拽操作,则试验被视为错误。选择任务的主要测量指标包括:选择时间(ST):从目标呈现到成功选择的总试验时间;错误率(ER):选择在目标之外、超时或启动拖拽的试验百分比;吞吐量(TP):使用ISO 9241-9标准的Shannon公式[26, 27]计算(TP = IDe/ST),它结合了速度和准确性,使用有效难度指数:IDE = log?(Ae/We + 1),其中Ae和We分别代表有效幅度和宽度;头部运动(HM):试验期间头部旋转的累积角距离,用于量化物理努力。
1.4.3.2 通过修改后的Fitts序列评估拖放
我们的拖放任务受到了Fitts定律任务的启发,使用了修改后的序列。参与者拿起一个物体,将其放在下一个目标位置,然后在Fitts模式中的第三个后续位置重新拿起物体(图4)。我们测试了两种幅度(10°和30°)和固定的目标宽度2.5°。如果物体释放位置偏离目的地中心超过1°,或者拖拽开始于物体区域之外,或者发生了选择动作而不是拖拽,则试验被视为错误。提供了视觉反馈:当鼠标悬停在物体上时,物体变为红色;当物体在距离目的地1°范围内时,目标周围会出现一个红色环。拖放任务的主要指标包括:任务完成时间:总试验时间,分解为拖拽开始时间(从试验开始到拖拽开始)和拖拽持续时间(从拖拽开始到释放);释放偏移量:从拖拽释放位置到释放区域中心的距离;错误率和头部运动与选择任务中的测量方法相同;感知工作负荷使用原始NASA-TLX进行测量。
1.4.3.3 应用程序
在受控实验之后,参与者参与了一个探索性应用程序,以在更具代表性的、基于情境的场景中评估这些技术。研究遵循了一个为每种技术都相同的脚本化任务列表,大约需要5分钟完成。这包括一个视频播放器界面,用户在其中执行窗口定位(拖拽)、播放控制(选择)、音量调整(垂直拖拽)和套索选择(图4)。虽然第5节和第6节提供了速度和精度的严格定量基准,但这一阶段侧重于定性可用性和生态有效性,以避免重复的指标,因为主要目标是验证在多样化的真实交互需求下的功能覆盖和用户体验。在完成每种技术的任务后,参与者完成了单一易用性问卷(SEQ)。最后,收集了定性反馈。
4.2 程序
参与者舒适地坐下,并在了解研究内容后提供了知情同意。每种交互技术都单独介绍并练习。技术逐一进行评估,参与者首先进行了一轮练习以熟悉任务。在试验开始之前(以及每次取下头戴设备之后),都会进行一次5点的眼动追踪校准。每位参与者每种实验条件完成两次重复(即,选择的技术×幅度×目标大小,以及拖拽的技术×幅度)。每种条件包含10个目标,每位参与者共有360个选择数据和120个拖拽数据点。技术顺序在参与者之间进行了平衡,而幅度和目标大小条件在每个技术块内进行了随机化。参与者首先完成了Fitts定律选择任务,然后是拖拽任务。在拖拽任务结束后,他们完成了NASA-TLX工作负荷调查。接下来,参与者再次使用相同的平衡顺序参与了应用程序场景。之后,他们完成了SEQ,以更广泛地报告他们对技术的体验。
4.4 伦理和隐私
这项研究收集了视线和头部运动数据,已经得到了我们机构审查委员会的批准,所有参与者都提供了知情同意。Nodder和其他手势技术可能需要调整,以防止由于自然运动引起的误报,这可能会影响用户的隐私和接受度。完整的过程如图4所示。研究平均耗时90分钟。
5 结果
每个技术中移除了时间上的异常值(持续时间 > Q3 + 3 × IQR)。保留了空间上的异常值以捕获重要的错误信息(图7)。持续时间少于0.5秒的试验(意外的双击)被排除。每个序列的第一个Fitts和拖拽试验也被移除了。有两名参与者无法完成眨眼动作,他们的Winker数据无效。总体而言,3%的试验被移除了。除了错误率之外,分析仅包括成功的试验。每个因变量都使用广义线性混合模型(GLMMs)进行建模,作为技术、目标幅度和目标大小(仅用于选择)的函数,包括所有交互作用,并考虑了特定于参与者的随机截距和斜率,以解释固定和随机变异。这种随机斜率结构允许技术的效果在参与者之间表现出差异性。对于我们的大多数因变量,似然比测试确认,包含每个参与者技术随机斜率的模型比仅包含随机截距的简单模型具有显著更好的拟合度(所有p值<.05)。我们使用DHARMa包评估了模型假设。所有检查都表明残差表现良好,没有违反模型假设。所有报告的统计量都基于从拟合的GLMMs中得出的估计边际均值,代表了在考虑了参与者的随机效应后的总体水平预测。我们没有发现技术在NASA-TLX的六个维度中对感知工作量有显著影响(所有p值>.05)。
5.1 Fitts定律选择任务
图5. Fitts定律选择任务的实证指标。统计显著性用*表示p<.05,**表示p<.01,***表示p<.001。显示的p值基于每种条件下平均的估计边际均值对比。完整的尺寸特定对比在文本中报告。
(c) 尽管箱形图总结了参与者级别的数据,并显示了Winker和Nodder的分布重叠,但混合效应分析考虑了每个参与者的个体差异和受试者内部配对,揭示了技术之间的统计学上显著的差异。
选择时间:对齐器(中位数=1.98秒)始终比Winker(中位数=1.59秒)和Nodder(中位数=1.63秒)慢,特别是在高幅度时,其对齐器的速度比Winker慢20-40%(p<.0001)。Winker和Nodder的表现相当,除了在30°的目标上Winker明显更快(p<.05;5a)。
头部运动:出现了一个强烈的交叉效应(χ2(2) = 1602.65,p<.001):Nodder在低幅度时产生的头部运动最多(p<.0001),但在高幅度时最少(p<.02),此时它比Winker和对齐器都更高效。(见5b)。
有效宽度:对齐器(中位数=3.15°)和Winker(中位数=3.85°)始终比Nodder(中位数=7.12°)更精确(p<.001)。这种精确度差距在1°目标尺寸时最大,Nodder的有效宽度几乎是Winker和对齐器的两倍(p≤.002)。(见5c)。
错误率:虽然所有技术在处理小目标和中等目标时表现相当,但对齐器在处理最大(5°)目标时特别准确。在这个尺寸上,对齐器的错误率(例如,在低幅度时为0.8%)显著低于Winker(p<.02)和Nodder(p<.01)。(见5e)。
吞吐量:性能高度依赖于上下文。Nodder在低幅度时的吞吐量最低(p<.05),但在高幅度时变得具有竞争力。相反,对齐器在处理最小目标时在低幅度时实现了最高的吞吐量(p<.001)。Winker在各种条件下的表现最为稳定。(见5d)。
5.2 拖动任务
图6. 拖动任务的实证指标。统计显著性用*表示p<.05,**表示p<.01,***表示p<.001。
图7. (a)Fitts选择任务,(c)拖动任务中每种技术的错误来源,以及(b)拖动任务中错误发生的距离到掉落区的分布。
任务完成时间:出现了明显的性能排名(χ2(2) = 231.95,p<.001)。Winker最快(中位数=3.72秒),其次是Nodder(中位数=4.75秒),然后是对齐器(中位数=6.33秒)。在高幅度时,Nodder和Winker之间的差距显著缩小(从1.4秒减少到0.78秒)(p<.001)。(见6a)。
拖动启动时间:所有技术都有显著差异(p<.001)。Winker的启动时间最快(中位数=1.76秒),其次是Nodder(中位数=2.63秒),然后是对齐器(中位数=3.67秒)。(见6b)。
拖动持续时间:Winker始终表现较快。Nodder的性能随着距离的增加而提高:在低幅度时,它的速度显著慢于Winker(中位数=1.87秒,p=.001),但在高幅度时,其持续时间(中位数=1.91秒)在统计上与Winker相当(中位数=2.16秒)。对齐器始终是最慢的(p<.001)。(见6c)。
头部运动:我们发现了一个强烈的交叉效应(χ2(2) = 177.78,p<.001)。在低幅度时,Nodder产生的头部运动最多(中位数=43.41°),显著多于对齐器和Winker(p<.001)。在高幅度时,这一情况逆转,Nodder产生的头部运动最少(中位数=57.27°),变得比对齐器更高效(p<.001),并且与Winker相当。(见6d)。
释放偏移:Nodder始终是最不精确的技术(在低幅度时中位数=0.54°)。在低幅度时,Winker(中位数=0.31°)和对齐器(中位数=0.33°)同样且非常精确。在高幅度时,对齐器的精确度下降(中位数=0.38°),使其显著不如Winker精确(p<.05),Winker仍然是最精确的。(见6e)。
错误率:对齐器的错误率显著高于Nodder(中位数=0.17%)(p<.01)和Winker(中位数=0.18%)(p<.01)。Nodder和Winker的错误率没有显著差异。(见6f)。
6 应用
我们拟合了一个累积链接混合效应模型来分析SEQ分数,考虑了数据的序数性质。技术的固定效应显著(χ2(2) = 14.44,p<.001)。事后分析显示,Winker被认为比Nodder(p=.028)和对齐器(p<.001)更容易使用。这种主观偏好在总体排名中得到了体现,Winker是18名参与者中的首选。定性反馈显示了高度依赖于上下文的体验,重复Fitts任务与实际应用之间的感知差异很大,选择和拖动之间也有明显差异。
Winker:在重复任务中令人疲劳,但在实践中直观。Winker的用户体验在两种上下文中截然不同。在重复的Fitts任务中,参与者抱怨身体疲劳(“眼睛紧张”P1,P4)和由于头戴设备移动导致的不准确性(“眨眼时会打乱”,P10)。然而,在应用程序中处理较大目标时,Winker成为了首选技术。P7称赞其直观性,称其为“像鼠标按钮一样简单直观……我可以更好地控制释放时机”。
对齐器:选择时准确,拖动时不自然。对齐器的接受度存在明显分歧。虽然在选择时受到好评(“准确”和“非常可控”,P12),但其拖动机制受到了批评。要求用户保持眼睛和头部的对齐并避免看向目标位置是“违反直觉的”(P9),迫使他们“对抗自然倾向”(P3),使该技术在应用中感觉“精神上很累人”(P10)。
Nodder:可控的指针,复杂的动作。Nodder的体验是多方面的,将“指针”与“动作”分开。一个亮点是E+H指针(P7:“使用Nodder快得多,我可以在屏幕上快速移动……头部调整很直观”)。然而,这经常被“复杂的交互动作”所掩盖。虽然“向下点头”用于选择很容易,但“向下并按住”用于拖动则经常导致身体疲劳(P9:“需要大量的颈部肌肉”,并且进度条会移出视线范围(P14)。
7 讨论
我们对三种免提技术的评估揭示了任务上下文、动作类型和个人用户特征之间的复杂相互作用。虽然我们使用了VR头戴设备进行原型设计,但眼-头协调和手势运动学的原理根植于人类生理学,而不是显示技术。随着跟踪技术的成熟以及头戴设备移动或眼睛睁开检测等功能的进一步完善,这些技术在不同硬件上的实际应用效果将会发展。
7.1 精确度与速度的权衡
对齐器的高选择精度源于其确认机制,该机制通过300毫秒的停留时间来过滤运动噪声,从而保持头部稳定。相比之下,需要主动动作的技术更容易出错:眨眼可能导致头戴设备移动,而Nodder的动作引入了运动不确定性。Nodder的精度还受到其回溯算法的限制,该算法在点头前的最后一次稳定注视点记录选择。在拖动过程中,对齐器要求的眼睛和头部对齐与自然的视觉运动策略存在根本性的不匹配。用户本能地会向前看目标位置[17, 18],这会破坏对齐并触发意外的释放。他们移动得更小心——一位参与者将其描述为“有助于集中注意力”的体验(P17)。我们认识到这是一个依赖于上下文的权衡:对齐器在选择时提供更高的精度,而Winker和Nodder通过将视线与控制分离,使眼睛能够更自由地进行运动规划和更快的拖动,从而更好地适应自然的前瞻行为。
7.2 不匹配的隐喻:错误来源和协调机制
适用于选择的有效隐喻可能不适用于拖动。对于所有技术,选择错误主要由在1°目标上的偏离目标引起,而区分意图(意外拖动)是一个较小的挑战(1-4%的错误)。多阶段拖动任务暴露了每种技术特有的、源于设计的错误来源:对于Winker来说,意外激活是拖动错误的主要原因(13%)。这些错误几乎均匀发生,表明眨眼检测对于需要持续专注的任务来说过于敏感。对于对齐器来说,前瞻冲突导致了16%的失败(偏离目标掉落),尤其是在距离掉落区5-10°的地方。这种过早的释放解释了为什么定性反馈称该机制“违反直觉”。
最后,Nodder的意图模糊性(11%)表明“向下并按住”的动作虽然允许系统立即响应,并将两个命令合并到一个动作中,但由于整个序列的认知负担,导致了一些用户感到身体疲劳。
Nodder的性能得益于其优化的E+H指针阈值。与[7]等系统不同,用户没有报告不稳定性问题,同时称赞其直观性和易用性。这种效率提高了Nodder的吞吐量(5d),并在大幅度时减少了头部运动(5b,6d)。在较小幅度时,头部运动更大,因为点头动作本身就比注视动作更“昂贵”。
Nodder的性能最具特色。我们的GLMMs确认,每个参与者的随机斜率显著提高了模型的拟合度。一些用户的表现始终如一,而其他用户(尤其是在处理较大目标时)几乎没有改善,这表明在速度和精度之间存在个人权衡。我们推测精细化和点头动作之间存在负面相互作用:一些担心光标可能会移动的参与者在点头时犹豫不决。那些点头更果断(更快、动作更短)的人不太可能注意到回溯开始前的小延迟,而动作较慢的人则感觉到延迟和犹豫。
7.3 基准测试和功能区分
最近仅用于选择的技术[30, 33]报告的吞吐量(3.5–4.0 bps)高于我们的通用技术(1.3–1.8 bps)。吞吐量的差异反映了不同的交互范围:仅用于选择的系统针对已知的UI目标进行了优化,而我们的隐喻允许在任何位置进行统一的交互循环(点选、选择和/或拖动、保持和释放),而无需事先知道目标或明确切换模式。值得注意的是,我们的拖动完成时间(Winker:3.72秒,Nodder:4.75秒)与已建立的基准Gaze+Hold(4.2秒)[36]相当,表明它们是多模态任务的稳健解决方案。
7.4 局限性和未来方向
我们的研究使用了孤立的目标;对齐器的精度表明它在杂乱环境中具有优势,但需要进一步验证以确认其在密集UI环境中的稳定性。同样,对于缺乏显著特征的大目标,还需要进一步研究以了解是否会发生视线漂移。虽然Nodder的算法利用了生理协调来提高稳定性,但其对偶然运动的抵抗力必须在实际应用中正式测试。
最后,关于长期人体工程学仍是一个未解决的问题;具体来说,对齐器和Nodder的学习曲线是否会随着练习而平缓,或者Winker的简单性是否会因长期肌肉疲劳而受到影响。这激发了未来界面的愿景,即通过检测手部何时被占用来自动切换到次要模式[21],并根据交互上下文智能地利用各自的优点。
8 结论
本文解决了集成免提、精确且与UI无关的选择和拖动这一核心挑战——这是单独针对指向或选择的组件级解决方案无法解决的问题。我们实现了三种技术并进行了实证比较,以解决这一集成问题:一种空间多路复用器(对齐器)、一种手势分解器(Nodder)和一种手势离合器(Winker)。我们的发现表明,这是一个复杂的设计挑战,其中涉及精度、人体工程学和感觉运动一致性之间的深刻、依赖于上下文的权衡。这项工作强调,未来可用免提系统的关键不在于优化孤立组件,而在于解决这些集成交互技术固有的基本权衡。
致谢
本工作得到了欧洲研究委员会(ERC)在欧盟Horizon 2020研究和创新计划下的支持(资助编号101021229 GEMINI:交互中的注视和眼球运动)。该项目受益于兰卡斯特大学的高端计算设施。我们衷心感谢兰卡斯特大学和奥胡斯大学的GEMINI团队,他们通过协作头脑风暴会议帮助形成了这些技术的概念化。