《Don't Wanna Miss a Thing》：一种基于注视识别的隐性干预方法，用于帮助用户在观看外语视频时克服分心现象

《Proceedings of the ACM on Human-Computer Interaction》：Don't Wanna Miss a Thing: Gaze-Aware Implicit Interventions for Distraction Recovery in Foreign-Language Videos

【字体：大中小】 时间：2026年05月29日 来源：Proceedings of the ACM on Human-Computer Interaction

编辑推荐：

　　摘要：观看带有字幕的外语视频需要持续的视觉注意力，这可能会因为分心（如查看通知）而导致观众错过部分内容。在这项研究中，我们开发了一种能够感知用户注视方向的视频播放器，该播放器可以调整播放内容以帮助观众重新集中注意力。我们评估了三种基于注视方向的交互技术：自适应暂停、堆叠字幕和音频

　　摘要：观看带有字幕的外语视频需要持续的视觉注意力，这可能会因为分心（如查看通知）而导致观众错过部分内容。在这项研究中，我们开发了一种能够感知用户注视方向的视频播放器，该播放器可以调整播放内容以帮助观众重新集中注意力。我们评估了三种基于注视方向的交互技术：自适应暂停、堆叠字幕和音频语言切换（配音）。在涉及24名参与者的对比研究中，我们将这些技术与标准字幕视频播放器进行了对比。结果表明，自适应暂停技术提高了任务完成效率并减少了分心现象；堆叠字幕有助于观众重新阅读视频内容，但有时会减慢快速阅读者的进度；而配音技术的效果有限，会在观看过程中增加认知负担。最终，所有基于注视方向的交互技术都优于标准视频播放器。这项工作强调了能够无缝支持观众在日常观看过程中重新集中注意力的系统。

图1：非母语视频观看过程中基于注视方向的交互技术概览。(a) 注视检测功能可以识别观众视线离开屏幕的时刻。随后会采取三种干预措施来重新显示错过的内容：(b) 暂停播放以防止内容丢失；(c) 堆叠字幕以保留错过的对话内容；(d) 音频配音提供补充解说。

1 引言：视频已成为学习、娱乐和交流中最流行的媒介形式之一。对于许多观众来说，尤其是在观看不熟悉语言的内容时，理解视频内容在很大程度上依赖于字幕（字幕提供了对话内容的文字翻译）。然而，跟随字幕观看视频需要持续的注意力和大量的认知努力[Alghamdi等人2022；Borghini和Hazan 2018；Peng和Wang 2016]。然而，视频观看经常会被干扰打断——来自通知、多任务处理或走神等因素会导致理解上的断层[Bunce等人2010；Lee等人2021；Lindquist和McLean 2011；Xiao和Wang 2016；2017]。当分心发生时，字幕会继续播放，导致不熟悉该语言的观众错过关键信息。先前的眼动追踪研究表明，不熟悉字幕的观众在观看视频时非常依赖字幕来辅助理解[Elisa Perego和Mosconi 2010]。当注意力分散时，这种依赖性使得观众更难重新获取信息。与文本不同，文本允许观众选择性重读，而视频则迫使观众依赖手动策略（如快速浏览时间轴或重新观看片段）来恢复理解[Pavel等人2014]。这些策略不够精确且耗时，对于正在观看外语视频的观众来说，准确识别错过的内容或重新建立叙事背景尤其具有挑战性。基于注视方向的界面提供了一个有前景的解决方案，能够无缝支持观众在日常观看过程中重新集中注意力。

2 相关工作：关于提升视频观看体验的研究涵盖了注意力预测、字幕设计和基于注视方向的交互等方面。以往的研究探讨了观众如何处理字幕、如何检测和减少注意力分散，以及如何利用注视方向来调整界面。我们回顾了这些领域，以找出为不熟悉外语的观众开发基于注视方向交互技术的必要性。

2.1 基于注意力的交互技术：观看外语视频需要持续关注字幕[Mu?oz 2017]，这使得不熟悉该语言的观众在分心时更容易错过信息。以往的研究提出了通过监测非语言线索来推断注意力水平并动态调整播放内容的交互技术[Arakawa和Yakura 2021；Bidwell和Fuchs 2011；D’Mello等人2012；Sharma等人2016；Thomas和Jayagopi 2017；Veliyath等人2019；Zaletelj和Ko?ir 2017]。在教育环境中，这类注意力感知系统已被证明可以提高参与度和学习效果[Baker等人2010；D’Mello等人2012]。例如，Mindless Attractor[Arakawa和Yakura 2021]通过分析头部姿态来估计观众的注意力，并通过微妙地调整音频来引导注意力，而不会造成明显干扰。其他系统会在观众做笔记时自动暂停讲座视频[Nguyen和Liu 2016]。然而，大多数注意力感知系统都是为教育环境设计的，关于这些技术如何应用于日常视频观看的情况知之甚少。尽管已知音频和字幕之间的互动会影响理解力和观众舒适度[Abu-Rayyash等人2024；Liao等人2022]，但针对外语视频的注意力感知干预研究仍然很少。此外，注意力感知技术在非教学场景（如娱乐或新闻视频）中的用户体验也尚未得到充分探索。了解这些背景信息有助于开发出既能帮助不熟悉外语的观众，又能保持自然观看体验的注意力感知系统。

2.2 字幕处理：字幕是辅助理解不熟悉语言内容的最常见工具之一。它们提供了对话内容的文字表示，有助于提高理解力并减轻认知负担[Baranowska 2020；Chan等人2022；Kruger等人2013]。对于不熟悉该语言的观众来说，字幕在词汇识别、词汇学习以及内容回忆方面起着至关重要的作用[Markham等人2001；Mitterer和McQueen 2009；Perego等人2010]。眼动追踪研究提供了关于字幕处理的详细见解：注视点的数量和持续时间可以反映观众的注意力和处理难度[David-John等人2021；Pickering等人2004]。在带有字幕的视频中，注视点的数量和持续时间可以揭示观众的阅读努力程度、语言熟练程度和理解能力。初学者比高级学习者更少跳过字幕[Mu?oz 2017]。与普通视频内容的注视点不同（后者会因个人策略和视觉复杂度而变化[Elisa Perego和Mosconi 2010；Zheng等人2019]），字幕的阅读行为非常一致：观众一旦看到字幕就会开始阅读，即使没有事先训练也是如此[Elisa Perego和Mosconi 2010；Kruger和Steyn 2013；Negi和Mitra 2020]。当背景音乐是外语时，这种倾向更为明显，因为字幕通常包含重要信息[d’Ydewalle和De Bruycker 2007；Elisa Perego和Mosconi 2010]。然而，字幕假设观众能够持续保持注意力。当分心发生时，字幕会继续同步播放，导致不熟悉该语言的观众错过信息，这些信息可能难以重新获取。为了解决这个问题，需要开发能够实时检测和响应注意力分散的动态字幕和音频呈现方式，以帮助观众恢复理解并保持参与度。

2.3 基于注视方向的视频界面：基于注视方向的界面可以根据用户的注视方向动态调整内容展示，从而提高视频播放的可访问性和互动性[Matulewski等人2018；Nguyen和Liu 2016；Ward等人2016]。例如，以往的研究探索了如何通过注视方向来调整字幕的位置，以避免遮挡重要视觉元素[Kurzhals等人2020]。在沉浸式视频系统中，当用户注视字幕时播放会暂停，当注意力转移时播放会恢复[Duchowski等人2025]。设计基于注视方向的视频界面需要在理解支持和观看连续性之间找到平衡。例如，可以通过注视触发暂停[Duchowski等人2025；Nguyen和Liu 2016]、重放错过的片段或切换到用户熟悉的语言音频[Liao等人2022]来辅助理解，但这些方法可能会干扰观看体验。有效的设计需要兼顾检测准确性[Bidwell和Fuchs 2011；Veliyath等人2019]、多模态同步[Abu-Rayyash等人2024]以及不同场景下的用户接受度。总体而言，基于注视方向的界面通过动态调整字幕和音频展示了巨大的潜力，有助于不熟悉外语的观众。

3 基于注视方向的视频播放器：本研究探索了三种隐式的交互技术：基于注意力的视频播放、基于注意力的配音和字幕堆叠。前两种技术根据用户的视线是否离开屏幕来评估其注意力，而字幕堆叠则需要更精确的眼动追踪，假设用户已经停止阅读字幕。这些技术旨在减轻认知负担。我们使用了传统的视频播放器布局，字幕显示在屏幕底部，并提供外语音频轨道和英语字幕。

3.1 基于注意力的视频播放：这项技术基于早期的注意力感知界面研究，这些研究利用注视方向来自动暂停和恢复视频播放[Vertegaal 2002]。该技术通过用户的注视位置来判断其是否关注屏幕。当用户的视线离开屏幕时，视频播放会立即暂停；当视线返回屏幕时，播放会自动恢复。这使得用户可以在不错过任何视频内容的情况下从分心中恢复过来。虽然存在类似的基于注视方向的播放机制[Duchowski等人2025；Nguyen和Liu 2016]，但我们将这项技术应用于需要字幕辅助理解的场景，因为错过简短对话可能会导致理解困难。这种干预方法假设用户能够跟上字幕的播放速度，并允许他们的视线在字幕区域和视频内容之间自由移动。

3.2 基于注意力的配音：这种方法同样利用用户的当前注视位置来判断其是否关注屏幕。当用户的视线不再出现在屏幕上时，视频播放不会暂停；相反，它会无缝切换到用户熟悉的语言轨道（例如英语）。这种方法建立在现有的多语言音频轨道切换基础上，但不同之处在于切换是基于实时检测到的注意力来隐式触发的，而不是用户显式操作。如果不存在第二语言音频轨道，则会使用以下流程生成文本转语音的配音。这样用户可以在完成任务的同时继续听视频内容，即使他们被分心了。

3.3 字幕堆叠：视频的讲话速度显著影响理解力，较快的讲话速度往往会导致理解能力下降。熟悉视频主要语言的观众在字幕上花费的时间较少[Szarkowska和Bogucka 2019]，而不熟悉该语言的观众则更依赖字幕来辅助理解。快速的讲话速度会让分心的观众难以跟上。字幕堆叠技术建立在传统的字幕显示系统基础上，通过持续性和累积的方式在错过内容后帮助观众恢复理解。为了帮助用户，如果之前的字幕被错过或仍在被阅读，字幕会堆叠在屏幕上，最多可以堆叠三行，然后视频会自动暂停（图2）。字幕不会使用默认的时间设置，而是会一直显示，直到系统检测到用户已经读完，这通过用户注视字幕区域来表示。如果观众没有注视字幕区域，则被认为是分心的。每个字幕的阅读时间是通过平均每分钟单词数（WPM）来计算的。字幕阅读时间的估计是基于平均速度r=280WPM，每次注视字幕行的时间为Tread=Nr/60。当观众的视线离开字幕区域并且累积注视时间达到Tread时，字幕就会被移除，其中N是单词的数量。这个阈值对于快速阅读者或跳过字幕的观众来说是保守的[Mu?oz 2017]，这样可以及时移除字幕，同时仍然给较慢的阅读者足够的时间来阅读。

4 用户研究
为了比较在观众分心时干预技术的有效性，我们进行了一项比较用户研究。参与者被要求使用上述每种干预方法以及一个基线（标准视频播放器）观看四个不同的视频。虽然注视追踪方法可能被滥用来进行非自愿的注意力监控，但我们的系统是为自愿、透明的互动设计的。所有收集的数据都是匿名化的，在本地处理，并且仅用于研究目的，这已经得到了伦理委员会的批准。

表1. 视频标题
主要语言英语音频时长（分钟）
如何发现引力波西班牙语合成 8:37
理解自闭症，不要移开视线西班牙语合成 7:01
我们应对气候变化的道德责任意大利语原声 8:41
为什么记者有义务挑战权力西班牙语合成 10:46

4.1 视频
我们选择了四个TED演讲视频，列在表1中。所有视频都由一位演讲者讲述一个故事或教育性演讲。所有选定的视频都有外语的主要音频轨道。如果没有次要音频轨道，则按照第3.2节所述创建了英语配音。这些视频因其教育内容、外语音频轨道以及最小化的动画使用而被选中，这减少了在视觉内容和字幕之间切换的需要，从而降低了认知负担。这使得观众可以专注于阅读字幕而不错过关键信息。

4.2 参与者
我们通过群发邮件和定向招募邮件招募了24名参与者。参与者来自研究生和本科生阶段，视力正常或矫正至正常。所有参与者都自称英语流利，并且预计他们在阅读和写作方面没有困难，没有人精通西班牙语或意大利语。在24名参与者中，有2人表示很少使用字幕，2人表示在观看熟悉语言的视频时从不使用字幕，而其余参与者则经常使用字幕。所有参与者都报告在观看视频时至少偶尔使用手机，表明在观看视频时进行多任务处理是很常见的。17名参与者自报在观看视频时难以跟上字幕的速度。每次会话大约持续一小时，所有参与者因参与而获得了20美元的报酬。

4.3 研究设计
用户研究是在我们的机构现场进行的。研究采用了被试内设计，有一个主要自变量——技术，有四个水平（暂停、堆叠、配音和标准）。标准视频播放器使用相同的界面，但禁用了所有基于注视的功能。技术的顺序在参与者之间进行了平衡，而视频的顺序保持不变。技术的顺序进行了平衡，以便每个参与者以不同的顺序遇到它们，从而最小化了学习和顺序效应。

主要测量包括注视交互日志、分心测验分数和理解测验分数。此外，问卷提供了主观测量。问卷和分心测验包含在补充材料中。

图3. 系统架构，包括移动分心测验组件（左）、眼动追踪器监听器（右）和前端视频界面（中）。

4.4 设备和软件
系统由三个主要组件组成：前端视频播放器界面、移动测验界面和眼动追踪器后端系统。这三个系统通过UDP和WebSocket进行通信（图3）。源代码可在https://github.com/vialab/DontWannaMissAThing获取。

4.4.1 硬件
一个采样率为90Hz的Tobii 4C眼动追踪器被设置在一台配备16GB RAM和24英寸外部显示器的桌面上，显示器的分辨率为16:9，原生分辨率为1920 × 1080像素。每次会话开始时，每个参与者的眼动追踪器都会进行一次校准。参与者坐在显示器前约60厘米处，使他们能够自然舒适地移动，同时保持准确的追踪。这为参与者提供了舒适感和更自然的观看体验。

4.4.2 视频播放器界面
视频播放器界面是用Electron开发的，用于与眼动追踪器通信。视频播放器的布局类似于传统的视频播放器，字幕位于屏幕底部。字幕文本以白色字体显示在半透明（60%）的黑色背景上。所有三种干预方法都使用了类似的界面，基线（标准视频播放器）也使用相同的界面，但禁用了所有基于注视的功能。字幕文本的格式和位置保持一致。

4.4.3 后端
为了在眼动追踪器和视频播放器界面之间进行通信，使用Tobii SDK用C#开发了一个应用程序。这个后端应用程序用于订阅来自眼动追踪器的注视点数据流，并使用UDP将屏幕上的注视点数据作为x-y像素坐标传输到视频播放器界面。

4.5 程序
预任务。参与者被要求完成一份同意书和一份预筛选问卷。预筛选问题用于确保参与者不熟悉视频中的语言。在用户研究开始之前，对每个参与者进行了眼动追踪器校准。然后要求参与者连接到提供的移动设备上的移动测验页面，并开始观看第一个视频。

视频观看。每个视频都是使用标准视频播放器或三种干预方法之一显示的。在观看视频刺激时，参与者会定期被提供的移动设备上的多项选择IQ问题[Carter 2008]分散注意力。分心问题每30到60秒出现一次。问题被设计为需要参与者的注意力，但可以快速完成。一旦参与者意识到问题，就要求他们立即回答。问题出现时会播放一个通知音，如果20秒后没有回答，音量会继续响起。每个参与者每个视频总共回答了7个分心问题。观看视频后立即要求参与者完成一个内容理解测验，并评估所呈现的干预方法。这个过程重复进行，直到测试了所有三种干预方法以及基线标准视频播放器。

4.6 后研究
最后，呈现了一个后研究问卷，要求参与者根据5点李克特量表对四种方法（三种干预方法和标准播放器）进行评分。

5 结果
我们报告了分心测验和理解测验的表现，以及参与者对每种干预技术的看法。由于数据不符合正态分布，我们使用了Friedman检验和ART ANOVA[Wobbrock等人2011]进行统计分析，并使用Holm-Bonferroni校正进行了事后检验。我们报告了通过10,000次迭代估计的95%置信区间。所有测验和问卷都包含在补充材料中。

图4. 图表显示了每种干预方法下的分心测验表现。黑线代表95%置信区间。图表表明，暂停是减轻分心的最有效方法，导致最低的分心分数。在回答分心问题的平均时间上没有显著差异。

5.1 分心测验表现
参与者在观看每个干预技术的视频时需要回答7个多项选择IQ问题。我们测量了他们的分数和回答问题的平均时间（图4）。分析显示技术对分数有显著的主效应（F3, 69 = 32.60, p <.001, ηG2=.59）。事后检验显示，暂停的效果最好（m=98%，95% CI: [97%,100%]），其次是标准（m=85%，95% CI: [80%,90%]），配音（m=77%，95% CI: [73%,81%）和堆叠（m=71%，95% CI: [64%,78%]）。更多的事后检验细节可以在表2中找到。这些结果表明，适应性暂停通过减轻分心的影响有效地支持了理解，而涉及音频或字幕操作的技术增加了认知负担并降低了准确性。

我们还测量了问题发送和参与者完成回答之间的时间。技术对时间没有显著影响（F3, 69 = 2.63, p =.057, ηG2=.10）。参与者在所有条件下的完成时间相似，平均完成时间为5.9秒（95% CI: [5.6s, 6.1s]）。总体而言，参与者在所有条件下的完成时间相当，表明干预措施没有增加额外的时间成本。

图5. 图表显示了每种干预方法下的理解分数。黑线代表95%置信区间。图表表明分数没有显著差异。

5.2 理解分数
参与者在观看每个视频后完成了一个理解测试。我们测量了每个参与者的分数（图5）。分析显示技术对理解分数没有显著影响（F3, 69 = 1.05, p =.38, ηG2=.04）。参与者在四个测验中的平均分数为60%（95% CI: [56%,64%]）。这表明，尽管干预措施在观看期间支持了即时任务表现和注意力集中，但它们并没有导致观看后的理解能力有可测量的差异。这表明它们的好处可能仅限于实时保持注意力，而不是增强长期理解。

图6. 图表显示了观看带字幕视频时的注视行为。左图显示了三种情境下的整体注视分布：视频、字幕和分心。右图展示了每种技术下的分心时的注视行为。图表表明观众优先关注字幕，暂停有效地减少了标准播放的注意力需求，其次是堆叠和配音。黑线代表95%置信区间。

图7. 图表显示了堆叠技术的堆叠行为。黑线代表95%置信区间。在视频播放期间，堆叠事件比在分心期间更频繁发生，但每分钟的暂停次数保持较低，表明堆叠的字幕通常符合参与者的自然阅读速度，不需要在分心时暂停播放。

5.3 注视分析
我们分析了眼动追踪数据，以评估每种技术管理注意力的效果，通过测量分心期间的视觉分配和脱离情况。关于统计测试的更多细节见B节。

注视分配。为了量化视觉注意力分配，我们分析了注视点指向三个互斥兴趣区域（AOIs）的比例：字幕、视频和分心。分析显示，在外语视频中，人们对字幕有明显的偏好（图6，左）。我们没有发现技术对注视分配有显著的主效应（F3, 253 = 0.58, p =.628, ηG2=.22），表明这些技术没有改变参与者的注意力策略。然而，正如预期的那样，AOI有显著的主效应（F2, 253 = 241.04, p <.001, ηG2=.96）。字幕吸引了最高的注视比例（m=59.7%，95% CI: [56.0, 63.5]），其次是视频区域（m=20.3%，95% CI: [18.4, 22.3]）和分心（m=12.6%，95% CI: [10.3, 15.2]）。

注视转移。我们还量化了注视转移的频率，定义为参与者在分心问题期间从视频上移开然后返回视频的时刻（图6，右）。分析显示技术对注视转移的频率（F3, 69 = 6.47, p <.001, ηG2=.22）及其可能性（F3, 69 = 6.42, p <.001, ηG2=.22）有显著的主效应，表现为分心问题中带有注视转移的比例。事后检验表明，暂停技术（m=5.4%，95% CI: [0.6%,11.9%）显著减少了注视转移，与标准（m=27.6%，95% CI: [11.2%,31.6%；p <.001）和配音（m=16.4%，95% CI: [8.5%,24.7%；p <.01）相比。技术对分心期间总屏幕时间的总持续时间也有显著的主效应（F3, 69 = 3.03, p <.05, ηG2=.12）。在暂停条件下，参与者看屏幕的时间显著减少（m=2.18s，95% CI: [1.58s, 2.87s），与堆叠（m=3.38s，95% CI: [2.30s, 4.60s；p <.05）相比。这些发现表明，暂停在减轻视觉负担方面最为有效。堆叠和配音作为中间技术，其效果相当，相对于标准方法能够减少视觉需求。相比之下，标准方法对视觉的要求最高，需要持续注视屏幕以避免错过内容。

我们分析了三个指标来理解堆叠行为：暂停时清除字幕的时间、最大堆叠事件的数量以及视频暂停的频率（图7）。参与者在分心状态下清除累积的字幕所需时间明显更长（F1, 23 = 7.33, p <.05, ηG2=.24），平均时间为6.28秒（95%置信区间：[3.85秒, 9.00秒），而观看视频时的平均时间为0.45秒（95%置信区间：[0.13秒, 0.90秒）。关于饱和事件，我们观察到数量与频率之间存在反比关系。在观看视频阶段，系统达到最大容量的频率显著更高（F1, 23 = 24.09, p <.001, ηG2=.51），但这些事件的频率在分心阶段显著较低（F1, 23 = 20.29, p <.001, ηG2=.47）。这种差异归因于观看视频阶段的持续时间明显长于分心阶段。正如预期的那样，分心时长时间的视觉脱离导致字幕大量累积，从而延长了恢复时间。相比之下，观看视频时虽然最大事件总数更多，但这些事件都是短暂的，表明阅读阈值经常与参与者的自然阅读速度一致。

5.4 主观评估注意力与恢复
参与者使用5点李克特量表评估了干预技术在支持注意力和从分心中恢复方面的有效性（图8）。有关统计测试的更多细节，请参见C部分。

注意力恢复
参与者评估了每种干预技术帮助他们从分心中恢复的有效性。弗里德曼检验显示，技术对感知到的注意力恢复有显著影响（χF2(3)=34.80, p <.0001）。事后威尔科克森检验表明，所有三种基于注视的干预技术的评分都显著高于标准方法（p <.001）。暂停和堆叠获得了最高的评分（平均得分=4.0）。暂停和堆叠之间没有显著差异（p =.334, n.s.），这表明它们在帮助重新集中注意力方面具有相似的效果。然而，配音的评分显著低于其他两种干预方法（平均得分=3.0）。

对话处理
参与者评估了自己跟上视频对话的能力。研究发现技术有显著的主效应（χF2(3)=37.80, p <.001），其中暂停（平均得分=4.5）、堆叠（平均得分=4.0）和配音（平均得分=3.5）的评分均高于标准方法（平均得分=2.0）。暂停和堆叠的评分也显著高于配音（p <.05），表明适应性暂停和字幕堆叠在维持理解方面最为有效。

分心程度
参与者评估了在回答干扰问题时感到分心的程度。研究发现技术有显著的主效应（χF2(3)=13.82, p <.05）。事后检验显示，堆叠（平均得分=4.0）显著降低了感知到的分心程度，而标准方法为平均得分=5.0。其他成对比较均未达到显著性（p =.203, n.s.）。这表明堆叠字幕被认为是减少分心的最有效干预措施，尽管总体差异较小。

用户体验
参与者评估了技术的愉悦度以及使用该技术的难易程度。不同技术的愉悦度评分存在显著差异（χF2(3)=25.91, p <.001）。暂停和堆叠的评分都高于标准方法（平均得分=5.0 vs 2.5）。暂停的评分也显著更容易使用（平均得分=4.0），相比标准方法（平均得分=3.0）（χF2(3)=21.45, p <.001）。这些结果表明，适应性干预不仅支持了参与者的投入，还保持了易用性，从而提升了整体观看体验。

用户接受度
参与者评估了该技术的干扰程度以及如果可用的话是否愿意使用它。感知到的干扰程度（非侵入性）有显著的主效应（χF2(3)=23.15, p <.001）。暂停和堆叠被认为比标准方法干扰更小（平均得分=4.0 vs 2.0）。最后，使用意愿（采纳度）也有显著差异（χF2(3)=29.77, p <.001）。所有三种适应性方法都比标准方法更受欢迎（平均得分=4.0，p <.05），其中暂停和堆叠再次领先。这些发现表明，最小化观看流程中断的基于注视的适应性方法更有可能被用户接受。

图8. 每种干预方法的问卷回应。参与者认为暂停和堆叠在减轻分心方面最有效，其次是配音。标准方法的表现最差，这表明基于注视的干预技术有助于注意力恢复和更流畅的观看体验。

总结
总体而言，参与者一致认为暂停和堆叠提供了更强的注意力支持、更高的愉悦度和更好的易用性，优于标准播放器。配音的评分通常高于标准方法，但低于其他干预技术。这些结果表明，适应性暂停和堆叠字幕有效地支持了注意力的恢复和持续的理解，与参与者对参与度和控制感的主观感知相符。

5.5 注意力恢复与观看体验
我们报告了三个定性主题，这些主题反映了这些技术如何影响注意力恢复、理解能力和整体观看体验，这些观点来自任务后问卷中的开放式问题。

支持焦点和减少错过内容
一个共同的主题是，这些干预措施帮助参与者保持与视频同步，避免错过内容。许多人表示，当他们的注意力分散时，这些技术对他们非常有效。参与者将暂停描述为“非常有帮助”[P8]和“对我帮助最大的技术”[P16]，并指出“当我没有看视频时，视频会停止，这很棒”[P7]。其他人则感到安心，因为他们没有错过关键内容（“我有音频反馈，知道我没有错过视频中的任何内容”[P11]）。堆叠字幕同样提供了安心感，使观众能够在分心后赶上进度。参与者表示“回顾时很容易跟上”[P4]，并且保持之前的行可见“确保我阅读了视频中的所有信息”[P16]。这种适应使得无需倒带视频即可重建错过的内容。即使使用配音技术，一些人也表示，在分心时听到另一种语言的音轨“帮助我保持专注”[P20]和“让我能够理解她在说什么”[P14]。

相比之下，基线情况强调了这些适应性功能的重要性：在没有任何干预的情况下，参与者报告感到“困惑”[P6]、“不太专注”[P14]，并且“每次都会失去节奏”[P21]。这些回应突显了基于注视的功能在提供连续性和控制感方面的作用。

响应性和自然流畅性
虽然参与者赞赏能够快速解决分心的干预措施，但他们也指出了可能破坏观看体验的一些细微差别。一些人认为由注视触发的暂停过于突然或过于敏感（“当视频在你没有‘完全’分心的时候暂停，会让人感到不适”[P18]）。其他人希望有一个短暂的缓冲或重放窗口（“从停止前十秒开始播放”[P5]），以创造更平滑的过渡。在堆叠字幕的情况下，也出现了时间控制和注视检测不一致的问题。一些人觉得“视频暂停太慢”[P11]，而其他人则说“字幕的速度太慢，不符合我的阅读速度”[P23]。使用配音时，参与者指出“从阅读切换到听讲很有挑战性”[P18]。其他人评论说，这种转换感觉“有点不自然”[P16]或“有点烦人而不是有帮助”[P2]。同时，一些参与者发现这种技术很有帮助，他们指出“在用手机回答问题时提供英语音频记录帮助我保持专注”[P20]，并且系统“非常有效”[P7]。总体而言，参与者寻求既无缝又不会干扰观看体验的适应性干预。

认知负荷和注意力转移
这些干预措施还揭示了模态和任务切换如何影响认知负担。参与者将暂停技术描述为“非常容易整理任务”[P21]，通过明确地在视频和手机之间分配注意力来减少多任务处理的压力。堆叠字幕也减少了压力，其中一人指出“偶尔当我看向别处时，会错过一个字幕，但这是最容易跟上内容的方式”[P17]。配音需要同时听和回答，引发了关于认知负荷的最强烈反应。参与者经常报告说“[我的]大脑试图同时处理两件事”[P5]，以及“声音和语言的切换很分散注意力”[P3]。评论表明，挑战主要来自于在模态之间切换所需的努力。当阅读和听讲的转换与用户的自然处理策略不一致时，基于注视的系统可能会无意中增加认知负担。

6 讨论
我们的结果显示，基于注视的播放可以有效地支持在观看字幕视频时的注意力恢复。讨论将这些发现与实时适应、模态和个体观看行为联系起来，强调了基于注视的干预如何影响即时恢复、认知努力和用户体验。

基于注视的干预支持实时恢复，而不是长期理解。这项研究是在受控条件下进行的，旨在隔离基于注视的干预在现实观看场景中的感知和注意力效应。研究结果表明，基于注视的干预有效地帮助观众从导致字幕阅读时注意力立即分散的分心中恢复。这些基于注视的干预措施，如适应性暂停和持续显示的字幕，通过在检测到分心时保持或重新引入错过的内容来减少信息丢失。我们的注视转移分析显示，暂停技术将屏幕外的检查减少了5.4%，而标准条件下的这一比例为27.6%。通过将播放与时间解耦，用户可以在分心时脱离视频，而无需承担监控视频的认知负担。从分心中恢复解决了字幕的局限性，因为视频不允许像文本那样选择性地重新阅读。最终，这通过提供另一种替代方案（例如滚动时间轴）来帮助观众。

虽然实时注意力恢复的短期好处包括支持即时任务表现和减少认知负荷，但它们本身并不支持理解力的发展。这可能是由于我们研究中使用的刺激材料性质所致，这些材料主要是叙述性和信息性的TED风格演讲，而不是有助于建立累积理解的教学材料。因此，这些干预主要帮助观众在时间上与内容保持同步，但并未强化概念学习或记忆。这与教育环境中的发现形成对比，在教育环境中，基于注视的干预旨在促进学习和更深层次的理解[Mills等人2021；Santhosh等人2024]。

模态变化只有在与观众偏好匹配时才能支持恢复。适应方法强调了模态和认知负荷如何影响注意力恢复。先前的关于双语视听学习的研究表明，音频的存在、字幕语言和语言熟练程度会影响注意力分配和词汇处理[Abu-Rayyash等人2024]。这表明，突然的模态切换可能会在观众处理双语时使工作记忆过载。减少音频和视觉同时处理的策略，如暂停视频以保持错过的字幕可见，通常可以提高任务表现，并且对观众的干扰较小。然而，呈现格式也很重要。虽然堆叠保持了视觉上下文，但参与者花费在屏幕上的时间比暂停条件更多。这表明，即使有字幕，连续的视频流也能保持用户的参与度，防止了严格暂停带来的注意力分散。相比之下，快速切换模态的方法可能需要额外的认知努力，特别是对于那些依赖字幕来理解内容的非流利观众。

结果表明，基于注视的恢复是有效的，这取决于系统的干预时机和向观众呈现信息的方式。为了在恢复期间减少认知负荷，适应性播放系统应为用户提供足够的时间来处理错过的内容，而不是呈现更密集的信息。基于模态的适应，如切换到音频，可能对特定用户有帮助。我们关于配音的数据反映了这一细微差别：虽然它减少了注视转移，但并未完全消除检查行为，表明用户仍然需要视觉验证上下文，尽管有听觉支持。有效性取决于平衡感官多样性和认知负荷。

注意力感知的干预必须与个人的观看行为相匹配。为了实现无缝的基于注视的播放体验，基于注视的系统必须缓解敏感性和稳定性之间的紧张关系。如果系统不进行干预以平稳且可预测的方式减少干扰，观众会感到观看体验受到破坏。观众更喜欢平稳、可预测且干扰最小的干预措施。例如，通过实施缓冲暂停、渐进式过渡和重放窗口等干预技术，可以在保持视频流畅性的同时，为个人提供恢复的时间。个性化也非常重要，因为每个人的阅读速度、注意力模式和观看行为都各不相同。由于这种差异性，为注视相关反应设定固定阈值是不够的。堆叠分析显示，系统在正常观看时有时会达到最大容量，而不是在分心时。这表明固定阈值与自然阅读速度之间存在不匹配，导致观看流程中出现不必要的中断。轻量级校准和可调功能（如暂停感知和字幕时长）使系统能够根据观众的观看行为更加灵活。注视自适应界面的有效性源于准确的注视检测以及系统对个体注意力水平的尊重。

**7. 局限性与未来工作**

几个限制因素影响了我们结果的普遍性。首先，虽然干预技术的顺序进行了平衡，但视频的播放顺序是固定的，这可能会留下残留内容或顺序效应。此外，这项研究是在受控环境中进行的，使用了基于短视频和字幕的干预措施以及基于固定注视的注意力模型。尽管这种设置允许比较不同干预措施，但它可能无法完全反映自然观看环境，因为在自然环境中，分心的类型、持续时间和频率是变化的。未来的研究应该探讨注视自适应恢复机制如何适用于其他场景，如长视频、移动设备或多任务环境。

其次，本研究中的所有干预措施都是为单个观众设计和测试的。虽然这使我们能够在受控环境中系统地评估注视自适应恢复效果，但它没有考虑到多个观众的情况。在多观众场景中，可以通过多种方式扩展干预措施。例如，在播放过程中可以显示堆叠字幕，当达到某个限制时，可以为错过内容的观众提供由AI生成的摘要。或者，可以向手机发送个性化的补看通知，让每个观众在不干扰他人观看体验的情况下恢复错过的信息。同样，字幕可以直接传输到移动设备上，使观众能够独立或异步地跟随观看。未来的工作应该探索如何将注视自适应干预措施扩展到多观众环境和移动辅助恢复中，同时保持无缝的观看体验。

第三，我们的参与者样本主要由不熟悉视频语言（西班牙语或意大利语）但英语流利的观众组成。然而，语言熟练程度、对字幕内容的熟悉程度以及观看行为都会影响注意力和恢复能力。未来的工作应该考虑更多样化的参与者样本和语言（字幕和视频），以确定注视自适应系统在不同语言环境中的适用性。

最后，尽管我们的干预措施在支持短期恢复方面有效，但考虑到视频内容的性质，它们并不旨在促进长期的理解或记忆。未来的研究应该考虑结合实时适应和教育支持的混合系统，以在教育环境中促进即时注意力恢复。此外，基于注意力的配音干预使用了时间拉伸的合成语音来匹配字幕时间，而字幕时间通常比口语对话更为压缩或扩展。这可能导致语音速度比正常情况慢或快，从而影响用户对配音音频的感知。

**8. 结论**

分心常常会干扰基于字幕的观看体验，使得不熟悉语言的观众难以恢复。我们探索了三种基于注视的干预措施来帮助观众从分心中恢复：自适应暂停、堆叠字幕和配音。用户研究发现自适应暂停最为有效，因为它提高了任务表现并减少了分心。堆叠字幕有助于恢复，但可能会减慢快速阅读者的速度，而配音提供的支持有限，并增加了某些人的认知负担。所有干预措施在即时恢复方面都优于标准播放方式，但并未提升长期理解能力。这些结果突显了注视自适应方法的潜力以及用户参与度和偏好的重要性。这项工作为将注意力恢复无缝集成到日常观看体验中的注视自适应系统奠定了基础。

**致谢**

我们感谢加拿大自然科学与工程研究委员会（NSERC）的支持，同时也感谢参与这项研究的各位参与者。

热点排行