简化垂直复视的诊断:是视物偏斜还是其他原因? 作者:Anas Igbariye, Noa Hadar, Basel Obied, Adi Berco, Alon Zahavi, Inbal Man Peles, Nitza Goldenberg-Cohen

《Journal of Eye Movement Research》:Simplifying the Diagnosis of Vertical Diplopia: Is It Skew or Not? Anas Igbariye, Noa Hadar, Basel Obied, Adi Berco, Alon Zahavi, Inbal Man Peles and Nitza Goldenberg-Cohen

【字体: 时间:2026年04月12日 来源:Journal of Eye Movement Research 2.8

编辑推荐:

  摘要:了解用户如何感知和关注人工智能医疗对话代理(AIMCAs)的拟人化外观和共情反应,有助于揭示信任形成和使用决策背后的关键判断线索,同时为界面和对话设计提供参考。为此,本研究采用了一个3(外观拟人化程度:高、中、低)× 2(共情反应:存在、不存在)的被试内眼动追踪实验,并结合

  摘要:了解用户如何感知和关注人工智能医疗对话代理(AIMCAs)的拟人化外观和共情反应,有助于揭示信任形成和使用决策背后的关键判断线索,同时为界面和对话设计提供参考。为此,本研究采用了一个3(外观拟人化程度:高、中、低)× 2(共情反应:存在、不存在)的被试内眼动追踪实验,并结合了主观量表和简短的实验后开放式反馈。在基于假设咨询场景的静态原型查看任务中,我们同时记录了用户的信任度、行为意图以及对关键兴趣区域(AOIs;外观区域、对话内容区域和整体界面区域)的视觉测量结果。眼动追踪数据通过AOI覆盖比例进行了标准化处理,以提高跨AOI的可比性。结果表明,拟人化外观和共情反应显著增强了用户对AIMCAs的信任度及其行为意图。这两种社会线索之间的交互作用也得到了观察,表明当视觉表现和语言风格在社交层面上一致时,用户更有可能形成积极的整体评价。然而,在视觉处理层面并未发现交互效应,眼动追踪数据仅显示出部分主效应,表明主观协同作用并不一定对应于注意力分配的协同变化。总体而言,拟人化外观和共情反应对结果变量产生了持续的促进作用,但在视觉层面上表现出不同的注意力分配和信息优先级模式。因此,AIMCA设计应强调外观线索与对话策略之间的一致性,通过可验证的信息组织和清晰的边界线索来优化用户的初始判断和使用意图。

1. 引言
对话代理(CAs)通常指的是一类用户可以通过自然语言(如文本或语音)与之交互的智能软件系统,其能力的提升主要得益于人工智能的发展,特别是自然语言处理技术[1]。近年来,CAs已从早期的基于脚本的交互工具逐渐演变为能够支持信息检索、流程指导和任务执行的数字服务门户,并在电子商务、客户服务、教育、政府和医疗保健服务等广泛领域得到快速应用[1,2]。在医疗保健领域,面向公众的AI医疗对话代理(AIMCAs)越来越多地用于健康咨询、症状评估和分诊指导、术前和术后随访支持、健康教育以及行为促进等任务,显示出显著提升服务可访问性和交互效率的潜力[3,4]。值得注意的是,生成式人工智能和大型语言模型的引入使对话代理能够产生更接近人类表达的响应,在一定程度上支持更加自然和信息丰富的医患式沟通。这一发展加速了医疗对话代理从问答和信息检索工具向更具交互性的医疗服务提供方式的转变[4,5]。与此同时,该领域的证据基础也在不断扩展。例如,一项涵盖2017年至2023年发表文献的快速回顾研究了医疗聊天代理在远程医疗服务提供和行政支持等途径中的作用和界限[4]。同时,一项专注于基于大型语言模型的健康建议和健康问题回答的系统评价综合了大量实证研究,表明对生成式医疗对话系统的研究和实际兴趣正在迅速增长[6]。在这种背景下,以用户为中心的AIMCAs实证研究具有重要意义,因为它不仅可以为交互设计和系统优化提供可操作的行为证据,还可以为后续系统评估和更真实使用环境下的迭代设计提供实证基础。

尽管AIMCAs的应用范围不断扩大,但跨国调查和中国特定的证据都表明,公众对医疗系统和医疗AI的信任与采用之间存在显著差距。在美国的一项全国代表性调查中,65.8%的受访者表示对他们的医疗系统能够负责任地使用AI缺乏信心,57.7%的受访者不确信该系统能够确保AI工具不会对他们造成伤害[7]。在中国,一项针对有医疗需求的个体的全国多中心调查显示了类似的“愿意尝试但信任不足”的模式:61.7%的受访者表示愿意尝试涉及AI的诊断和治疗服务,但只有43.5%的受访者表示信任诊断结果[8]。目前,AIMCAs在中国的实际应用仍然有限[9]。此外,关于医疗AI的证据普遍认为,信任和采用受到感知风险、责任归属、透明度、隐私和安全性以及感知能力和可靠性的共同制约[10,11]。因此,提高AIMCAs的可信度不仅取决于算法性能,还关键取决于通过人机交互层传达的社会线索。

由于AIMCAs本质上是以对话为中心的,并通过界面设计和语言持续呈现自身,用户通常将它们视为具有社会相关性的交互伙伴,因此依赖可感知的社会线索来推断其可信度和可采纳性。其中一类重要的线索是拟人化外观,它可以影响用户对系统的判断,进而影响信任的形成。在医疗分诊对话代理中,增强拟人化线索已被证明可以加强社会存在感并促进信任的发展,从而提高持续使用等与采用相关的结果[12]。与此一致,眼动追踪证据也表明,当对话代理结合了更具拟人化的外观和共情反应时,用户报告的社会存在感、信任度和满意度更高[13]。另一类重要的线索是共情反应,其作用通常体现在增加感知到的温暖感和被理解的感觉上,从而影响用户对AIMCAs的信任和接受度。关于医疗聊天代理的实验研究直接表明,与非共情反应相比,包含共情表达可以增加用户的感知温暖感,进而提高信任度和使用意图。同时,当这些共情表达被认为不够真实时,其积极效果会减弱,表明医疗环境中的共情线索受到真实性的重要限制[14]。基于此,最近来自真实患者评估、独立评估者的比较和系统评价的进一步证据表明:AI聊天代理的语言共情可以被用户识别,并通过验证、安慰、非评判性表达和更清晰的支持结构显著影响对响应共情、质量、信任和整体体验的评估[15,16,17]。因此,本研究中关于共情反应的理论基础一方面直接基于Seitz对“温暖感–信任/使用意图–真实性边界”机制的实验测试,另一方面结合了几项近期研究的共同支持,这些研究认为语言层面的共情可以被识别并影响评估结果[14]。

总体而言,先前的研究一致认为拟人化外观和共情反应是两种可设计和操控的社会线索,它们可能通过社会存在感、感知温暖感和可信度等机制影响AIMCAs的采用相关结果。然而,现有研究往往单独考察拟人化和共情线索,关于它们在AIMCA环境中的联合效应和交互机制的实证证据仍然相对有限。此外,大多数研究主要依赖于自我报告测量,这使得难以揭示用户对这些线索的注意力分配及其背后的信息处理过程。在人机交互研究中,眼动追踪可以在兴趣区域(AOIs)层面提供更接近过程的客观指标。它已被用于测试聊天代理中的拟人化线索如何影响视觉注意力和主观感知[13],并且在信任研究中也被视为捕捉动态处理的补充证据[18]。因此,同时操纵AIMCA的拟人化外观和共情反应,并将自我报告量表与眼动追踪指标相结合,以考察主要效应和交互效应,具有明确的理论和实践意义。

从理论角度来看,本研究将拟人化外观和共情反应视为通过不同渠道起作用的两类社会线索。拟人化外观主要作为一种高度显著的视觉社会线索。它首先影响用户是否将AIMCA视为具有社会属性的交互实体,而不仅仅是信息工具。这种感知随后通过增强感知到的拟人化和社会存在感进入用户对可信度和可接受性的判断。关于医疗对话代理的研究表明,更像人类的外观和更像人类的表达方式可以增加感知到的拟人化和社会存在感,从而进一步促进信任的形成和接受相关结果[12,19]。从这个意义上说,拟人化外观不仅仅改变了界面“看起来是否像人类”;更重要的是,它在更早的阶段影响了用户是否将系统视为一个可以社会解释的实体。

相比之下,共情反应主要是一种语言和关系线索。它并不主要决定用户是否将AIMCA视为一个社会实体;相反,它更直接地影响用户是否感到被理解和支持,以及交互是否被体验为温暖和有意义的。在医疗聊天代理的研究中,共情表达通常被发现可以通过增加感知到的温暖感来增强信任和使用意图。然而,当这种共情被视为不够真实时,其积极效果会减弱,表明在医疗环境中,共情线索的有效性受到真实性的重要限制[14]。基于此,最近来自真实患者评估、独立评估者的比较和系统评价的进一步证据提供了支持:AI聊天代理的语言共情可以被用户识别,并可以通过验证、安慰、非评判性表达和更清晰的支持结构显著影响对响应共情、质量、信任和整体体验的评估[15,16,17]。因此,本研究中关于共情反应的理论基础一方面直接基于Seitz对“温暖感–信任/使用意图–真实性边界”机制的实验测试,另一方面结合了几项近期研究的共同支持,这些研究认为语言层面的共情可以被识别并影响评估结果[14]。

总体而言,先前的研究一致认为拟人化外观和共情反应是两种可设计和操控的社会线索,它们可能通过社会存在感、感知温暖感和可信度等机制影响AIMCAs的采用相关结果。然而,现有研究往往单独考察拟人化和共情线索,关于它们在AIMCA环境中的联合效应和交互机制的实证证据仍然相对有限。此外,大多数研究主要依赖于自我报告测量,这使得难以揭示用户对这些线索的注意力分配及其背后的信息处理过程。在人机交互研究中,眼动追踪可以在兴趣区域(AOIs)层面提供更接近过程的客观指标。它已被用于测试聊天代理中的拟人化线索如何影响视觉注意力和主观感知[13],并且在信任研究中也被视为捕捉动态处理的补充证据[18]。因此,同时操纵AIMCA的拟人化外观和共情反应,并将自我报告量表与眼动追踪指标相结合,以考察主要效应和交互效应,具有明确的理论和实践意义。

从理论角度来看,本研究将拟人化外观和共情反应概念化为通过不同渠道起作用的两类社会线索。拟人化外观主要作为一种高度显著的视觉社会线索。它首先影响用户是否将AIMCA视为具有社会属性的交互实体,而不仅仅是信息工具。这种感知随后通过增强感知到的拟人化和社会存在感进入用户对可信度和可接受性的判断。关于医疗对话代理的研究表明,更像人类的外观和更像人类的表达方式可以增加感知到的拟人化和社会存在感,从而进一步促进信任的形成和接受相关结果[12,19]。在这个意义上,拟人化外观不仅仅改变了界面“看起来是否像人类”;更重要的是,它在更早的阶段影响了用户是否将系统视为一个可以社会解释的实体。

相比之下,共情反应主要是一种语言和关系线索。它并不主要决定用户是否将AIMCA视为一个社会实体;相反,它更直接地影响用户是否感到被理解和支持,以及交互是否被体验为温暖和有意义的。在医疗聊天代理的研究中,共情表达通常被发现可以通过增加感知到的温暖感来增强信任和使用意图。然而,当这种共情被视为不真实时,其积极效果会减弱,表明共情线索在强度较大时并不一定更有效,而是需要与AI系统的角色特征和用户的交互期望保持适当的一致[14]。更广泛地说,关于AI聊天机器人的研究表明,信任的形成不仅取决于系统性能,还受到机器特征、交互线索和社会线索以及情境因素的共同影响[20,21]。基于这一逻辑,本研究将AIMCAs中的拟人化外观和共情反应定义为两种可设计的社会线索:前者主要有助于激活感知到的拟人化和社会存在感,而后者主要有助于形成感知到的温暖感、被理解的感觉和关系评估。这些线索共同进入用户对AIMCAs的信任和行为意图的综合判断。因此,本研究操纵了外观拟人化(高/中/低)和共情反应(存在/不存在)作为两个被试内因素,使用信任度和行为意图作为结果变量,并采用AOI层面的视觉注意作为过程指标,以考察这两种类型的社会线索是否产生不同的效果,它们是否在主观判断层面产生增强效果,以及这些效果在视觉处理层面是否表现出相同的结构。这种设计有助于建立“社会线索–社会存在感/关系评估–信任和行为”这一理论链条与具体实验操作之间的直接对应关系。

鉴于本研究采用了受控实验范式,在短时间内跟踪参与者在真实世界环境中的持续使用行为是不可行的。因此,使用意图被视为一个关键的采用相关结果变量。这种方法与健康行为和技术采用研究中的主导范式一致[22]。同时,现有的关于对话AI的实证研究表明,用户的使用意图与其后续的实际使用之间存在正相关,使用意图在某种程度上可以中介信任对实际使用的影响[23]。然而,应当注意的是,意图和行为之间可能存在差距,意图的稳定性会影响其对行为的预测能力[24]。因此,本研究进一步纳入了过程导向的指标,如眼动追踪测量,以补充自我报告数据,并提供与信任和意图差异背后的处理机制更密切相关的证据。在本研究中,行为意图主要用于在受控实验条件下捕捉用户的早期接受判断,而其与实际依赖性、持续使用和决策质量的关系需要在更真实的交互环境中进一步研究。

为了解决上述限制,本研究专注于AIMCAs,并采用了一个3(拟人化外观:高/中/低)× 2(共情反应:存在/不存在)的眼动追踪实验设计。通过将主观量表与眼动追踪测量相结合,本研究考察了拟人化和共情线索在结果变量层面和过程证据层面上的影响。基于上述理论基础和先前研究证据,提出了以下假设和研究问题:

H1a:更高程度的拟人化外观将增加用户对AI医疗咨询助手(AIMCAs)的信任感。
H1b:更高程度的拟人化外观将增加用户对AIMCAs的行为意图。
H2a:具有共情回应的AIMCAs将比没有共情回应的AIMCAs引发更高的信任感。
H2b:具有共情回应的AIMCAs将比没有共情回应的AIMCAs引发更高的行为意图。
H3a:拟人化外观和共情回应将对信任感产生增强效果;当同时呈现较高程度的拟人化外观和共情回应时,用户将报告最高的信任感。
H3b:拟人化外观和共情回应将对行为意图产生增强效果;当同时呈现较高程度的拟人化外观和共情回应时,用户将报告最高的行为意图。

RQ1:在视觉处理层面,拟人化外观和共情回应如何改变用户对关键兴趣区域(AOIs)的注意力分配,这些变化如何为理解主观评价的差异提供过程层面的证据?

通过这种设计,本研究做出了三个贡献。首先,它提供了关于“外观线索×沟通线索”在AIMCA背景下联合作用的联合证据,从而回应了研究拟人化和共情线索之间潜在交互作用的需求。其次,它结合了以过程为导向的眼动追踪测量,减少了仅依赖自我报告量表来解释注意力分配和信息处理的局限性。最后,它为AIMCAs中的拟人化外观程度和共情回应策略提供了可操作的设计建议,特别强调了在原型阶段支持界面和对话优化,以及为与系统能力相一致的信任和使用判断提供信息。

本文的其余部分组织如下。第2节报告了方法论,包括刺激物和实验操作、参与者信息、设备、程序以及自我报告和眼动追踪测量。第3节展示了实证结果,分别报告了自我报告结果和眼动追踪发现。第4节讨论了结果,重点关注拟人化外观和共情回应对用户感知(信任和行为意图)以及视觉行为的影响。第5节总结了研究意义、局限性和未来研究的方向。第6节总结了本文。

2. 方法论
2.1. 刺激物
本研究采用了一个3(拟人化外观程度:高拟人化、中等拟人化和低拟人化)× 2(共情回应:存在 vs. 不存在)的被试内实验设计。进行了一项眼动追踪实验来研究用户的视觉行为。在实验过程中,通过主观评估收集了参与者的感知数据。

本研究使用静态界面原型作为实验刺激物,而不是允许参与者与AIMCA进行自由对话互动。选择静态原型有两个原因。首先,静态界面允许视觉呈现严格标准化,这有助于在眼动追踪分析中稳定定义AOIs,从而产生更可重复的注视分配和处理指标。相比之下,动态视频或自由互动引入了额外的变异来源,如界面元素位置的变化、交互路径的差异和系统波动,从而大大增加了AOI注释和数据解释的难度[25,26]。其次,在健康对话代理和聊天代理的研究中,通常使用基于场景的原型实验来隔离特定社会线索对信任和采用相关结果的影响,并且特别适合在机制测试的早期阶段实现高度控制和可解释的因果推断[12,27]。因此,本研究提供的证据主要涉及界面原型观看、第一印象形成以及在假设咨询场景下的短期评估过程。

刺激材料根据3 × 2设计构建为六个实验条件。这种操作对应于本研究的理论框架:拟人化外观主要携带视觉社会线索,其作用预计首先体现在加强用户将AIMCAs视为类人和社会存在的实体;共情回应主要携带语言和关系线索,其作用预计主要体现在增强用户的感知温暖感和被理解的感觉。这两种类型的线索进一步被认为共同影响用户对AIMCAs的信任形成和使用判断,因此被指定为本研究中的两个核心实验因素[12,14,19]。首先,拟人化外观的操作基于先前在聊天代理中关于拟人化线索的研究中常用的分级方法[12,27]。具体来说,高拟人化条件使用了真实的人脸头像,中等拟人化条件使用了卡通类人头像,低拟人化条件使用了非人类的抽象图标,从而在保持界面布局、颜色、字体大小和信息结构不变的情况下,创建了从强到弱的社交线索的渐变。此外,所有条件中的性别呈现都统一为女性。先前的研究表明,聊天代理中的性别线索可以系统地影响用户对温暖感、能力、信任和使用意图的判断,尽管这些效应不是单向的或固定的,而是受到交互背景、任务特征和用户属性的共同调节。更具体地说,聊天代理与其用户之间的性别一致性可以增强用户与代理的自我一致性感,并进一步改善相关的行为反应[28]。在智能语音助手的研究中,性别线索的总体主要效应并不总是稳定的,但可能与任务类型和用户性别相互作用;例如,男性用户可能在某些信任维度上更倾向于信任男性声音[29]。同时,即使采用性别模糊的设计,用户仍然倾向于自发地分配性别,那些将代理视为女性的用户可能表现出更高的使用意图[30]。在医疗聊天代理的背景下,包含女性医生线索的设计也被发现更容易引发认知信任和情感信任,而男性医生线索似乎在更大程度上增强了认知信任[31]。基于这些证据,本研究采用女性性别呈现作为统一的社会线索背景,以建立一个相对稳定的原型设置,更符合医疗沟通背景,同时避免由性别线索、拟人化外观程度和共情回应的同时变化引起的潜在混淆。因此,本研究中的分析可以更直接地关注两个核心设计线索的效果结构,即拟人化外观和共情回应。

其次,本研究将共情回应定义为一种语言表达形式,涉及识别和认可用户的情感线索,表达对其情况的理解和同情,并在此基础上提供支持性和行动导向的帮助。在共情回应条件下,AIMCA在其关键回复中系统地包含了:(1)情感的识别和标记(例如,“听起来你可能感到担心/不适”),(2)理解和安慰的表达(例如,“这很常见,你的担忧是可以理解的”),以及(3)结合支持性语言和行动导向建议的帮助(例如,“我们首先可以……;如果……发生,建议立即寻求医疗帮助”)。在非共情回应条件下,AIMCA保留了相同的医疗信息和任务步骤,但去除了情感认可、安慰和关怀的表达,而是以更中立、信息导向的方式提出问题和建议。关于这种操作的合理性,本研究中的共情回应设计主要基于Seitz在医疗聊天代理背景下的实验发现[14]。该研究直接表明,与非共情回应相比,包含共情表达增加了感知温暖感,进而增强了信任和使用意图。同时,当这些积极效果被视为不够真实时,更强形式的体验性共情表达可能会削弱这些效果。因此,本研究并不寻求在共情条件下创造高度强烈或过于情绪化的表达,而是采用了一种更具支持性、以帮助为导向的语言风格,包括适度的情绪认可。此外,其他最近的研究表明,验证、安慰、非评判性的措辞和清晰的结构确实可以被用户认为是更具共情性的,并且可以显著影响他们对响应质量、信任和整体体验的评估[15,17]。基于这些证据,本研究将共情回应概念化为一种可设计的语言社会线索,并通过一种相对克制但强烈支持的表达方式将其具体化。

为了减少来自单一界面配置的刺激特定偏差,并获得对用户感知和视觉行为的更稳健评估,本研究为每个拟人化程度设计了三个相似的原型。所有高保真度原型都是使用Adobe Illustrator(v24.0)创建的,总共产生了18个刺激物(见附录A)。这种方法与关于刺激抽样和提高研究结果普遍性的方法论建议一致[32]。实验原型的组合在表1中呈现。在正式的统计分析中,三个相同水平的原型被视为同一实验条件内的平行刺激实例,在随机呈现后,被汇总用于条件级别的比较。这种处理与本研究关注固定条件效应的重点一致,也与初步研究结果一致,这些结果显示在同一拟人化程度内的三个原型之间只有微小差异。

表1. 实验原型。

为了进一步澄清在正式分析中如何处理刺激结构,每位参与者在实验中观看了所有18个界面原型,并且每个参与者的呈现顺序是随机的,以减少由于特定原型连续出现而引起的顺序效应和偏差。在正式的统计分析中,主观评估和眼动追踪测量都在条件级别上进行了汇总;也就是说,两个实验因素——拟人化外观和共情回应的主要和交互效应被估计,而没有将三个平行原型作为单独的固定条件报告。这种方法与本研究的核心目标一致,即识别在设计可调节的社会线索在条件级别上的稳定效果。多刺激抽样有助于减少任何单个界面实例对结果的偶然影响,并允许基于更广泛的刺激集估计条件效应。同时,刺激实例的整合方式也影响了可以从发现中得出的推断范围[32,33]。

在正式实验之前,我们在2025年12月2日至5日之间进行了一项初步研究,以验证操作的有效性并排除潜在的混淆因素。共招募了30名参与者,年龄在20至29岁之间(平均年龄=26.63岁,标准差=2.45岁)。所有参与者都具有良好的中文阅读能力,并且在过去的六个月内使用过在线医疗咨询服务。每位参与者逐一在线观看了18个界面原型,并在每个刺激后提供了简短的评估。

为了测试拟人化外观的操作,我们使用了医学对话代理研究中常用的7点李克特量表来评估感知到的拟人化程度[12](例如,“这个AIMCA的外观让我觉得它非常像人类”,“这个AIMCA的外观让我觉得它具有‘人类特征/人类气质’”)。重复测量方差分析表明,在三个拟人化外观程度之间存在显著差异[F(2, 58) = 114.843, p < 0.001]。具体来说,高拟人化(平均得分=4.92,标准差=0.91)、中等拟人化(平均得分=4.09,标准差=1.03)和低拟人化(平均得分=1.79,标准差=0.59)条件之间的感知拟人化程度存在显著差异(所有Bonferroni调整后的p值<0.01)。与此同时,在高拟人化组[F(2, 58) = 1.459, p = 0.241]、中等拟人化组[F(2, 58) = 1.577, p = 0.215]和低拟人化组[F(2, 58) = 0.165, p = 0.849]中,三组图像之间的差异均不显著。为了测试共情反应的操控效果,我们使用了PETS(技术感知共情量表)中的情感响应维度作为7点李克特量表上的操控检验指标[34](例如,“AIMCA考虑了我的心理状态”,“在我处理情绪问题时,AIMCA提供了支持”)。通过配对样本t检验比较两种反应风格,发现共情条件与非共情条件之间存在显著差异[t(29) = 32.736, p < 0.001],共情反应条件下的感知共情程度(M = 5.09, SD = 0.29)高于非共情反应条件(M = 2.61, SD = 0.26)。因此,拟人化外观和共情反应的操控检验都被认为是有效的。

2.2 参与者
我们使用GPower 3.1进行了先验功效分析,以确定所需的样本量[35]。考虑到3 × 2的实验结构以及我们对拟人化与共情反应之间交互作用的关注,在GPower中采用了相对保守的设定,选择了F检验→ANOVA:重复测量,组内因素。我们将效应量设定为中等水平(Cohen’s f = 0.25)[36],显著性水平α = 0.05,统计功效为1 ? β = 0.90,并假设重复测量之间存在中等程度的相关性(ρ = 0.30)和球形性(ε = 1.00)。结果表明,至少需要N = 74名有效参与者才能检测到预期的效应。考虑到眼动追踪研究可能因校准精度不足、视线丢失或数据质量问题而需要排除参与者,我们计划招募比最低数量多10-15%的参与者,目标是82-86名参与者,以确保最终有效样本具有足够的功效。
参与者通过微信(一个中国社交媒体平台)和校园海报进行招募。共有85名来自深圳科技大学的本科生和研究生参与了这项研究。由于眼动追踪精度较低,有5名参与者的数据被排除在外。最终样本包括80名有效参与者(44名男性,36名女性),年龄在20-29岁之间(M = 23.63, SD = 2.37)。参与者来自不同的专业,包括机械工程、计算机科学、经济与贸易、设计和语言学。所有参与者身体健康,视力正常或经过矫正后达到正常水平,并且没有色盲、色弱或散光的问题。实验结束后,每位参与者获得了35元人民币或一杯咖啡作为补偿。

2.3 伦理批准和知情同意
本研究遵循《赫尔辛基宣言》的相关原则,并获得了深圳科技大学伦理审查委员会的批准(批准编号SZTU-IRP20250031)。在正式实验开始之前,所有参与者都被告知了研究的目的、实验程序、潜在风险以及数据的预期用途,并自愿提供了书面知情同意书。参与者被告知他们可以在任何阶段自由退出实验而不会受到任何不利后果。所有数据仅用于学术研究,并且以匿名方式进行处理、存储和分析。

2.4 设备
本研究使用了可穿戴式双目眼动追踪系统Tobii Pro Glasses 3来记录参与者的视觉行为。该设备基于角膜反射、暗瞳孔和立体几何原理估计注视点,采样率可以设置为50或100 Hz;在本研究中,采样率设置为100 Hz。根据官方产品规格,该设备的平均精度约为0.6°。同步的第一人称场景视频以1920 × 1080的分辨率和25 fps的帧率录制。对角线视野约为106°,水平和垂直视野分别约为95°和63°[37]。根据Tobii公开的数据质量文档,在受控测试条件下,Tobii Pro Glasses 3的平均精度约为0.03°,平均数据丢失率约为0.01%[38]。注视点映射、兴趣区域(AOI)定义和度量导出是使用Tobii Pro Lab(版本24.21)完成的。尽管本研究采用了基于屏幕的刺激任务,但可穿戴式眼动追踪器允许在相对自然的头部姿势下收集注视数据。为了减少映射误差对基于AOI的测量的影响,在实验过程中控制了观看距离并进行了分段漂移检查。排除低质量眼动追踪数据的标准如下:如果在初始校准或随后的分段验证过程中,平均验证误差在重新校准后仍高于预定义的阈值(本研究中为1.5°);如果在关键AOI附近观察到明显且持续的系统性偏移,导致注视点无法稳定地映射到相应的界面元素上;或者如果缺失的有效注视样本比例超过20%,则该参与者的眼动追踪数据将被排除在最终分析之外。这些阈值是根据AOI研究中通常推荐的1-1.5°的空间缓冲区确定的——有证据表明当精度超过1.0°时,AOI分类错误会增加,并且可穿戴式眼动追踪研究中通常会排除数据丢失严重的记录[39,40,41]。

2.5 实验程序
实验在一个隔音、照明稳定且温度舒适的 ergonomics 实验室中进行。到达后,每位参与者首先阅读研究说明并签署知情同意书,然后被引导进入一个标准化场景:他们被要求想象自己正在使用AIMCA进行在线健康咨询,并根据界面上呈现的线索立即做出判断。参与者在整个实验过程中保持坐姿,观看距离控制在大约60-70厘米。为了在使用可穿戴式眼动追踪时最小化注视点映射误差,指导参与者在实验过程中保持相对稳定的头部位置,并在必要时提醒他们回到标准坐姿。眼动追踪研究的报告和数据质量的描述遵循了现有的最佳实践建议和最低报告指南。
为了收集主观评价、眼动追踪数据和定性反馈,实验包括两个主要步骤。在正式实验开始之前,研究人员为每位参与者佩戴了Tobii Pro Glasses 3并进行了标准校准和验证;如果校准质量不符合要求,则重复校准,直到满足数据收集标准。在第一步中,参与者可以自由查看当前的AIMCA界面原型,没有时间限制,以便捕捉自然的注视行为和注意力分配。在第二步中,参与者按照自己的节奏完成对该界面的主观评价,从而提供他们对AIMCA的即时印象。评价完成后,系统会自动呈现下一个界面原型。为了控制顺序效应,每个参与者的刺激呈现顺序是随机的。在所有原型都被查看后,研究人员进行了简短的半结构化访谈,主要关注参与者对拟人化外观的第一印象、他们对共情反应的感知、判断信息可信度的依据以及他们对潜在风险的担忧。访谈内容围绕这些主题进行总结,其目的是为定量结果中的关键模式提供背景解释;因此,相关的访谈见解在第4节中呈现。每位参与者总共花费了大约25-30分钟。眼动追踪程序如图1所示。实验环境和照片记录如图2所示,其中A表示实验设备,B表示注视校准程序,C表示实验进行中,D表示从参与者第一人称视角看到的软件界面。

2.6 测量和眼动追踪指标
在本研究中,我们主要关注用户在使用AIMCA时的主观感知和视觉行为。评估量表包括两个构念,即感知信任和行为意图。所有测量都使用7点李克特量表进行评估(1 = 强烈不同意,7 = 强烈同意)。感知信任是使用Jian的研究中开发的自动化信任量表的改编版本进行测量的[42]。该量表在工程心理学和人因研究中被广泛采用,并长期以来被视为评估人类对自动化或AI系统信任的代表性工具之一[43,44]。行为意图是使用Venkatesh的研究中开发的量表进行测量的[45]。作为技术采纳研究中的核心结果变量,UTAUT行为意图量表已在健康技术和AI健康助手等情境中得到广泛应用,从而支持与现有HCI和健康信息学文献的 comparability[46,47]。
关于这两个量表的来源、项目组成、情境适应性和在本样本中的可靠性,这里提供了更多细节。感知信任量表包含五个项目,其中一个示例项目是:“TR1. 我相信这个AIMCA提供的建议通常是可靠的。”行为意图量表包含三个项目,其中一个示例项目是:“BI3. 我计划在不久的将来使用这个AIMCA。”这两个量表都根据AIMCA的情境进行了调整;具体来说,原本针对一般自动化系统或技术使用的条目被修改为反映与AIMCA相关的界面评估和使用判断。由于两个量表的原始版本都是英文的,因此采用了回译程序来保持跨语言的语义等效性[48,49]。具体来说,在2025年10月,我们邀请了一位应用语言学的研究人员将问卷翻译成中文。然后我们邀请了一位中文和英文都熟练的设计研究人员将中文版本翻译回英文。之后,我们与研究人员会面,比较了原始版本和回译版本,并根据研究情境进一步标准化了措辞,以确保项目的语义含义适合医疗对话代理的情境。在本样本中,感知信任量表的内部一致性为Cronbach’s α = 0.887,行为意图量表的内部一致性为Cronbach’s α = 0.893,表明这两个量表在本研究中具有良好的一致性。鉴于人类-自动化信任测量在概念边界和项目选择上的显著差异,明确报告量表的来源、适应程序和本样本的可靠性有助于提高结果的可比性和可重复性[44,50]。
为了分析眼动追踪数据,为每次试验定义了三个感兴趣的区域(AOIs):AIMCA的外观呈现区域、对话内容区域和整个界面区域。图3显示了具体的AOI划分。图3. AIMCA界面上每个AOI的定义。为了提高不同AOI之间的可比性,根据覆盖比例调整了AOI级别的眼动追踪测量。具体来说,首先计算了每个AOI的覆盖比例,如公式(1)所示:
??????????=????????????????????????????????????????????????????? (1)
其中AreaAOI表示AOI的像素面积,AreaStimulus表示相应刺激界面的总像素面积,pAOI表示该AOI在整个刺激界面中的覆盖比例。随后,分别对三个AOI的测量进行了标准化,如公式(2)-(4)所示:
????????????????=??????????????????????? (2)
???????????????????=?????????????????????????? (3)
????????????????=??????????????????????? (4)
其中FCraw表示原始注视次数,MFDraw表示原始平均注视持续时间,DTraw表示原始停留时间。FCnorm、MFDnorm和DTnorm分别表示调整后的注视次数、平均注视持续时间和停留时间。这种程序有助于减少AOI差异对度量值的直接影响,从而使跨AOI的描述性比较更多地关注注意力投入和停留特征,而不是区域大小本身。先前关于兴趣区域(AOIs)的方法学研究表明,AOI的大小、形状和位置会直接影响AOI的统计结果,因此相关操作程序需要在方法部分中明确报告。在实证研究中,通常通过控制AOI面积或基于覆盖率的标准化来处理尺寸效应[33,51,52]。因此,本研究中报告的所有AOI的描述性统计均基于上述定义的标准化值。在解释层面,注视次数和停留时间更直接反映了单位面积上的注意力投入强度,而平均注视持续时间则用于进一步描述给定单位面积内的停留特征。将这三个指标放在相同的AOI调整框架内有助于保持AOI层面的统计标准一致性,并提高跨AOI比较的可解释性。

3. 结果
在本研究中,感知信任和行为意图被视为主要结果变量,而AOI层面的眼动追踪测量结果被视为过程导向的次要结果变量。因此,第3.1节主要旨在检验与H1a–H3b相对应的主观结果假设,而第3.2节主要旨在解决关于视觉注意力分配模式的探索性研究问题RQ1。主观量表数据和眼动追踪数据均使用重复测量方差分析(repeated-measures ANOVA)进行统计分析,所有统计分析均在SPSS 25.0中完成。选择这种分析框架有三个原因:首先,该研究采用了完全平衡的3(拟人化程度:高/中/低)× 2(共情反应:存在/不存在)的被试内因子设计;其次,研究问题关注条件层面的主效应和交互效应;第三,所有测量值都是以条件聚合的形式进入分析的。在这种情况下,重复测量方差分析直接对应于研究的理论问题,并便于报告主效应、交互效应及其效应大小[13,25]。在这个分析框架内,每个实验条件下的三个平行原型首先用于刺激采样和随机呈现,然后在条件层面进行聚合以进行主要分析。因此,本研究中报告的统计推断主要针对两个固定实验因素的效应结构,即拟人化程度和共情反应。

对于眼动追踪数据,分别对三个预定义AOI的注视次数、平均注视持续时间和停留时间进行了重复测量方差分析,以研究不同设计线索如何影响注意力分配和停留行为模式。分别分析每个AOI和每个指标的原因是,整体界面区域、外观区域和对话内容区域在功能上是不同的,而这三个指标分别捕捉了注意力参与的频率、局部停留特征和总体时间投入。因此,单独分析有助于保持AOI解释和指标含义之间的一致性[33]。除非另有说明,否则第3.2节报告的AOI层面描述性统计和后续推断分析均基于第2.5节中描述的调整后的测量值。因此,第3.2节报告的M和SD值是标准化值。

对于涉及三水平被试内因素的所有效应,首先检验了球形性假设。当球形性假设不成立时,应用了Greenhouse–Geisser校正,并报告了校正后的自由度和显著性水平。如果任何眼动追踪指标显示出明显的偏态分布,在分析前应用了对数或平方根变换以改善正态性和方差同质性,之后再进行相同的统计测试[53]。关于多重比较,所有事后成对比较均使用了Bonferroni校正。鉴于眼动追踪分析同时涉及多个AOI和多个结果指标,解释主要关注预定义的AOI结构、效应大小以及指标和区域之间的一致性模式,以提高过程导向发现的可解释性。最近的眼动追踪研究在处理分组比较时也普遍采用了Bonferroni或Holm–Bonferroni校正,从而提高了多重比较报告的透明度[54,55]。

此外,由于本研究中的每个条件包含多个原型实例,基于试验级数据的混合效应模型可以提供更细致的方式来处理参与者内的重复观察和刺激实例间的变化,特别是在参与者和刺激都包含在随机效应结构中的情况下[51]。然而,考虑到当前的样本量、研究目的以及使用条件级聚合观察作为分析单位,因此采用了重复测量方差分析作为主要分析框架。关于建模刺激级变异性和扩展分析的混合效应模型的价值将在“局限性”部分进一步讨论。

表2提供了结果概览。总体而言,AIMCA的拟人化外观和共情反应对用户的感知信任和行为意图有显著的主效应,并在主观结果层面形成了交互效应。相比之下,眼动追踪结果主要显示了部分显著的主效应,没有观察到稳定的交互模式。

3.1. 自我报告结果
在呈现主观结果的分析之前,应指出在本样本中,两种自我报告量表都表现出良好的内部一致性。分别进行了重复测量方差分析,以考察用户对AIMCAs的信任及其在不同拟人化程度(高、中、低)和共情反应(存在/不存在)下的行为意图。表3展示了不同实验条件下感知信任和用户行为意图的均值(及标准差)。重复测量方差分析表明,拟人化程度[F(2, 158) = 726.20, p < 0.001, ηp2 = 0.902]和共情反应[F(1, 79) = 226.46, p < 0.001, ηp2 = 0.741]对用户的感知信任有显著的主效应。此外,我们还观察到拟人化程度和共情反应之间存在显著的交互作用[F(2, 158) = 5.42, p = 0.005, ηp2 = 0.064]。如表3所示,在所有外观条件下,具有共情反应的AIMCAs获得的信任评分高于没有共情反应的AIMCAs。图4说明了这种交互作用:共情反应在所有拟人化程度上都增加了信任,且随着拟人化程度的增加,信任增加的幅度也越大,表明较强的拟人化线索带来了更大的共情相关信任收益。事后分析进一步显示,在高(p < 0.001)、中(p < 0.001)和低(p < 0.001)拟人化程度下,具有共情反应的AIMCAs的感知信任高于没有共情反应的AIMCAs。同样,在共情(p < 0.001)和非共情(p < 0.001)反应条件下,感知信任也遵循一定的顺序模式,即高拟人化程度最高,中等拟人化程度次之,低拟人化程度最低。总体而言,对于感知信任这一结果变量,拟人化程度和共情反应的主效应以及两者之间的交互效应均达到了统计显著性,表明H1a、H2a和H3a均得到支持。

3.2. 眼动追踪结果
为了回答RQ1,本研究进一步探讨了不同AOI之间的视觉注意力分配模式,作为拟人化程度和共情反应的函数。与主观结果不同,眼动追踪结果主要表现为部分显著的主效应,总体上没有观察到稳定的交互效应。这表明这两种社会线索在视觉处理层面的效应结构并不完全对应于它们在主观判断层面的协同模式。

3.2.1. 整体界面区域的眼动追踪指标
表4展示了AIMCA整体界面区域的眼动追踪指标的调整后描述性统计。重复测量方差分析显示,拟人化程度和共情反应对注视次数有显著的主效应:拟人化程度的主效应显著,F(2, 158) = 46.88, p < 0.001, ηp2 = 0.372;共情反应的主效应也显著,F(1, 79) = 90.69, p < 0.001, ηp2 = 0.534。未观察到拟人化程度和共情反应之间的交互作用(p > 0.05)。注视次数的事后比较进一步明确了这一模式(图5)。高度拟人化的AIMCAs(M = 0.820, SD = 0.405)比低拟人化的AIMCAs(M = 0.765, SD = 0.385, p < 0.001)引发了更多的注视,中等拟人化的AIMCAs(M = 0.800, SD = 0.395)也比低拟人化的AIMCAs(M = 0.765, SD = 0.385, p < 0.001)引发了更多的注视。高拟人化程度和中等拟人化程度之间的差异不显著(p = 0.401)。在共情反应方面,具有共情反应的AIMCAs(M = 0.860, SD = 0.430)比没有共情反应的AIMCAs(M = 0.730, SD = 0.360, p < 0.001)吸引了更多的注视。表4. AIMCA整体界面区域的眼动追踪指标描述性统计。图5. AIMCA整体界面区域的眼动追踪指标的多重比较。***表示p < 0.001的统计显著性。对于平均注视持续时间,重复测量方差分析同样显示拟人化程度和共情反应有显著的主效应:拟人化程度,F(2, 158) = 30.85, p < 0.001, ηp2 = 0.281;共情反应,F(1, 79) = 69.35, p < 0.001, ηp2 = 0.467。未观察到拟人化程度×共情反应的交互作用(p > 0.05)。事后结果显示,共情反应条件(M = 3.240, SD = 0.960)与非共情反应条件(M = 3.410, SD = 1.083; p < 0.001)之间存在显著差异,表明共情反应显著改变了用户在整体界面区域的信息处理方式,这体现在平均注视持续时间上。

对于停留时间,重复测量方差分析再次显示拟人化程度和共情反应有显著的主效应:拟人化程度,F(2, 158) = 11.71, p < 0.001, ηp2 = 0.129;共情反应,F(1, 79) = 50.48, p < 0.001, ηp2 = 0.390。未观察到交互作用(p > 0.05)。停留时间的事后比较(图5)显示,高度拟人化的AIMCAs(M = 196.850, SD = 87.215)比低拟人化的AIMCAs(M = 184.550, SD = 83.675, p < 0.001)的停留时间更长,中等拟人化的AIMCAs(M = 190.250, SD = 85.390)也比低拟人化的AIMCAs(M = 184.550, SD = 83.675, p < 0.001)的停留时间更长。高拟人化程度和中等拟人化程度之间的差异不显著(p = 0.338)。在共情反应方面,具有共情反应的AIMCAs(M = 207.233, SD = 90.310)比没有共情反应的AIMCAs(M = 173.867, SD = 80.543, p < 0.001)引发了更长的停留时间。

3.2.2. 代理外观区域的眼动追踪指标
表5展示了AIMCA外观区域的眼动追踪指标的调整后描述性统计。重复测量方差分析(ANOVA)显示,外观拟人化对所有三项眼动测量指标都有显著的主效应:注视次数,F(2, 158) = 460.19,p < 0.001,ηp2 = 0.853;平均注视持续时间,F(2, 158) = 78.73,p < 0.001,ηp2 = 0.499;以及停留时间,F(2, 158) = 510.83,p < 0.001,ηp2 = 0.866。相比之下,共情反应的主效应在所有三项指标上都不显著,外观与共情反应的交互作用也不显著(所有p值 > 0.05)。表5显示了AIMCA外观区域的眼动指标的描述性统计结果。如表5中的描述性统计数据和图6中的事后多重比较图所示,高拟人化条件下的注视次数(M = 3.18,SD = 0.30)显著高于低拟人化条件(M = 1.05,SD = 0.20,p < 0.001)。中等拟人化条件下的注视次数(M = 2.97,SD = 0.29)也显著高于低拟人化条件(M = 1.05,SD = 0.20,p < 0.001)。然而,高拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.277)。总体而言,更强的外观拟人化会引发更多的注视次数,而共情反应并没有导致注视次数的持续变化。图6显示了AIMCA外观区域眼动指标的多重比较结果。***表示p < 0.001的统计显著性。高拟人化条件下的平均注视持续时间为124.26毫秒(SD = 9.12),显著长于低拟人化条件下的77.95毫秒(SD = 7.34,p < 0.001)。中等拟人化条件下的平均注视持续时间(M = 118.10毫秒,SD = 8.65)也显著长于低拟人化条件(M = 77.95毫秒,SD = 7.34,p < 0.001)。高拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.301)。综上所述,更强的外观拟人化延长了外观兴趣区域(AOI)内的平均注视时间,而共情反应并没有在这一指标上产生稳定的影响。对停留时间的事后比较进一步阐明了这一模式。如图6所示,高拟人化条件下的停留时间为628.58毫秒(SD = 55.41),显著长于低拟人化条件下的208.26毫秒(SD = 33.22,p < 0.001)。中等拟人化条件下的停留时间(M = 582.47毫秒,SD = 48.84)也显著长于低拟人化条件(M = 208.26毫秒,SD = 33.22,p < 0.001)。然而,高拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.075)。这种模式表明,增加的外观拟人化显著增加了外观AOI内的整体注视停留时间,而共情反应不足以进一步放大这一效应。

3.2.3 对话内容区域的眼动指标
表6展示了AIMCA对话内容区域眼动指标的面积调整后的描述性统计结果。重复测量方差分析显示,外观拟人化[F(2, 158) = 103.49,p < 0.001,ηp2 = 0.567]和共情反应[F(1, 79) = 85.07,p < 0.001,ηp2 = 0.518]对注视次数有显著的主效应。未观察到交互效应[F(2, 158) = 1.98,p = 0.141]。对注视次数的事后比较进一步阐明了这一模式(图7)。具体来说,低拟人化AIMCAs(M = 1.32,SD = 0.21)比高拟人化AIMCAs(M = 0.86,SD = 0.19,p < 0.001)吸引了更多的注视次数,中等拟人化AIMCAs(M = 1.18,SD = 0.22)也比高拟人化AIMCAs(M = 0.86,SD = 0.19,p < 0.001)吸引了更多的注视次数。低拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.094)。关于共情反应,具有共情反应的AIMCAs(M = 1.22,SD = 0.20)比没有共情反应的AIMCAs(M = 1.02,SD = 0.19,p < 0.001)吸引了更多的注视次数。表6显示了AIMCA对话内容区域眼动指标的描述性统计结果。图7显示了AIMCA对话内容区域眼动指标的多重比较结果。***表示p < 0.001的统计显著性。对于平均注视持续时间,重复测量方差分析再次显示外观拟人化[F(2, 158) = 30.11,p < 0.001,ηp2 = 0.276]和共情反应[F(1, 79) = 45.25,p < 0.001,ηp2 = 0.364]有显著的主效应,两者之间没有交互作用[F(2, 158) = 2.52,p = 0.084]。事后比较(图7)表明,低拟人化AIMCAs的平均注视持续时间(M = 7.67,SD = 0.46)比高拟人化AIMCAs(M = 7.11,SD = 0.39,p < 0.001)更长,中等拟人化AIMCAs的平均注视持续时间(M = 7.42,SD = 0.36)也比高拟人化AIMCAs(M = 7.11,SD = 0.39,p < 0.001)更长。低拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.591)。关于共情反应,没有共情反应的AIMCAs的平均注视持续时间(M = 7.81,SD = 0.40)比有共情反应的AIMCAs(M = 6.98,SD = 0.36,p < 0.001)更长。对于停留时间,重复测量方差分析显示外观拟人化[F(2, 158) = 13.92,p < 0.001,ηp2 = 0.150]和共情反应[F(1, 79) = 76.12,p < 0.001,ηp2 = 0.491]有显著的主效应,两者之间没有交互效应[F(2, 158) = 0.85,p = 0.431]。事后比较(图7)显示,低拟人化AIMCAs的停留时间(M = 254.62,SD = 15.89)显著长于高拟人化AIMCAs(M = 220.76,SD = 16.03,p < 0.001),中等拟人化AIMCAs的停留时间(M = 239.34,SD = 15.05)也比高拟人化AIMCAs(M = 220.76,SD = 16.03,p < 0.001)更长。低拟人化条件与中等拟人化条件之间的差异并不显著(p = 0.331)。关于共情反应,有共情反应的AIMCAs的停留时间(M = 272.94,SD = 14.39)比没有共情反应的AIMCAs(M = 203.54,SD = 13.77,p < 0.001)更长。

4. 讨论
为了研究拟人化外观和共情反应对用户对AIMCAs的主观感知和视觉行为的影响,本研究设计了具有三个拟人化程度和两种共情反应类型的AIMCAs,并使用眼动追踪和主观评估方法记录了用户的眼动数据和感知。结果表明,AIMCAs的拟人化外观和共情反应对用户的视觉行为和感知既有共同影响也有不同影响。研究进一步表明,拟人化外观和共情反应共同增强了用户的信任感和行为意图。相比之下,在用户的视觉行为中没有发现这种交互效应。具有更高拟人化程度和共情反应的AIMCAs吸引了更多的注视次数和更长的停留时间。总体而言,这些发现表明,在当前的原型观看任务中,拟人化外观和共情反应可以共同塑造用户对AIMCAs的主观感知,并影响他们的视觉注意力分配。

4.1 对用户感知的影响
综合来看,实证研究结果表明,嵌入在AIMCA对话中的基于外观的拟人化线索和共情反应线索显著影响了用户对系统的主观感知,特别是他们的初始信任判断和短期使用意图。更重要的是,这两种社会线索不仅产生了叠加效应,还表现出增强效应。当视觉体现和共情反应在“人性化”和“温暖”这两个维度上相互强化时,用户更有可能将系统解读为一个具有社交存在感和交流意图的交互实体,从而提高了他们对系统的专业性、善意和可靠性的整体评价[12]。简短的实验后访谈反馈进一步支持了这一模式。关于外观的第一印象,参与者通常将高度拟人化的界面描述为更类似于真实的咨询伙伴,并且更愿意接近或继续探索。关于语言风格,具有共情反应的界面使他们“感到被理解”,或者更愿意继续阅读。这些观察结果与主观研究的方向一致,表明外观线索主要影响第一印象和接近倾向,而共情线索则更直接地影响互动氛围和内容接受过程。

首先,关于拟人化外观如何影响用户感知的机制,拟人化外观本质上是一个强烈的社会线索。它可以激活用户的社交存在感和拟人化归因,使他们更有可能通过人际框架来解释系统行为,并在此基础上形成更强的关系信任和更高的沟通期望。先前的健康相关研究表明,拟人化线索可以通过增强社交存在感和支持信任形成来促进对健康对话代理的接受和持续使用意图[12,19]。因此,当AIMCA具有更强的拟人化外观时,用户更有可能认为它是一个能够回应和理解他们的社交实体,从而促进更积极的初始信任判断,并增加他们进一步评估和使用系统的意愿。

其次,共情反应对用户感知的影响更多地与互动过程的情感和关系质量相关。在医疗沟通中,用户经常经历不确定性和感知风险。通过承认情感并表达理解和支持,共情反应可以减少沟通威胁感,增强被关注的感觉,从而显著提高用户对信息质量和互动体验的整体评价。现有研究通过不同的证据支持这一点。在公共卫生问答情境中,临床医生对AI聊天机器人回应的共情和整体质量的评价通常不低于人类生成的回应,表明在语言层面上表达的共情本身可以显著提升感知体验[56]。此外,在回答与癌症相关的问题时,患者也可能认为AI生成的回复更具共情性。同时,研究强调这种感知到的共情更可能源于语言策略和文本模式,而不是真实的情感体验[15]。因此,AIMCAs中的共情反应是一个重要的沟通线索,它塑造了用户的初始判断和短期接受倾向,特别是在需要安慰、解释和陪伴的医疗互动场景中。

第三,本研究中观察到的外观与共情之间的互动模式可以用线索一致性和期望确认来解释。拟人化外观提高了用户对系统将以类似人类的方式沟通的期望,而共情反应则满足了这一期望,从而产生了系统值得信赖和可用性的更稳定判断。相反,如果外观强烈暗示了社交性,而语言回应缺乏共情和关怀,用户可能会感到不匹配,即系统看起来像人类,但说话像机器,从而削弱了关系信任。换句话说,用户不是分别评估外观和语言;而是评估整个系统是否呈现出连贯的个性和互动意图。另一组访谈回答更多地关注诸如“信息是否有依据”、“内容是否可信”以及“我是否还会进一步验证”之类的判断。这些陈述表明,拟人化外观和共情反应可以增加用户的初始接受度和继续阅读的意愿,但他们对系统可信度的最终判断仍然与内容依据、解释的清晰度和风险意识密切相关。这一补充观察与后来关于信任校准的讨论相符。这也与健康对话代理文献中的实证研究一致,这些研究探讨了拟人化线索、社交存在感、信任和采纳或持续使用之间的联系[12,19]。

最后,增加信任不应等同于最大化无条件的信任,而应朝着信任校准的方向进行。在健康相关情境中,拟人化和共情线索可能会提升用户的感知,但这也可能引入不适当的依赖和对系统能力的过高估计。最近一项关于医疗AI信任的系统性回顾表明,影响信任的因素不仅包括系统的透明度、可靠性和安全性,还包括情境适应性和个体差异。因此,信任应该被设计为一个动态状态,可以通过证据来支持,并在必要时进行修正[57]。同时,卫生系统层面的讨论强调,将人工智能整合到医疗服务中将重新配置患者、临床医生、机构和技术之间的信任网络,而可持续的信任必须通过问责机制、验证和治理来维持[58]。因此,在开发具有人工智能和同情心的医疗辅助系统(AIMCAs)时,尽管追求拟人化和同理心带来的感知优势,设计师还应结合可解释和可验证的边界线索和信息结构,以便通过适当的解释形式引导用户做出与系统实际能力相符的信任和使用决策[59]。

4.2. 对用户视觉行为的影响
从眼动追踪结果的总体模式来看,拟人化外观和同理心反应显著改变了用户的注意力分配。然而,在视觉行为层面,这些效应主要表现为独立的主效应,而不是稳定的协同交互效应。这一模式与最近关于聊天机器人中拟人化线索的眼动追踪研究一致:尽管拟人化外观和类似人类的对话风格在主观感知中通常会产生更强的联合效应,但它们在注视次数、平均注视持续时间和停留时间等视觉测量指标上并不一定表现出同等强度的交互作用[13]。
首先,整体界面层面的眼动追踪结果表明,这两种类型的线索共同增加了用户的视觉参与度,尽管它们对视觉停留模式的影响并不完全相同。一般来说,注视次数和停留时间与注意力投入和观看覆盖范围更为直接相关,而平均注视持续时间则更紧密地反映了单次注视内的信息处理强度或瞬时认知负荷[60,61]。因此,当结果显示同理心反应增加了总体注视和停留时间,但在平均注视持续时间上产生了不同的方向模式时,更谨慎的解释是同理心反应不仅吸引了更多的视觉注意力,还影响了用户在浏览界面时的视觉停留方式。换句话说,在保持较高参与度的同时,用户改变了他们处理信息的方式,表现出一种以持续参与为特征的视觉交互模式,但停留节奏有所调整。
其次,在外观关注区域(AOI)中,视觉行为的变化主要由外观拟人化的强度驱动,而同理心反应的效果并不显著。这一发现与现有解释一致,即更类似人类的外观更有可能吸引视觉注意力:具有更强拟人化特征的外观更有可能成为用户优先关注并继续检查的视觉对象,从而显著增加对该区域的注视和停留时间[62]。同时,关于拟人化线索的研究表明,某些类似人类的特征可能首先影响用户的初始注意力方向和持续注意力,随后通过注意力分配影响后续的感知和情感处理[63]。因此,外观AOI的结果可以更简洁地总结如下:拟人化外观作为一种强烈的视觉社交线索,优先竞争注意力资源并产生更强的视觉停留;相比之下,同理心反应是一种语言层面的线索,其主要影响领域不在外观区域,因此不太可能在外观AOI指标上产生稳定的增益。
第三,在对话内容AOI中观察到的注意力分配模式逆转在理论上是重要的。当外观拟人化较弱时,用户更频繁地注视文本内容区域,在那里停留的时间更长,平均注视持续时间也更长。一些实验后的访谈反馈显示了类似的倾向:当嵌入在外观中的社交线索较弱时,参与者更有可能将注意力转移到文本本身,并围绕“我想进一步确认信息是否充分”和“这些信息是否有可信依据”等问题形成判断。这些主观报告与内容区域中观察到的更大注视和停留趋势一致,有助于解释在低拟人化条件下的内容参与度增强模式。这种模式可以理解为反映了更高的内容参与度和更加谨慎的阅读方式。在医疗环境中,当用户面临高不确定性和潜在风险时,他们更有可能依赖重复阅读、整合和验证内容本身来形成判断。当外观线索不足以支持快速的社会判断时,注意力资源更有可能重新转移到文本证据上,从而在内容区域产生更高的视觉处理负荷[60,61]。换句话说,“更多地看”和“看更长时间”并不一定意味着更好的体验;这也可能表明用户在理解、比较和审查信息上投入了更多资源。
此外,同理心反应在对话内容AOI中表现出复合效应:一方面,它产生了更多的注视和更长的停留时间;另一方面,平均注视持续时间也相应地发生了变化。这表明同理心反应不仅仅以简单的方式吸引注意力,还塑造了交互的社交背景,从而影响了用户跟随内容的方式和保持阅读参与度的方式。同理心语言可以减少感知到的沟通威胁,并增强被理解的感觉,使用户更愿意继续阅读对话内容并保持参与。相应地,关于临床沟通的相关眼动追踪研究也发现了同理心和注视行为之间的可观察联系,表明同理心线索不仅影响主观评价,还影响注意力分配和沟通的更基本过程[64]。因此,本研究更好地解释为同理心反应增强了用户对对话内容的持续参与,并影响了他们的信息阅读和组织方式。
最后,视觉行为的研究结果共同指向了一个具有明确实际相关性的设计原则。AIMCAs的拟人化外观更适合作为建立存在感和启动交互的入口线索,但它应避免过度消耗本应支持内容理解的注意力资源。相比之下,同理心反应更适合作为语言层面的线索,用于维持交互参与和支持对内容的关注,并应与结构化信息呈现相结合,如关键点的划分、风险提醒、行动建议和可验证的证据,以确保用户的注意力最终集中在与决策相关的核心信息上。在关于拟人化和多模态交互的研究中也观察到了类似的多线索注意力分配模式:不同的拟人化渠道通常服务于不同的注意力功能,真正有效的组合不仅仅是简单地增强“人类相似性”,而是使不同的线索协同工作以支持任务目标[13,63]。

4.3. 拟人化外观和同理心反应的综合测量
综合测量方法的价值在于将全局结果变量与过程导向的证据联系起来,从而能够更细致地说明不同的设计线索如何影响用户判断的形成。在本研究中,拟人化外观和同理心反应在信任和行为意图层面显示出明显的共同增强作用,而在眼动追踪层面,它们主要反映在不同AOI之间的注意力分配差异上。这表明用户的整体判断与其即时视觉过程之间存在层次差异:前者与界面外观、语言风格和医疗环境的综合评估更为相关,而后者揭示了这些线索在浏览过程中进入和停留的具体方式。与关于对话代理的相关研究结果一致,这种“更强的主观整合但更区域特定的视觉差异”模式有助于解释不同的社交线索在判断形成中的不同功能[13,65]。
这种差异,即主观判断更容易整合,而眼动追踪模式在功能上更为区分,并不矛盾;相反,它为理解潜在机制提供了重要的边界条件。眼动追踪测量更直接地反映了注意力资源的即时分配,并受到界面显著性、阅读策略和任务目标的限制。相比之下,主观评价代表了用户在整合外观线索与对话体验后对系统角色的一致性、善意和可靠性的整体推断。因此,当拟人化外观增强了系统作为社交代理的框架时,同理心反应更可能被解释为关怀和理解,而不是脚本化的策略,从而在态度层面产生更强的信任和采用倾向。然而,在视觉层面,同理心并不一定将注意力重新导向外观区域;相反,它更可能通过改变对话理解的节奏和风险评估的方式来影响内容区域的处理策略。这种解释与健康对话代理研究中确定的路径一致,这些路径将拟人化、社交存在、信任和采用联系起来[12,19]。
从方法论的角度来看,综合测量还允许讨论从信任增强转向信任校准。信任量表本身具有构建扩散和测量工具激增的特点,因此单一的自我报告指标无法轻易区分真正的依赖和仅仅表达的信任[50]。同时,使用眼动追踪来评估信任并不反映稳定或单调的关系;根据任务和界面的不同,注意力测量可能显示出不同的方向模式或仅与信任有弱关联。因此,眼动追踪更适合作为过程导向的补充,而不是替代主观判断[66]。在这个意义上,本研究采用的综合测量框架不仅揭示了拟人化外观和同理心反应如何塑造用户的主观判断和视觉过程,还为设计迭代提供了诊断视角。当主观信任增加但对关键内容区域的关注仍然不足时,可以进一步加强边界线索和可验证的信息结构。当对内容区域的关注相对较高但评价仍然谨慎时,可以优化信息组织和解释支持,以降低理解成本并促进与系统能力相匹配的信任形成。

5. 意义和局限性
5.1. 意义
本研究关注AIMCAs中的两个关键社交线索,即拟人化外观和同理心反应,这些线索是可以有意设计的,从而解决了先前研究的局限性,后者通常分别研究这两种类型的线索,并主要依赖于自我报告量表,难以捕捉注意力分配和信息处理的过程。在医疗保健的高风险和高不确定性环境中,这种从设计线索到感知判断再到处理机制的综合证据链有助于解释用户如何形成初始信任判断、短期使用意图以及他们在评估界面原型时的可能界限和偏见。
在理论层面,本研究系统地考察了拟人化外观和同理心反应对信任、行为意图和视觉注意力的影响结构,从外观线索和沟通线索的结合角度出发。研究结果表明,这两种类型的社交线索在主观评估层面可以产生明显的共同增益,同时在视觉层面上显示出不同的功能重点。这些结果扩展了我们对AIMCA评估过程的理解,使研究人员能够捕捉到整体判断结果和视觉分配过程,从而更全面地解释用户在具有风险和不确定性的医疗环境中如何形成接受判断。
在方法论层面,本研究采用了受控的被试内实验,并结合了主观量表和眼动追踪测量。这种方法不仅能够将信任和行为意图作为结果变量进行测试,还能在AOI层面提供过程导向的证据,从而减少了仅依赖自我报告数据来解释注意力分配和信息处理的局限性。同时,使用静态原型确保了视觉呈现的标准化和感兴趣区域(AOI)定义的稳定性,使得研究结果更容易被复制,并便于在未来的研究中跨不同界面和任务进行比较验证。在实际应用层面,这项研究为具有人形化外观的AI医疗聊天代理(AIMCAs)的设计提供了更实用的基础,以及增强同理心反应的策略。一方面,具有人形化外观可以作为一种强烈的视觉线索,塑造用户的初步印象并引导他们的注意力焦点;另一方面,同理心反应可以作为关键的沟通线索,提升互动体验和信任判断。更重要的是,这两种类型的线索需要在视觉呈现和语言风格上保持一致,以减少不协调和不当的期望,并支持与系统能力相匹配的初始信任判断和短期使用决策。

总之,这项研究的意义不仅在于识别哪些设计线索更有可能引发积极的评价,还在于提供了一个评估框架,以支持迭代设计。通过同时考察主观感知结果和视觉过程证据,该研究有助于提升可用性和信任校准,并为后续在更真实医疗环境中的系统验证和设计迭代提供了更强的人因工程学和交互基础。

5.2. 限制与未来研究方向
本研究存在几个局限性。首先,样本主要来自单一大学的本科生和研究生,因此代表了一个相对年轻、年龄范围集中、教育水平较高且对数字技术有相似经验的群体。虽然这样的样本有助于在受控实验条件下减少因背景差异带来的额外变异,但也意味着目前的发现更适合作为年轻且受教育程度较高的用户在原型查看和短期评估情境下的早期判断的证据。相比之下,潜在的AIMCA用户在年龄、健康状况、疾病严重程度、数字素养和技术使用经验等方面更加多样化,这些差异本身可能会影响用户对具有人形化外观、同理心反应、信息可信度和使用风险的判断。实际的医疗聊天代理用户涉及不同的健康任务和人群群体,老年人对医疗聊天代理和AI健康技术的接受程度也可能受到技术焦虑、身体状况、使用条件以及先前经验等因素的影响[4,43]。因此,目前发现对老年人、慢性病患者或数字素养较低的用户群体的适用性需要进一步研究。

其次,实验刺激物包括静态界面原型和预定的对话内容,因此基于假设的咨询场景进行了短期、非交互式的评估。这种设计有助于标准化视觉呈现并稳定眼动追踪分析中的AOI定义,从而更清晰地识别出这里研究的两种社会线索(即具有人形化外观和同理心反应)在原型层面的效果。然而,它无法完全捕捉到真实AIMCA互动的几个关键特征,如多轮提问和澄清、上下文记忆、对用户输入的实时适应、对话过程中的情绪变化以及由响应时机和互动连续性产生的参与感。真正的生成式医疗对话系统和语音代理可以支持更敏感于上下文的实时互动,用户在使用过程中的关系体验和参与感可能同时受到情感共鸣、安全感、目标一致性以及互动过程本身的影响[5,67]。同时,关于同理心代理原型的研究表明,用户本身可能在识别原型中体现的同理心程度时遇到困难,这表明在静态或原型化设置中对同理心的感知可能与实际使用中的体验不完全等同[68]。因此,目前的发现最好理解为关于界面原型查看、初步印象形成和短期评估的早期证据。它们可以有效揭示具有人形化外观和同理心反应如何影响用户的初始判断,但仍需要在可运行系统和更自然的互动任务中进行进一步验证,以解释在真实交互系统中持续对话过程中同理心、信任和参与感的演变。

第三,信任和行为意图是主观判断。尽管它们反映了用户的态度,但不能直接等同于实际的依赖性和行为采纳,特别是在医疗环境中,增加的信任可能伴随着能力高估和自动化偏见的风险[59]。眼动追踪测量结果也需要谨慎解释。尽管可穿戴眼动追踪在基于屏幕的刺激任务中具有优势,因为它允许参与者保持相对自然的姿势,但注视映射和AOI定义仍可能受到头部运动、漂移以及界面元素密度的影响,这可能会降低某些测量对细微差异的敏感性。同时,本研究主要使用固定次数、平均注视持续时间和停留时间等经典指标。尽管这些指标可以反映注意力投入和处理节奏,但在更细致的认知策略方面仍存在解释空间。例如,较长的观看时间可能表明更高的参与度,但也可能反映更高的理解成本或验证风险相关信息的更强动机[25,26]。

此外,本研究的主要分析基于条件水平的重复测量方差分析(ANOVA)。这种策略适用于解决3 × 2被试内因子操作下的主要效应和交互效应问题,并且也有助于与现有关于聊天代理的眼动追踪研究在结果呈现和效应大小报告方面进行比较[13]。同时,为每个人形化水平创建了三个相似的原型,这有助于减少单个界面实例对结果的偶然影响,并允许基于更广泛的刺激集估计条件效应。鉴于本研究的研究目标和分析单元,所有主观评估和眼动追踪测量主要在条件水平上进行了汇总和分析,涉及外观具有人形化和同理心反应两个实验因素。因此,目前的发现主要支持这两种设计线索在条件层面的效应结构,而在单个刺激实例层面的差异估计仍有进一步细化的空间。同时,由于眼动追踪分析涉及多个AOI和多个结果指标,并且每个条件包含多个并行原型实例,未来的研究可以基于试验级数据,进一步采用线性或广义线性混合效应模型,将参与者和刺激实例纳入随机效应结构中,并在更统一的框架内重新检验结果的稳健性[33,51]。

未来的研究可以从三个方向进行。首先,应通过纳入更具代表性的用户群体和更接近实际使用的健康任务来加强外部有效性和适用性,包括年龄、健康焦虑、疾病严重程度和AI素养不同的参与者,并在真实的在线咨询或半自然环境中进行后续验证,以测试在高风险决策情境下发现的稳定性和边界条件[7,11]。其次,应通过将原型评估扩展到可运行系统和多轮对话,并考虑生成模型在真实情境中的不确定性和错误风险,来增强互动的真实感,从而进一步研究具有人形化外观和同理心反应在长期使用中的变化,以及它们在错误发生时如何影响信任恢复和依赖性调整[6]。第三,应加强信任校准和以安全为导向的指标。除了态度量表外,未来的研究还应纳入客观的行为测量和决策质量指标,如信息理解和记忆、风险识别、推荐采纳和验证行为,并测试边界提示、可验证证据的呈现以及不同的解释策略是否可以同时改善用户体验并减少自动化偏见,从而支持更安全和可持续的医疗AI使用[59]。

6. 结论
本研究系统地考察了AIMCAs中的两种社会线索——具有人形化外观和同理心反应——对用户感知和视觉注意力的影响,结合了主观评估和眼动追踪。研究发现,在基于假设咨询场景的静态原型查看任务中,具有人形化外观和同理心反应都改善了用户的主体体验,增强了他们的初始信任判断和短期使用意图。这两种类型的线索在主观感知层面表现出协同效应,表明当视觉呈现和语言风格在社会上保持一致时,用户更有可能形成连贯的角色印象和更积极的整体判断。在视觉行为层面,具有人形化外观和同理心反应表现出不同的注意力分配模式。具有人形化外观更强烈地影响了用户在外观区域的视觉停留时间,而同理心反应则与对整个界面和对话内容的持续关注更为相关。通过将主观感知结果与眼动追踪证据相结合,本研究不仅识别出哪些设计线索更有可能在原型评估中引发积极评价,还进一步展示了这些评价在视觉过程中的发展过程。

基于这些发现,AIMCAs的设计应从早期原型阶段就开始关注外观线索和对话策略,特别强调一致性和适度性。具有人形化外观适合建立存在感并启动互动,而同理心反应则更适合减少感知到的沟通威胁并增强被理解的感觉。同时,将这些线索与边界提示、风险披露和可验证的信息结构结合起来,可以帮助优化用户在原型浏览和简要评估期间的界面理解、初始判断和短期使用意图,同时为后续在更真实交互环境中的系统验证提供设计基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号