一项随机因子实验,旨在优化针对不同文化背景定制的乳腺癌筛查外展聊天机器人干预方案的设计
《Frontiers in Digital Health》:A randomized factorial experiment to optimize the design of a culturally tailored breast cancer screening outreach chatbot intervention
【字体:
大
中
小
】
时间:2026年04月22日
来源:Frontiers in Digital Health 3.8
编辑推荐:
摘要
引言:本研究的主要目的是评估聊天机器人角色和沟通风格对信任度以及使用该聊天机器人安排乳腺癌筛查(BCS)意愿的影响。
方法:我们对一项随机因子实验进行了混合方法分析,以评估不同的聊天机器人设计对BCS干预的效果。该研究方案已注册在ClinicalTrials.go
摘要
引言:本研究的主要目的是评估聊天机器人角色和沟通风格对信任度以及使用该聊天机器人安排乳腺癌筛查(BCS)意愿的影响。
方法:我们对一项随机因子实验进行了混合方法分析,以评估不同的聊天机器人设计对BCS干预的效果。该研究方案已注册在ClinicalTrials.gov(NCT05472064)上。我们采用2×2实验设计,测试了不同的条件:一种聊天机器人角色(表现为初级保健医生或乳腺癌幸存者),以及两种沟通风格(直接或礼貌),并与对照组进行比较。
结果:在所有实验条件中,医生-礼貌风格的组合在信任度和使用意愿方面均受到最高评价。定性反馈表明,医生角色和礼貌的沟通风格分别被视作专业且友好的。虽然一些参与者认可使用黑人女性角色,并认为这与他们产生共鸣,但也有人认为这存在刻板印象、居高临下的态度或针对性。
讨论:总体而言,定量和定性结果表明,一个在文化上进行了调整的医生角色以及礼貌的信息传递方式,可以通过专业且友好的互动来增强信任度,并提高使用聊天机器人安排BCS的意愿。在开发文化定制的角色时应谨慎行事,以防止在聊天机器人角色设计中延续刻板印象。
1. 引言
与白人女性相比,黑人女性更可能在较晚阶段被诊断出乳腺癌,并且死亡率更高(1)。通过定期进行乳腺X光检查(BCS)来提高乳腺癌筛查的参与率是解决筛查不平等问题的一种策略(2)。然而,黑人女性可能面临系统性及人际层面的种族主义障碍,包括医疗资源获取受限、对诊断的恐惧、负面的医疗经历、缺乏关于乳腺癌风险的信息,以及感觉被BCS活动忽视(3-11)。针对黑人女性的文化定制的外展干预措施在提高BCS参与率方面效果有限(12)。但这些干预措施可能需要大量资源,例如电话外展和健康导航服务,并且可能与乳腺X光检查的预约流程脱节。
通信技术为减轻资源负担提供了有希望的解决方案,但其设计和实施需要仔细考虑。例如,许多患者门户现在包含提醒和在线预约工具,以简化BCS流程,从而避免了就诊或电话外展时需要单独安排乳腺X光检查的麻烦。尽管如此,黑人群体在使用患者门户方面存在不平等现象,这可能进一步加剧BCS的不平等(13-16)。短信服务(SMS)作为一种更公平的沟通方式,因为几乎所有人都能使用手机,而且调查显示SMS在促进黑人女性接受BCS方面是可接受的(17)。使用更具互动性的对话式模式的文化定制干预措施已在提高黑人女性的BCS参与率方面显示出成效(18, 19)。聊天机器人或对话界面可以通过双向沟通增强SMS外展效果,并能与医疗系统的预约系统连接起来。这样,聊天机器人可以提供个性化的教育信息,改善人们预约乳腺X光检查的便利性,而无需额外的初级保健资源。先前的研究显示,聊天机器人用于乳腺癌教育的干预措施能够显著提升用户满意度和知识获取(20)。此外,用于健康教育和行为改变的对话式工具对黑人女性可能也是有效的教育资源;然而,人们对使用聊天机器人仍存在疑虑(21, 22)。关于聊天机器人技术的担忧,特别是其产生偏见信息的可能性是有根据的;因此,在利用聊天机器人解决不平等问题时,需要精心设计(23)。据我们所知,目前尚无关于基于聊天机器人的BCS外展干预措施的有效证据基础,无论是普遍适用还是针对特定群体的文化定制版本。以往的研究尚未探讨对话式用户界面的哪些设计方面能够有效促进信任度和使用意愿。在本研究中,我们重点关注聊天机器人角色的设计和信息传递方式,因为这些特征对于吸引用户参与健康干预至关重要(24, 25)。
我们的研究团队与Cierra Sisters合作——这是一个致力于教育、赋能和支持华盛顿州黑人社区及医疗资源不足人群的组织——共同设计了一个针对黑人女性的文化定制聊天机器人,用于BCS外展。我们采用了多组件优化策略(MOST)来指导研究设计和优化(26)。MOST包括三个阶段(准备、优化和评估),以确保基于聊天机器人的干预措施包含有效组成部分。我们的前期工作构成了MOST的准备阶段,在此阶段我们发现信任度是聊天机器人设计和外展的关键因素(27)。可信度是健康干预中的关键考量,包括BCS领域,先前的研究借鉴了多种信任理论来指导用户界面设计(27-31)。文化定制是一种提高信任度和参与度的方法,有证据表明其在提高黑人女性对BCS干预的参与度和聊天机器人设计效果方面有效(12, 25)。先前的人机交互研究表明,使界面元素具有文化相关性(如文本、图像和交互方式)非常重要(32-34)。有证据表明,与反映用户种族背景的虚拟代理互动后,用户更有可能改变其行为(35)。因此,在MOST的第二阶段,我们专注于与黑人女性合作设计并收集反馈,以测试文化定制的聊天机器人角色和信息传递方式。本研究旨在了解聊天机器人的沟通风格和角色如何影响用户对使用该聊天机器人安排BCS的信任度和意愿。
2. 材料与方法
2.1 概念模型
我们开发了一个概念模型来设计聊天机器人角色和信息传递方式(图1)。基于以往的研究,我们将信任度视为聊天机器人发挥作用的重要机制(27)。我们还参考了市场营销、人工智能和健康信息传递的相关概念框架(36-38)。我们认为聊天机器人角色和沟通风格是影响用户信任度和使用意愿的潜在因素。我们关注初次互动,因为先前的研究和定性分析均表明,短暂的聊天机器人互动以及用户对初次聊天信息的感知会显著影响后续的使用情况(27, 39)。
图1:聊天机器人实施策略的概念模型。在模型中,信任度是用户决定使用聊天机器人安排乳腺癌筛查的重要因素。
2.2 原型设计
我们根据概念模型在设计团队会议中设计了聊天机器人原型(包括Cierra Sisters的创始人Bridgette H. Hempstead BHH)。我们开发了五个版本的聊天机器人原型:一个采用直接沟通风格的乳腺癌幸存者角色、一个采用礼貌沟通风格的乳腺癌幸存者角色、一个采用直接沟通风格的初级保健医生角色、一个采用礼貌沟通风格的初级保健医生角色,以及一个对照组(补充图S1)。我们将聊天机器人设计为一个应用程序界面,计划未来通过短信服务进行推广。为避免使用大型语言模型(LLMs)带来的错误信息和偏见,我们重点开发了与社区成员共同制定的脚本对话。
我们设计了文化定制的聊天机器人角色,关注其外观(头像和名称)以及信息内容的文化适应性(24, 25, 40)。除了对照组外,所有条件都使用了黑人女性角色,以确保基线相似性,随后创建了强调相似性和专业性的角色。头像由BHH选择,名称“Ebony”由之前的焦点小组参与者建议(27)。先前的研究表明,相似性和专业性都是提升虚拟代理参与度和信任度的关键因素(32, 41, 42)。因此,我们创建了一个乳腺癌幸存者的角色,既强调相似性,又通过个人经历传递专业知识。我们还创建了一个初级保健医生的角色,既强调医疗专业性,又体现黑人女性的身份特征。虚拟代理的交互风格也会影响用户对代理的感知(43)。我们基于礼貌理论测试了两种沟通风格:直接和礼貌(44, 45)。直接沟通风格包含命令式表达、直接称呼(“你”、“你的”)以及对自由度的严格控制(“现在”)。礼貌沟通风格则使用了虚拟语气词(“愿意……”)、合作式称呼(“我们”、“我们”)以及关于学习主题的礼貌提问(“你愿意……吗?”)。我们加入了强调自我护理作为社会文化价值观的信息,并根据Susan G. Komen乳腺癌教育工具包中的两条关键信息(“了解你的风险”和“接受筛查”)调整了聊天信息内容(补充图S2A,B)(18)。对照组的设计保持中立性和信息性,信息内容与其他条件相同(例如,介绍乳腺癌对黑人女性的影响)。我们的目标是测试文化定制的角色和沟通风格的效果;因此,对照组没有聊天机器人角色或特定的沟通风格,也没有头像或名称。为了与礼貌组和直接组区分开来,对照组仅提供了关于乳腺癌种族差异的事实信息。所有第一人称语言均被删除,对照组不表达任何观点或指令性命令,除了提供一个继续对话的选项。
2.3 研究设计概述
我们进行了一项随机因子实验,并附加了后续调查,以评估聊天机器人设计对黑人女性参与者信任度和使用意愿的影响。因子实验是一种高效的设计方法,可以在单次随机试验中测试多种干预措施。MOST框架的优化阶段经常使用因子实验(26)。我们使用Alchemer在线调查平台向参与者展示聊天机器人原型的动画图形交互格式(GIFs)(补充图2A,B)。然后,我们就聊天机器人的各个方面向参与者提问,包括信任度和使用意愿的测量,并评估他们的回答以了解最佳组件。我们还收集并定性分析了参与者对聊天机器人的开放性文本反馈(“您如何看待聊天机器人的呈现方式?”)。
鉴于关于聊天机器人角色类型在BCS预约和教育效果方面的研究有限,我们提出了探索性假设:初级保健医生和乳腺癌幸存者角色组别的信任度和使用意愿都高于对照组。选择初级保健医生角色的依据是先前的研究结果,这些研究表明当由初级保健提供者推荐时,人们更有可能完成BCS检查(46, 47)。此外,关于健康教育虚拟代理设计的先前研究也表明,人们对医疗专业人员和同伴角色的偏好较高(32, 42)。我们假设直接沟通风格会带来比礼貌沟通风格更高的信任度和使用意愿(补充图S3)。这一假设基于一项针对慢性病老年黑人的研究,他们在访谈中更倾向于直接沟通风格,因为这种风格被认为更客观、偏见较少(48)。我们采用混合方法分析来深入理解参与者对聊天机器人的感知,并利用定性分析解释定量结果。
对于本手稿,我们遵循了混合方法研究的GRAMMS报告指南和因子随机试验的更新版CONSORT报告指南(49, 50)。在开展研究之前,我们将试验方案注册在了ClinicalTrials.gov(NCT05472064)上。我们已获得华盛顿大学机构审查委员会(IRB)对本研究的豁免批准。2.4 参与者 我们招募了40至74岁的女性参与者(以满足BCS的资格标准),这些参与者自我认定为非裔美国人,并居住在美国。为了收集足够的参与者以使研究具有足够的统计效力,我们使用了两个在线参与者调查平台:Prolific和Alchemer Survey Audiences。这两个平台都允许根据我们的招募标准进行人群筛选,无论是通过预设的标准还是参与者的预筛选。在Prolific平台上,参与者主要通过口口相传的方式进行招募,包括通过社交媒体(51)。相比之下,Alchemer主要通过其Panel Services团队招募调查受访者,该团队使用第三方数据库来识别符合特定人口统计标准的个体(52)。2.5 随机化和干预 调查参与者通过调查平台上的随机数生成器被随机分配到五种条件之一:乳腺癌幸存者×直接沟通、乳腺癌幸存者×礼貌沟通、初级保健医生×直接沟通、初级保健医生×礼貌沟通以及对照组(补充图S1)。在开始研究之前,所有参与者都被告知了研究内容(补充材料调查)。所有参与者都查看了他们被分配的条件,然后完成了一个调查,评估了他们对机器人初始沟通信息的看法,随后是人口统计问题。调查在2022年8月22日至12月27日的4个月期间进行。通过Prolific招募的参与者完成了调查后获得了2.50美元的报酬,以确保每小时15.0美元的补偿;通过Alchemer招募的参与者根据调查长度获得了3.50美元的报酬。2.6 结果 本实验的结果指标是参与者对机器人的信任程度以及他们使用机器人进行乳腺X光筛查的意愿。我们使用人类-计算机信任量表来评估信任程度,该量表基于四个关键构念:善意、能力、互惠性和感知风险(53, 54)。善意是指技术能够为最终用户提供有效帮助以实现特定目标的程度。能力是指技术具备实现特定结果所需的所有功能。互惠性体现了用户期望技术能够以知情的方式回应他们的需求。感知风险是指最终用户对使用技术时发生某种事件的可能性的主观评估,以及他们对自身行为后果的担忧程度。人类-计算机信任量表是一种经过实证验证的用户-技术互动信任评估方法,使用五点李克特量表,范围从“强烈不同意”到“强烈同意”。我们从量表中选择了七个项目来涵盖所有四个构念,以生成一个综合信任分数。为了解决潜在的调查疲劳问题,我们移除了相似的项目和与静态界面无关的项目,因为该量表是为用户-技术互动设计的。我们还开发了一个单项指标(使用意愿),来评估参与者未来使用机器人预约乳腺X光检查的可能性,该指标使用五点李克特量表进行评分,范围从“非常不可能”到“非常可能”(你未来使用这个机器人预约乳腺X光检查的可能性有多大?)。使用意愿作为一个结果变量,可能会导致用户采纳(55, 56)。技术接受模型框架将行为意愿作为用户接受的衡量标准(57),并且已在许多医疗保健场景中得到应用,包括电子健康记录和移动健康应用(58, 59)。我们的目标是通过测量使用意愿来估计参与者使用机器人预约乳腺X光检查的可能性,因为我们无法直接评估乳腺X光检查的预约情况。2.7 样本量确定 我们估计每个组需要107名参与者(总共535名参与者),以达到80%的统计效力阈值,假设显著性阈值为α=0.05,并基于之前的元分析对效应大小保守估计为0.15(12)。2.8 定量数据分析 我们分析了完成调查并正确回答了基本注意问题的参与者(“如果你在注意,请输入3”)的数据。我们根据条件分配评估了样本的描述性特征,并计算了连续变量和分类变量的平均值。我们使用方差分析(ANOVA)分析了因素实验组成部分(即医生/同伴角色、直接/礼貌沟通风格和对照组),并使用成对t检验来比较特定组之间的差异。对于直接性 and 礼貌性的测量,我们使用t检验来比较直接/礼貌沟通风格条件之间的差异。在ANOVA分析中,我们将李克特量表响应视为连续变量,这与现有文献一致(60, 61)。进行主要分析的研究团队成员(RL, GH)不知道因素设计条件。我们还使用比例优势逻辑回归模型来确定使用意愿的最重要预测因素。分析中没有缺失数据。所有分析均使用JMP和R(版本2024.12.1)进行。2.8.1 比例优势逻辑回归建模 我们拟合了比例优势逻辑回归模型,以确定使用意愿的最重要预测因素。根据相关性和潜在重要性选择了以下协变量,并通过估计和比较每个包含至少两个此类预测因子的模型的C指数(62)来进行评估:参与时的年龄、自我报告的使用机器人舒适度、自我报告的讨论乳腺癌的舒适度、与机器人的互动程度、随机分组组、对机器人的平均信任度、感知到的机器人与用户的相似性、以及基于填写问卷的邮政编码分配农村或城市环境的RUCA指标。我们使用Brant检验(63)来评估给定模型的比例优势假设是否成立;如果对所有预测因子的综合检验或单个预测因子的检验得到显著结果,我们通过诊断图可视化地检查该假设。如果假设被违反,就会从考虑中排除该模型。由于样本量限制,我们将“非常不可能”和“不太可能”的使用意愿响应合并为“不太可能”。简而言之,C指数衡量了预测风险排名与观察结果之间的一致性;接近1.0的值表示出色的区分能力,而接近0.5的值则表示较差的区分能力(64)。为了评估模型性能,我们模拟了所有可能的预测因子子集,并使用k折交叉验证为每个模型计算C指数,以提高可靠性和减轻过拟合;我们使用了10折交叉验证,因为这提供了更好的模型稳定性。结果模型按平均C指数从高到低排序,保留了表现最佳的五个模型,并使用非参数自举法(1000次重复)估计了C指数的95%置信区间(65)。我们选择的模型是包含至少两个预测因子且在k折交叉验证后C指数最高的模型,且Brant检验未显示违反比例优势假设。使用首选的比例优势逻辑回归模型,我们估计并报告了每个预测因子的平均边际效应(66)。边际效应反映了单独改变每个预测因子时预测概率的平均变化,有助于了解每个预测因子对继续进行筛查的相对影响。2.9 定性数据分析 我们使用传统的内容分析方法来分析开放式调查响应(67)。研究团队的两名成员(RL和PK)采用归纳法生成了初始代码本。两位编码者定期会面,确认新类别和代码的定义和含义,从而进一步加深了对数据的理解。一旦生成最终代码本,就使用修订后的代码本重新分析了调查响应。整个研究团队定期会面,以确保代码应用的一致性,并通过讨论或通过重新查看调查响应来解决问题以获得更多背景信息。一名团队成员(PK)将数据输入矩阵,以便在实验条件内部和之间比较响应(68)。研究团队成员在数据矩阵最终确定之前对参与者的实验条件不了解。所有编码和分析均使用Microsoft Excel(版本16.43)进行。2.10 数据综合 对于混合方法分析,我们采用了同时数据收集的设计,主要目的是进行假设检验(69)。我们的定性数据用于补充和扩展定量数据分析——具体来说,我们使用定性数据来解释定量结果,并提供有关参与者对机器人看法的额外信息,以指导进一步的设计迭代。数据综合是由研究团队成员(RL, PK, BHH, SA, GH, 和 LM)在团队会议中的协作讨论中完成的。3 结果 3.1 参与者特征 在550份响应中,我们有494名参与者被纳入调查分析。参与者的平均年龄为52.4岁(标准差=9.1岁),大多数居住在美国南部(61.9%)(表1)。平均而言,参与者完成调查所需时间为10.7分钟(中位数=6.9分钟)。我们排除了那些完成调查时间少于中位数一半的参与者(n=25)、人口统计信息缺失或不符合年龄资格标准的参与者(n=8),或者提供了直线型调查响应的参与者(n=23)。325名参与者通过Prolific平台完成了调查,169名参与者通过Alchemer平台完成了调查(补充表S1, S2)。通过Prolific招募的参与者比通过Alchemer招募的参与者更年轻,平均年龄为50.6岁(标准差=8.1岁),而通过Alchemer招募的参与者平均年龄为56.0岁(标准差=9.8岁;差异=-5.40,t=-6.14,p<0.001;95%置信区间[-7.12, -3.67])。通过Prolific招募的参与者报告对机器人的舒适度也更高(平均分=3.83,标准差=0.89),相比之下,通过Alchemer招募的参与者平均分=3.54,标准差=0.99(差异=0.29,t=3.23,p<0.01;95%置信区间[0.11, 0.47])。通过Prolific和Alchemer平台招募的参与者大多数居住在美国南部(分别为62.8%和60.4%)。不同平台之间的参与者地区没有差异[χ2(4)=4.66,p=0.324]。表1 参与者特征 总计 对照组 直接与医生沟通 直接与礼貌医生沟通 直接与同伴沟通 礼貌与医生沟通 礼貌与同伴沟通 N = 494 N = 111 N = 96 N = 94 N = 89 N = 104 年龄 平均(标准差) 52.4 (9.09) 51.6 (9.16) 51.5 (8.44) 53.5 (9.72) 51.9 (8.79) 53.6 (9.21) 中位数(最小值, 最大值) 51.0 (40.0, 74.0) 50.0 (40.0, 73.0) 50.0 (40.0, 74.0) 52.5 (40.0, 73.0) 51.0 (40.0, 74.0) 52.0 (40.0, 74.0) 地区 中西部 76 (15.4%) 22 (19.8%) 12 (12.5%) 15 (16.0%) 11 (12.4%) 16 (15.4%) 东北部 75 (15.2%) 16 (14.4%) 14 (14.6%) 14 (14.9%) 16 (18.0%) 15 (14.4%) 南部 306 (61.9%) 63 (56.8%) 62 (64.6%) 57 (60.6%) 54 (60.7%) 70 (67.3%) 西部 37 (7.5%) 10 (9.0%) 8 (8.3%) 8 (8.5%) 8 (9.0%) 3 (2.9%) 对机器人的舒适度 平均(标准差) 3.73 (0.931) 3.66 (0.826) 3.79 (0.917) 3.78 (1.02) 3.80 (0.967) 3.65 (0.943) 中位数(最小值, 最大值) 4.00 (1.00, 5.00) 4.00 (2.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 调查参与者的描述性特征。3.2 定量发现 3.2.1 ANOVA和成对比较 进行了一元ANOVA分析,结果显示五个条件之间的信任度没有统计学上的显著差异[F(4, 489) = 1.25,p = 0.29]。然而,在五个条件中,“医生-礼貌”条件[平均(M) DoctorPolite = 3.73,标准差=0.71]显示出最高的信任度,并且是与对照组[MControl = 3.53,标准差=0.50;差异=0.20,t=2.10,p=0.04(95% CI 0.01, 0.38)相比,唯一的条件显示出统计学上的显著差异(见表2)。通过我们计划的比较,我们观察到“医生”条件(MDoctor = 3.71,标准差=0.68)与对照组[MControl = 3.53,标准差=0.50;差异=0.20,t=2.10,p=0.04(95% CI 0.01, 0.33)之间的信任度有显著差异,而“同伴”条件(MPeer = 3.68,标准差=0.73)与对照组之间的信任度有非统计学上的趋势(差异=0.14,t=1.76,p=0.08(95% CI -0.01, 0.30))(表3)。直接条件(MDirect = 3.68,标准差=0.67)与礼貌条件[MPolite = 3.70,标准差=0.73;差异=-0.02,t=-0.35,p=0.72(95% CI -0.16, 0.11)之间的信任度没有显著差异。表2 结果变量 总计 对照组 直接与医生沟通 直接与礼貌医生沟通 直接与同伴沟通 礼貌与医生沟通 礼貌与同伴沟通 N = 494 N = 111 N = 96 N = 94 N = 89 N = 104 信任度 平均值(标准差) 3.66 (0.682) 3.54 (0.589) 3.68 (0.659) 3.73 (0.706) 3.68 (0.686) 3.68 (0.760) 中位数(最小值, 最大值) 3.71 (1.00, 5.00) 3.43 (1.86, 5.00) 3.71 (1.86, 5.00) 3.86 (1.00, 5.00) 3.57 (1.71, 5.00) 3.71 (1.14, 5.00) 使用意愿 平均值(标准差) 3.58 (1.15) 3.50 (1.17) 3.60 (1.06) 3.84 (1.12) 3.36 (1.22) 3.58 (1.15) 中位数(最小值, 最大值) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 4.00 (1.00, 5.00) 机器人条件对信任度和使用意愿的影响。表3 假设发现 H1a. 将机器人角色表现为黑人初级保健医生将增加信任度(与对照组相比)得到支持(p<0.05)MDoctor = 3.71,标准差=0.68;MControl = 3.53,标准差=0.59;差异=0.20,t=2.10,p=0.04(95% CI 0.02, 0.36) H1b. 将机器人角色表现为黑人乳腺癌幸存者将增加信任度(与对照组相比)趋势不显著(p<0.10)MPeer = 3.68,标准差=0.72;MControl = 3.53,标准差=0.59;差异=0.14,t=3.23,p=0.07(95% CI -0.01, 0.30) H1c. 直接沟通风格将增加信任度(与礼貌沟通风格相比)未得到支持。MDirect = 3.68,标准差=0.72;MPolite = 3.70,标准差=0.73;差异=-0.03,t=-0.39,p=0.69(95% CI -0.16, 0.11) H2a. 将机器人角色表现为黑人初级保健医生将增加使用意愿(与对照组相比)趋势不显著(p<0.10)MDoctor = 3.72,标准差=1.09,MControl = 3.49,标准差=1.19;差异=0.23,t=1.71,p=0.09,95% CI (-0.04, 0.50) H2b.将聊天机器人的角色设定为黑人乳腺癌幸存者,会增加使用该机器人的意愿(与对照组相比)。未得到支持:MPeer = 3.48,SD = 1.18;MControl = 3.49,SD = 1.19;差异 = -0.02,t = -0.11,p = 0.91,95% CI (-0.28, 0.25)。直接沟通风格会增加使用意愿(与礼貌沟通风格相比):未得到支持:MDirect = 3.49,SD = 1.14;MPolite = 3.70,SD = 1.14;差异 = -0.23,t = -1.93,p = 0.05,CI (-0.46, 0.00)。
我们进行了方差分析(ANOVA)来研究使用意愿,结果也没有发现不同条件之间存在统计学上的显著差异 [F(4, 489) = 2.17,p = 0.07]。在使用意愿方面,“医生-礼貌”条件(MDoctorPolite = 3.84,SD = 1.12)再次显示出最高的意愿。与信任感不同,这一条件不仅高于对照组 [MControl = 3.50,SD = 1.17;差异 = 0.34,t = 2.10,p = 0.04,95% CI (0.02, 0.65)],也高于“同伴-直接”条件 [MPeerDirect = 3.36,SD = 1.12;差异 = 0.48,t = 2.84,P < 0.01,95% CI (0.15, 0.81)]。通过我们的比较分析,我们观察到“医生”条件(MDoctor = 3.72,SD = 1.09)与对照组之间的差异并不显著 [差异 = 0.22,t = 1.59,p = 0.11,95% CI (-0.05, 0.49)],而“同伴”条件(MPeer = 3.48,SD = 1.18)与对照组之间也没有使用意愿的差异 [差异 = -0.04,t = -0.27,p = 0.80,95% CI (-0.31, 0.23)]。与我们的假设相反,我们发现“直接”条件(MDirect = 3.49,SD = 1.14)下的使用意愿低于“礼貌”条件 [MPolite = 3.70,SD = 1.14;差异 = -0.23,t = -1.94,p = 0.05,CI (-0.46, 0.00)]。为了测试参与者是否认为沟通风格符合预期,我们分析了每种条件下的直接性(直接、简洁、要求性强)和礼貌性(礼貌、友好、关心、尊重)的指标(表4)。然而,我们并未发现直接条件与礼貌条件在直接性 [MDirect = 5.22;MPolite = 5.16;差异 = 0.06,t = -0.73,p = 0.46,CI (-0.24, 0.11)] 和礼貌性 [MDirect = 5.92;MPolite = 6.05;差异 = 0.13,t = 1.20,p = 0.23,CI (-0.08, 0.34)] 方面存在显著差异。
表4:沟通风格测量
总人数:Control = 494;Doctor-direct = 111;Peer-direct = 96;Peer-polite = 94;Doctor-polite = 89;Peer-direct = 104
直接性 均值(SD):5.20 (0.825);5.26 (0.674);5.33 (0.894);5.21 (0.812);5.10 (0.844);5.10 (0.889)
礼貌性 均值(SD):5.87 (1.07);5.48 (1.03);5.97 (1.02);6.04 (1.06);5.86 (1.04);6.06 (1.10)
3.2 比例 odds 逻辑回归建模
我们建立了一系列比例 odds 逻辑回归模型来检验使用意愿的预测因素。模型性能通过 C 指数来评估,表现最好的五个模型被保留并报告(表5)。表现最好的模型具有良好的区分能力,C 指数为 0.807(95% CI:0.78 – 0.83)。使用这个最佳模型,我们估计了每个预测因素的平均边际效应(图2)。我们观察到,影响使用意愿的最重要的预测因素是信任感、使用机器人的舒适度以及感知到的专业性。在该模型中,对机器人的专业性的感知、居住在农村或城市(RUCA)、以及讨论乳腺癌的舒适度并不是使用意愿的强预测因素。
表5:模型与 C 指数
| 预测因素 | 下限 95% CI | 上限 95% CI |
|------------------|-------------|------------------|
| 年龄、使用机器人的舒适度 | 0.807 | 0.777 |
| 讨论乳腺癌的舒适度 | 0.805 | 0.833 |
| 年龄、使用机器人的舒适度 | 0.804 | 0.832 |
| 年龄、讨论乳腺癌的舒适度 | 0.803 | 0.832 |
| 年龄、使用机器人的舒适度 | 0.802 | 0.830 |
图2:表现最佳模型的平均边际估计。图表中的四个象限对应于随机化组,y 轴上的标签对应模型中的预测因素。x 轴显示了每个预测因素的边际效应,反映了每次改变一个预测因素时预测概率的平均变化。边际效应估计小于 0.0 的预测因素增加一个单位会导致使用意愿降低,而边际效应估计大于 0.0 的预测因素增加一个单位则表示使用意愿增加。
信任对使用意愿有显著的正向影响。信任感增加一个单位与报告“非常可能”使用意愿的概率增加 0.16 相关联(95% CI:0.11–0.21,p < 0.001),报告“可能”使用意愿的概率增加 0.04(95% CI:0.02–0.06,p < 0.001),而报告“中立”和“不可能”使用意愿的概率分别相应减少 0.08 和 0.12(95% CI:-0.1 – -0.05,p < 0.001;以及 95% CI:-0.16– -0.08,p < 0.001)。感知到的参与度也与更高的使用意愿显著相关。感知到的参与度增加一个单位与报告“非常可能”使用意愿的概率增加 0.05 相关联(95% CI:0.02–0.08,p < 0.001),报告“可能”使用意愿的概率增加 0.01(95% CI:0.0–0.02,p < 0.01),报告“中立”和“不可能”使用意愿的概率分别相应减少 0.02 和 0.04(95% CI:-0.04 – -0.01;以及 95% CI:-0.06– -0.02,p < 0.001)。同样,使用机器人的舒适度也与使用意愿显著相关。使用机器人的舒适度增加一个单位与报告“非常可能”使用意愿的概率增加 0.1 相关联(95% CI:0.07–0.13,p < 0.001),报告“可能”使用意愿的概率增加 0.02(95% CI:0.01–0.04,p < 0.01),报告“中立”和“不可能”使用意愿的概率分别相应减少 0.05 和 0.04(95% CI:-0.06 – -0.03,p < 0.001;以及 95% CI:-0.1– -0.05,p < 0.001)。
3.3 定性发现
调查回复的内容分析提供了参与者对聊天机器人角色和信息的看法(表6)。大多数参与者提供了用于定性分析的文本回复(对照组 98%;同伴-直接组 98%;同伴-礼貌组 96%;医生-直接组 93%;医生-礼貌组 97%)。
表6:定性主题与代表性引语
**对聊天机器人的看法**:
“我很欣赏聊天机器人被设计得尽可能接近黑人的外貌,但总觉得有点刻板。并非所有有色人种女性都天生就戴大环形耳环。我希望机器人的创造者能考虑到所有有色人种女性的外貌。”(参与者,医生-礼貌组)
“我喜欢他们使用非裔美国人的头像。这让信息对我来说更加个性化。我不喜欢没有直接讨论乳腺癌本身的选项。这是女性首先想要了解的问题,即为什么这种病在非裔美国女性中如此常见。”(参与者,医生-直接组)
“我认为呈现方式很好,头像是个黑人,还有个文化名字,所以很容易产生共鸣。”(参与者,同伴-直接组)
**沟通偏好**:
“在讨论像乳腺癌这样私人和严重的话题时,我更愿意通过电话或面对面交流。”(参与者,同伴-礼貌组)
“我不喜欢这种方式,但如果有必要的话我会使用。我更倾向于最初与人接触。”(参与者,医生-直接组)
“我喜欢有这个选项,而不是直接和人对话。我认为这对内向的人或者对医生或筛查持怀疑态度的人会有帮助。”(参与者,医生-礼貌组)
**对聊天机器人可用性的看法**:
“我希望能更多地与机器人进行互动……我连续收到了4条聊天信息。”(参与者,医生-礼貌组)
“易于理解,提供了适量的信息,不会让人感到信息量大得难以处理。”(参与者,医生-直接组)
“我喜欢它提供了更多深入讨论话题的选项,以防有人不太确定。”(参与者,同伴-礼貌组)
**聊天机器人的必要性**:
“实际上我会使用它。我早就该做乳腺X光检查了,但我有点害怕。”(参与者,同伴-直接组)
“我认为聊天机器人可能对那些不习惯每年去医院做乳腺X光检查的人有帮助。”(参与者,同伴-礼貌组)
“我喜欢聊天机器人介绍乳腺X光筛查信息的方式,因为它可以提高人们对乳腺癌的认识,从而挽救很多生命。”(参与者,医生-礼貌组)
**参与度**:
“开头提到‘黑人女性/白人女性’这一点有点强烈,但是提到即使没有癌症病史也需要检查这一点真的很好。在决定聊天机器人是否适合我之前,我需要看看‘关于筛查的信息’。”(参与者,医生-礼貌组)
“我也讨厌在没有背景说明的情况下引用统计数据。应该解释为什么非裔美国女性的死亡率更高,而不仅仅是归咎于她是黑人女性这一因素。应该讨论环境、社会经济和系统性问题对这一数据的影响。”(参与者,同伴-直接组)
**定性主题**
来自不同实验组的参与者分享了他们对聊天机器人角色的看法。许多参与者表示他们赞赏在所有组中都出现了黑人女性的角色(对照组除外)。在同伴-直接组中,有一位参与者提到:“我喜欢聊天机器人的呈现方式,因为它使用了非裔美国人的形象。终于有一个有黑色素特征的角色了。”在对照组中,有一位参与者建议对聊天机器人的外观进行文化上的调整,说“聊天机器人应该有一个非裔美国人的头像,而不仅仅是文字。我认为这样会更具吸引力。”然而,虽然有些参与者喜欢聊天机器人的名字(Ebony)和特点,但也有不少人认为聊天机器人的设计有些刻板。
**3.3.1 礼貌与直接沟通风格**
收到礼貌沟通风格的参与者中,许多人将聊天机器人描述为温暖、关心人和友好的(在医生-礼貌组中有15个回应,在同伴-礼貌组中有10个回应;而在医生-直接组中有8个回应,在同伴-直接组中有5个回应,在对照组中有2个回应)。例如,一位同伴-礼貌组的参与者表示,“聊天机器人不苛刻,但会引发思考。给人一种温暖 welcome 的体验。”
在各个组中,都有相当数量的参与者将聊天机器人描述为直接、简洁且切中要点的,总体上认为这是一个积极的属性。收到直接沟通风格的参与者认为聊天机器人信息丰富但缺乏个人情感,希望有更友好的介绍。此外,在对照组中,许多参与者提到聊天机器人缺乏人性化的特点。有一位参与者说:“我不喜欢聊天机器人显得如此冷漠。一点也不温暖。它可以用‘嗨’或‘你好’这样的开场白,稍微表现出一丝关怀。”尽管许多对照组参与者认为聊天机器人缺乏人性,但这种看法在各个组中都有体现,尤其是在讨论乳腺癌这一敏感话题时,人们更希望有人的互动。
**3.3.2 医生与乳腺癌幸存者角色**
将聊天机器人视为医生角色的参与者认为,聊天机器人在呈现乳腺癌信息时非常专业(在医生-礼貌组中有5个回应,在医生-直接组中有5个回应;而在同伴-直接组中有3个回应,在同伴-直接组中有0个回应,在对照组中有1个回应)。一位医生-直接组的参与者指出:“我觉得聊天机器人非常专业,提供了有价值的信息。”
在同伴组中,参与者强调聊天机器人的相似性和普遍的积极反馈。一位同伴-礼貌组的参与者说:“我喜欢看到自己群体的代表,而且没有任何贬低或不尊重的地方。”然而,也有几份反馈表达了关于通过这些角色进行群体定位或操纵的担忧。
**3.4 数据综合**
定性数据支持了主要的定量研究结果,表明参与者认为医生-礼貌版本的聊天机器人在信任度和使用意愿方面得分最高。这个组中有最高的比例的参与者认为这个版本温暖、关心人且友好。许多参与者赞赏聊天机器人关于自我护理重要性的信息:“我也喜欢它提到了黑女性常常认为自己因为责任繁多而没有时间做很多事情这一点,同时强调了我们需要努力为自己腾出时间。”(参与者,医生-礼貌组)
当信息由医生角色传达时,似乎更受欢迎:“我喜欢它的直接性,并且 senza 圆滑地表达了我们需要为我的种族群体做的事情。”我认为所有医生在与患者的交流中都应该像这样,而[聊天机器人]在处理医疗和健康护理时也应如此。”(参与者,礼貌的医生角色)然而,在医生群体中,名字“Ebony”可能不恰当地降低了受访者的信任度和使用意愿。在医生原型组中,有11名参与者评论说这个名字具有刻板印象、不合适、居高临下或具有冒犯性,而在同行原型组中只有5名参与者有这样的看法。一位在医生指导组中的参与者评论道:“为什么叫Dr. Ebony?非常刻板。”参与者们讨论了这个名字如何夸大了黑人的身份特征,这可能会让互动显得不真诚和不可信。在同行组中,一些参与者对聊天机器人被设定为乳腺癌幸存者的身份感到不适,因为他们认为这并不现实,可能会降低使用意愿。“我不喜欢聊天机器人说做乳腺X光检查救了她的命。她只是一个聊天机器人。应该说‘我的名字是Ebony,我曾经患过乳腺癌,但我正在使用聊天机器人来解释为什么我认为你应该听这条信息’。”(参与者,礼貌的同行角色)同行组的参与者还建议使用医疗专业人员或管理员作为聊天机器人的角色,以使关于预约的对话更加自然。定量研究结果也表明,信任度、感知到的参与度和使用聊天机器人的舒适度是使用意愿的重要预测因素。这些结果得到了定性数据的支持,因为参与者讨论了影响他们参与度和信任度的因素,例如癌症幸存者的对话显得不真实,以及这如何影响他们对聊天机器人的看法。在同行指导组中,一位参与者回应说:“我感觉相当中立。聊天机器人说乳腺X光检查救了她的命,这让它显得有点不可信。”一些参与者对于与聊天机器人交流和与真人交流有不同的偏好。一位在礼貌的医生角色组中的参与者评论说:“我更喜欢使用聊天机器人来预约,而不是打电话”,而另一位参与者则说:“聊天机器人也行,但就我个人而言,我更喜欢与人交谈。我更喜欢听人类的声音,并且可以随时提问,而不用打字!”(参与者,礼貌的医生角色)那些对与聊天机器人交流感到舒适的参与者可能更有可能使用这种技术进行健康干预。
4. 讨论
我们进行了一项因子设计实验,以优化针对黑人女性的乳腺癌筛查(BCS)教育和预约的聊天机器人原型,以解决筛查不平等问题;我们发现,使用具有礼貌沟通风格的医生角色在信任度和使用意愿方面获得了最高的评价。我们的研究结果与假设部分一致。假设医生和同行角色(相对于对照组)会被给予更高的使用意愿评分,以及医生角色(相对于对照组)会获得更高的信任度评分得到了验证(H1a, H2a, H2b;补充图S3),而假设同行角色会带来更高的信任度(相对于对照组),以及直接沟通(相对于礼貌沟通)也会带来更高的信任度和使用意愿则没有得到验证(H1b, H1c, H2c)。需要注意的是,对初始假设的支持是有限的。只有H1a(即医生角色相对于对照组会增加信任度)达到了统计显著性(p值=0.04),表明存在微小的统计差异。由于研究的样本量略显不足(76%的统计功效),这可能会影响我们检测条件间差异的能力,因此观察到了非显著的趋势。例如,虽然观察到了同行组相对于对照组有更高的信任度趋势,以及医生组相对于对照组有更高的使用意愿趋势,但这些趋势并未得到研究结果的证实。通过对比例优势逻辑回归分析,我们发现影响使用意愿的最重要预测因素是信任度、感知到的参与度和使用聊天机器人的舒适度。这一发现与我们的概念模型一致,该模型认为信任度是驱动使用意愿的关键机制。值得注意的是,感知到的专业能力并不是一个显著的预测因素,这令人惊讶,因为具有礼貌沟通风格的医生角色获得了最高的使用意愿评分。这可能表明有其他因素在驱动这种偏好,例如与现实临床医生交流的相似性。
我们发现医生角色与最高的信任度和使用意愿相关。这一发现与文献一致,文献表明临床医生的推荐与乳腺癌筛查的完成率密切相关,特别是对于黑人女性来说(8, 46, 47)。我们的定性数据证实了人们对临床医生交流的偏好,其中一位在礼貌的同行组中的参与者建议将聊天机器人角色的设定为医疗专业人员。同行组的参与者更频繁地提到聊天机器人的不真实性,因为他们觉得从一个无法真正经历过乳腺癌的聊天机器人那里接收信息会让他们感到不适。虽然之前的研究探索了不同的角色,如医生和同行,但我们的发现为设计用于乳腺癌筛查和教育的聊天机器人提供了基于证据的方向(32, 42)。我们观察到人们更倾向于礼貌的沟通方式,而不是直接的沟通方式。尽管这与之前关于为老年黑人设计医疗聊天机器人的研究结果相反,但它与先前的研究一致,后者表明在对话式代理中展现的关系行为(如共情和社会对话)可以增加持续使用的意愿(48, 70)。值得注意的是,我们没有发现条件间在直接性和礼貌性方面的显著差异。根据定性研究结果,参与者可能将礼貌的沟通风格视为更加温暖和亲切,而不仅仅是礼貌。鉴于黑人女性接受乳腺癌筛查的障碍根植于种族主义(例如,之前的负面医疗经历),传达温暖和友好的信息可能会更受信任和吸引人(9)。未来的研究应该进一步探讨这一发现。
最后,我们发现了由文化定制的聊天机器人角色可能带来的负面反应和潜在危害。首先,努力对聊天机器人角色进行文化定制可能会被视为刻板印象。虽然我们的聊天机器人角色是由社区成员选定的,并且名称是在之前的焦点小组中提出的,但一些参与者认为这个名字和形象具有居高临下、刻板或过于针对特定群体的特征。我们的定性数据显示了这种角色带来的两极分化效果——一些参与者赞赏这种表现,而另一些人则表达了对于刻板印象的担忧。之前的研究表明,文化定制可以增加某些用户对对话式代理的信任度(71)。然而,尽管用户可能会做出积极回应,但先前的研究表明,文化定制应该超越视觉特征(25)。在我们的研究中,参与者可能只是表面上觉得受到了针对,而无法与聊天机器人进行深入讨论。其次,一些参与者认为聊天机器人角色不真诚或不真实(例如,聊天机器人不可能患乳腺癌)。在健康信息中使用聊天机器人角色可能会加剧人们对人工智能的不信任。因此,提供在聊天机器人界面内与医疗专业人员连接的选项可能很重要。有兴趣使用聊天机器人的医疗组织应谨慎评估角色设计,并让潜在用户参与设计和反馈。
4.1 限制
我们的研究存在几个限制。首先,实验设计条件可能无法完全捕捉用户在非控制环境中与聊天机器人互动的真实世界情况。我们的结果仅依赖于自我报告的测量数据,我们只能测量使用意愿(而不是实际使用情况)。其次,我们从两个匿名调查平台招募了参与者,这两个平台在薪酬模式和招募策略上有所不同,这可能导致受访者特征的差异。尽管跨平台招募是为了确保足够的参与度,但观察到了平均年龄和对聊天机器人使用舒适度的差异。这些差异可能导致选择偏差,表明通过Prolific平台招募的参与者更年轻,也更熟悉使用技术(例如聊天机器人和社交媒体)。此外,大多数参与者居住在美国南部。虽然我们研究的人口统计数据反映了美国黑人的分布(72%),但我们的结果可能受到南部地区人们的观点和经历的过度影响。第三,我们的聊天机器人设计使用了预设的对话脚本,参与者认为这些脚本重复且不能反映用户在与人类互动或使用基于大型语言模型的界面时的自然对话。尽管这些脚本是为了确保安全性和准确性而选择的,但由于大型语言模型存在幻觉的风险,这种互动方式可能会降低用户与聊天机器人互动时的信任感。在此研究之后,我们进行了一系列联合设计会议来改进信息内容并解决这一限制。我们还在聊天机器人中加入了有限的生成式人工智能,以改善对话流程并避免“死路”(例如,如果用户输入的是文字而不是数字,聊天机器人可以解释并相应地回应)。最后,我们的招募样本可能无法充分反映聊天机器人干预的目标人群。我们使用在线调查平台进行招募,这可能会限制那些在技术获取和使用方面面临障碍的人的参与。此外,先前的研究表明,乳腺癌筛查的参与率可能会受到社会和经济因素的影响(即,谁有时间和机会进行乳腺癌筛查)(73)。然而,我们没有收集有关收入等变量的数据,也没有主动招募这些方面的多样性样本。缺乏对弱势群体的招募和识别意味着我们无法从结果中判断哪些聊天机器人设计元素可能提高这些群体的筛查覆盖率。未来的研究可以调查社会经济和技术获取/使用变量对用户偏好聊天机器人设计的影响。我们的后续工作将评估在面临多重社会和经济障碍的群体中聊天机器人的接受度和效果。
5. 结论
我们使用因子实验设计来优化基于聊天机器人的健康干预措施的设计。我们的发现表明,具有礼貌沟通方式的初级保健医生角色可能会增加使用聊天机器人进行乳腺癌筛查的意愿;然而,研究人员在使用文化定制的角色时应谨慎行事,并确保社区的参与,以防止刻板印象的延续。