结果
3.1 研究筛选
五个电子数据库的检索共识别出9866条记录,去重后剩余5959条进入筛选;题目和摘要筛选排除了5904条不相关记录,55条进入全文评审;全文评估排除了35条记录(原因包括无AI成分12条、直接面向儿童治疗10条、无明确心理方法5条、AI仅用于评估3条、非实证研究类型5条);通过参考文献筛查和引文正向追踪额外识别出4项合格研究,最终24项研究符合纳入标准。研究筛选过程严格遵循PRISMA指南,评审员通过迭代讨论解决不确定性,确保纳入标准应用的一致性。
3.2 研究特征
24项纳入研究覆盖9个国家或国家组合,美国贡献最多(12项),其次为阿根廷(4项)、英国(3项)、智利(1项)、荷兰(1项)、澳大利亚(1项),另有3项为跨国合作研究(阿根廷/美国、美国/澳大利亚、美国/乌克兰)。发表日期范围为2019年至2026年,2024年后发表数量显著增加。为便于综合,研究按主要培训目标分为三组:A组为照护者培训(5项),B组为教育工作者培训(3项),C组为治疗师和从业者培训(16项)。
3.2.1 识别的人工智能技术
纳入研究识别出五类AI工具:第一类是基于NLP和规则型聊天机器人,包括使用NLP或脚本决策树的结构化对话工具,如TESS/X2AI、基于治疗转录本训练的ClientBot、采用BDI认知代理架构的Lilobot、Client101、带预编程场景的ERIC;第二类是生成式AI和LLM系统,支持自适应对话模拟,如采用代理架构和检索增强生成(Retrieval-Augmented Generation, RAG)的ParenteAI/Pat、作为虚拟CBT来访者的GPT-4、基于ChatGPT的平台、使用GPT-4o的TherapyTrainer、采用带认知个案模型的GPT-4的PATIENT-Ψ、使用Claude 3.5 Sonnet的多语言自杀风险模拟器、用于生态心理辅导培训的Claude 3.5 Sonnet;第三类是集成AI的VR平台,包括沉浸式模拟系统,如采用Google NLP API和Oculus Quest 2的Smart VR、采用MASCARET多代理架构的3D课堂IVT-T、使用GPT-4o-mini、Whisper语音转文本(Speech-to-Text, STT)和AWS Polly文本转语音(Text-to-Speech, TTS)的AI赋能社工培训VR平台;第四类是AI反馈和分析工具,用于分析受训者表现并生成自动反馈,包括使用深度学习和NLP提供动机访谈反馈的ReadMI,以及基于Roth-Pilling框架提供胜任力映射反馈的CBT Trainer;第五类是少量开发类和概念类论文,描述了AI系统开发但无独立实证评估,用于理解AI培训工具的发展轨迹和实施生态。
3.2.2 培训的心理方法
A组研究全部聚焦于行为育儿方法:3项研究考察不可思议的年代表扬技能模块,1项描述从父母管理训练演进的AI开发迭代,1项评估8模块的父母管理训练项目。B组研究包括2项培训职前教师功能性沟通训练(一种应用行为分析基础策略,用于教导儿童以沟通需求替代挑战行为)的论文,以及1项评估在职教师课堂行为管理策略的研究。C组涵盖更广泛的心理方法,包括动机访谈、CBT、书面暴露疗法、通用咨询和以人为本技能、自杀风险评估、临床社工培训和生态心理辅导。
3.3 分组研究结果
3.3.1 A组:照护者培训
5项A组论文均评估了在美洲开展的聊天机器人或对话AI工具传递的行为育儿培训。2项研究报告了TESS聊天机器人(X2AI;基于NLP)培训父母掌握不可思议的年岁的5项表扬技能的结果,1项报告了通过Facebook Messenger交付的AI聊天机器人的结果。可行性试点研究的完成率为78.8%(26/33),平均交换消息数为54.24(标准差13.05),知识回忆得分为均值3.07/5(标准差1.73),净推荐值(Net Promoter Score, NPS)为7.44/10(标准差2.31),未获得前后测疗效数据。随后的等待列表对照RCT未发现24小时随访时父母报告的表扬知识、自我效能或感知儿童行为存在统计学显著的组间效应,完成者的开放式技能保留率为均值77.96%。配套用户体验论文报告完成率66.3%,满意度均值4.19/5,所有可接受性维度评分均在4.51/5及以上(易用性4.66、舒适度4.76、技术功能4.69、交互性4.51、有用性4.75)。该RCT的无效主要结局需结合多项设计限制解读:天花板效应(干预前知识均值4.16/5)、干预时长过短(约15分钟)、因Facebook平台政策单方面变更导致计划7天随访丢失,这些限制严重削弱了无效发现的可解释性,不能排除更长、效力更高的项目可能产生有意义效应的可能性。
Escoredo等的开发类论文描述了PAT倡议,概述了对话AI演进的三个阶段:从规则型NLP(阶段1)、混合LLM集成(阶段2)到带RAG和安全护栏的代理架构(阶段3),未报告新的实证结局数据,阶段1的有效性证据来自Entenberg系列研究,该论文因详细描述育儿工具的AI发展轨迹被保留。
Rivera-Cepeda等评估了ParenteAI.V1(生成式AI;代理架构;智利;纳入22人,17人完成方案),照护者为6–12岁伴外化问题的儿童,完成了基于Barkley框架的8模块父母管理训练,采用混合模式:4次由实习治疗师和学生Pat共同引导的现场会话,4次由照护者独立完成与Pat的模块。模块平均完成率86.8%,照护者与AI平均交换消息数376(范围228–617),显著高于早期规则型TESS研究的54.24条,提示生成式AI可能维持显著更高的参与度。照护者与Pat的治疗联盟评分较高,工作联盟量表(Working Alliance Inventory, WAI)条目得分均值在6.53至6.59/7之间。前后测结局(采用儿童行为量表、抑郁焦虑压力量表21项版本等验证工具评估)显示:儿童外化行为效应量d=1.00(p<0.001),内化行为d=0.63(p=0.019),攻击行为d=0.99(p<0.001);照护者抑郁r=0.68(p=0.005),焦虑r=0.79(p=0.002),压力d=0.74(p=0.008),均为中到大效应量。作为由AI商业开发者实施的非对照试点,不能得出因果推断,观察到的改善可能反映受试者选择、回归均值、共同引导者贡献或测量期望效应,但这些发现提供了有前景的信号,需在独立、样本量充足的对照设计中复现。
3.3.2 B组:教育工作者培训
King等报告了Smart VR(集成AI的VR平台;Google NLP;Oculus 2;Unity引擎)的开发和初步可行性,该平台用于培训职前教师候选人掌握功能性沟通训练,自动绩效评分与人类观察者编码的一致性达88–96%,确立了自动保真度评估的技术可行性。King等随后开展了一项RCT(美国中西部大学本科生,分层区组随机化,分析样本量49:VR组24人,对照组25人),干预为期三周共三次会话,VR组在功能性沟通训练程序技能上产生显著的大效应:后测总掌握百分比(Overall Mastery Percentage, OMP)为78.70% vs 33.55%(d=2.45),维持期OMP为61.34% vs 31.77%(d=1.58),泛化维持期为67.31% vs 50.15%(d=0.52;时间×组交互η2p=0.527);至关重要的是,两组在陈述性知识和自我感知上未出现组间差异,表明AI-VR主要提升程序技能执行而非概念理解,组间接触时间不等是公认的设计局限。
Delamarre等评估了IVT-T(采用MASCARET多代理架构的3D课堂行为管理模拟器,含30个自主化身学生和两种课堂年级水平,为美澳合作研究),该研究为开发和可用性研究而非对照疗效试验,通过迭代顾问委员会评估优化情景真实性和化身质量。对在职K–8教师的使用研究显示定性证据表明学习可迁移到真实课堂,教师认为IVT-T比传统培训更具交互性,但未实施前后测技能或知识评估,作者明确指出计划的准实验评估尚未开展,还报告了原型阶段的排程障碍和技术限制。
3.3.3 C组:治疗师和从业者培训
C组是三组中最庞大且异质性最高的组别,共16篇论文,涵盖五个主题领域。与聚焦单一心理框架面向非专业人群的A组和B组不同,C组研究面向具备不同先验专业水平的合格和受训临床医生,覆盖动机访谈、CBT、以人为本咨询、自杀风险评估、生态心理辅导等多种循证方法,AI模态同样多样,包括基于NLP的聊天机器人、通用LLM的角色扮演配置,以及具备胜任力映射反馈的专用平台。多数研究处于可行性或概念验证阶段,定性发现的共同主题是AI模拟的可及性和感知安全性与其复制真实临床接触的 emotional authenticity和关系复杂性之间的张力。
3.3.4 动机访谈
Tanana等开展了一项RCT(美国亚马逊Mechanical Turk样本,N=151),比较模拟动机访谈来访者的NLP聊天机器人ClientBot与无实时反馈的同款聊天机器人。培训期间,干预组产生的反思性倾听反应(动机访谈核心技术,指从业者镜像或复述来访者表达的意义)高出91%(21.4% vs 11.2%,p<0.001);反馈移除后的测试阶段,干预组在聊天机器人测试阶段的反思性反应仍高出76%(14.1% vs 8.0%,p<0.001);在单独的固定反应后测中,干预组也使用了显著更多的反思性反应(d=0.58,p<0.01),表明技能获取具有持久性;开放性问题在反馈移除后无显著差异(p=0.16)。参与者对模拟来访者的不满意比例相对较高:73%认为其乏味,仅46%愿意再次使用该工具,MTurk样本限制了临床适用性,且三位合著者是Lyssn.io的联合创始人,存在商业利益关联。
Hershberger等评估了ReadMI(一种通过自动转录分析生成动机访谈相关反馈的AI工具),采用准实验群组随机设计(N=125名医疗受训者)。总体组间比较显示ReadMI在准备开放式问题方面占优:71.3% vs 60.5%(p=0.0005;d≈0.5);封闭式问题:2.8 vs 5.0(d=0.8;p<0.0001);开闭比:4.8 vs 2.5(d=0.7;p=0.0004)。主要方法学威胁在于群组层面而非个体随机化,以及潜在的基线队列混杂。
3.3.5 认知行为疗法
四项论文评估了CBT培训的AI工具。Zhang等开展了一项预注册混合方法试点(英国;iOS端;邀请101人,59人参与,31–33人完成调查),评估提供Roth-Pilling胜任力映射反馈的AI虚拟患者应用CBT Trainer,所有预设可行性阈值均达标,79.7%的参与者使用时长≥10分钟,可用性优异(系统可用性量表均值82.2),自我报告技能改善均值73.67/100,平均自愿参与时长95分钟;胜任力发展在评估技能(96.8%)和信息收集(67.7%)方面最高,但在伦理决策(0%)和文化胜任力(3.2%)方面完全缺失或极低,表明其在关系和伦理培训领域存在结构性局限。
Wang等评估了PATIENT-Ψ(采用带认知概念化图的GPT-4;N=33:20名专家,13名受训者;美国;被试内设计),与原始GPT-4基线相比,专家评分在保真度(μ=1.3,p<10-4)和培训有效性(μ=1.4,p<10-4)上均支持PATIENT-Ψ(量表范围-2至+2);80%–88%的模拟患者达到反映参考认知模型的“非常到极其准确”评级,100%的专家偏好将参考认知模型作为反馈展示。一个关键方法学发现是:作为自动评估器的GPT-4和Llama 3对原始GPT-4的评分高于PATIENT-Ψ,方向与人类专家相反。这不仅是众多局限之一:它表明基于LLM的自动评估不仅不精确,还可能系统性偏离人类专家判断。如果该发现具有普遍性,那么未来将自动LLM评估作为专家评估的可扩展替代方案的研究,可能产生虚假的有效性验证表象,随着领域规模扩大和自动评估因成本和实用性吸引力上升,这对领域发展具有严重影响。
Stade等评估了TherapyTrainer(GPT-4o;三个阶段;美国),在第二阶段(n=14名具有不同程度书面暴露疗法暴露的治疗师)中,71%认为AI患者真实,71%报告准备好交付书面暴露疗法,且该亚组中无咨询经历的71%在约一个月内开始用书面暴露疗法治疗患者;但该阶段AI顾问偶尔偏离书面暴露疗法协议,提供与手册化方法不一致的引导。
Fung和Laing发表了一项无人类参与者的概念验证研究,证明GPT-4能以约1.12美元/角色扮演会话的成本模拟抑郁CBT来访者,并在不同CBT技术中保持一致的表现。一项贯穿CBT研究的结构性局限值得明确:商业LLM平台常规应用安全护栏,限制与自杀风险、自伤和危机表现等高风险的临床内容互动,而这些恰恰是需要练习且督导实践机会最少的胜任力领域。研究者记录了直接后果——无法培训治疗师进行自杀风险评估,但该限制并非研究特有:它反映了通用LLM的系统性特征,对临床培训设计具有直接意义。
3.3.6 通用咨询和以人为本技能
六项论文涉及该领域。Maurya描述了ChatGPT来访者模拟模型,这是一个四级教学框架,无正式实证评估。Maurya对美国10份ChatGPT模拟咨询转录本的质性内容分析显示,AI来访者反应总体真实且情感表达充分,但在文化细微差别和过度理想化反应方面存在局限。Akkurt等报告了质性发现(美国,9名受训咨询师),参与者认为ChatGPT心理安全但过度认同且情感浅薄,部分指出复杂呈现问题在几个对话回合内就过快解决。Schmidt等评估了Client101(GPT-4;澳大利亚,N=15),100%参与者同意该工具可提升技能,80%认为可补充培训,53%认为其真实;质性主题(“几乎太好”“没有阻力”“缺乏复杂性”)与本综述所有质性研究一致。Prescott等评估了ERIC(预编程NLP聊天机器人,用于以人为本治疗;英国,N=28名咨询学生),100%参与者认为是有用的学习工具,97%报告其促使反思技能;质性主题突出了感知真实性和嵌入式导师反馈的价值。
Grundmann等评估了Lilobot(基于BDI的认知代理,用于儿童热线咨询师;荷兰;预注册交叉设计,N=28),报告Lilobot培训后自我效能显著降低(时间×条件F(1,78)=6.52,p=0.01;前测均值3.72→后测均值1.71),文本培训后无显著变化;79%参与者报告Lilobot无法自然对话。这是唯一报告阴性主要结果的预注册研究,该降低最可能归因于校准效应(咨询师通过交互模拟更意识到儿童中心技能的复杂性)、工具本身的局限(BDI架构在自然对话方面的约束),或两者兼有。
3.4 专科临床领域
Elyoseph等评估了多语言AI自杀风险评估模拟器(Claude 3.5 Sonnet),自我效能显著改善(t(26)=-3.31;p=0.01;前测均值6.7→后测均值7.6),临床工作年限与自我效能增益呈负相关(r=-0.54,p=0.01),表明模拟器对职业生涯早期的从业者获益最大;该系统能在20种语言运行,是全球可扩展性的具体概念验证。
Lushyn和Sukhenko开展了一项试点混合方法研究,使用Claude 3.5 Sonnet的三种角色扮演格式(AI作为顾问、AI作为来访者、AI作为督导)培训心理学家掌握生态中心心理辅导方法(乌克兰/美国;2个月在线项目,N=40),识别出专业发展的三因子模型(个人-职业取向、技术掌握、沟通能力;解释方差80.83%;问卷α=0.878),总体