综述：用于照护者、教育工作者和治疗师心理方法培训的人工智能工具：一项系统综述

《Nutrients》：Artificial Intelligence (AI) Tools for Training Caregivers, Educators, and Therapists in Psychological Approaches: A Systematic Review

【字体：大中小】 时间：2026年06月12日 来源：Nutrients 5

编辑推荐：

　　背景：与儿童最密切的成年人，包括父母与照护者、教师和治疗师，是儿童心理健康结局的主要决定因素。然而，这些群体获得高质量心理培训的渠道仍然严重有限且不均衡。人工智能（Artificial Intelligence, AI）工具可能为培训交付提供一种可扩展、可及且

背景：与儿童最密切的成年人，包括父母与照护者、教师和治疗师，是儿童心理健康结局的主要决定因素。然而，这些群体获得高质量心理培训的渠道仍然严重有限且不均衡。人工智能（Artificial Intelligence, AI）工具可能为培训交付提供一种可扩展、可及且低成本的路径。本综述旨在首次系统综合有关AI工具用于培训照护者、教育工作者和治疗师/从业者掌握与儿童和青少年心理健康相关的心理方法的证据。方法：本系统综述依据PRISMA指南开展（PROSPERO注册号：CRD420261336167）。检索了MEDLINE、PsycINFO、Embase、Web of Science和ERIC五个数据库从建库至2026年3月的文献，辅以参考文献手工检索和引文正向追踪。研究纳入标准为：评估基于AI的培训工具，研究对象为承担儿童或青少年（0–18岁）照护、教育或治疗角色的成年人，工具需传递明确的心理方法，并报告至少一项培训结局指标。由于方法和结局存在显著异质性，本研究采用叙述性综合，未进行Meta分析。结果：来自9个国家、发表于2019年至2026年的24项研究符合纳入标准。研究分为三组：照护者培训（A组，5篇）、教育工作者培训（B组，3篇）和治疗师/从业者培训（C组，16篇）。识别出的AI模态包括基于自然语言处理（Natural Language Processing, NLP）的聊天机器人、生成式AI/大语言模型（Large Language Model, LLM）系统、集成AI的虚拟现实（Virtual Reality, VR）以及基于AI的反馈与分析工具。各组的干预可行性和可接受性总体呈积极结果。然而，证据基础受限于普遍的方法学缺陷：样本量小（多数研究纳入不足30名参与者）、依赖未经验证的自我报告结局，以及缺乏超过1个月的随访数据。结论：AI工具作为心理培训的可扩展路径显示出早期潜力，尤其在程序性技能获取和提升从业者自我效能方面。但目前的证据基础不足以支持其有效性主张。该领域存在结构性可信度-可及性悖论：拥有最强对照证据的工具可扩展性最低，而可及性最高的工具实证支持最弱。所有三类人群均需开展样本量充足、由独立团队实施的随机对照试验（Randomised Controlled Trial, RCT），采用经过验证的结局指标、主动对照，并将随访周期延长至多个月。

1.
引言

全球儿童青少年心理健康负担沉重，约七分之一的儿童青少年受精神健康问题困扰，此类疾病占该年龄段全球疾病负担的13%，三分之一的精神障碍在14岁前起病，约半数在18岁前起病。尽管患病率高，治疗缺口巨大：中低收入国家超90%的受影响儿童无法获得循证照护，高收入国家的治疗缺口在大多数诊断类别中也超过50%。这一未满足需求的累积发展、教育和经济成本已有充分记录，凸显专科临床服务难以规模化覆盖需求的现实约束。解决这一缺口不仅需要扩大临床服务，更需要重新构想心理支持的提供主体与机制。因此，培训与儿童最密切的成年人——照护者、教育工作者和从业者——并非辅助策略，而是应对人口层面未满足需求的核心人力响应。

1.1 照护者、教育工作者和治疗师的角色

儿童的心理发展嵌套于近端关系的层级系统中，家庭、学校和临床环境是最具影响力的场域。照护者是最早且最具影响力的近端关系主体，早期依恋安全性与情绪调节、同伴能力和长期心理健康轨迹存在已确立的纵向关联。包括父母管理训练、不可思议的年代项目和三重P项目在内的循证育儿方案，已在多项RCT和Meta分析中证实可可靠减少儿童行为与情绪困难，同时改善父母心理社会福祉。教育工作者是第二层关键近端主体，教师在一天中与孩子接触时长占比高，在早期发现困难、示范情绪调节和实施循证课堂支持策略方面处于独特位置。包括积极行为支持和社交情绪学习课程在内的普适性与针对性学校方案，已显示出对学生结局的有意义和持续效应，但其影响关键取决于教育工作者的知识、信心和干预保真度。第三类核心人群是心理健康治疗师和受训从业者，其对认知行为疗法、动机访谈、创伤聚焦疗法、心智化基础治疗等循证方法的胜任力获取，直接塑造向儿童和家庭提供照护的质量与覆盖范围。在这三类人群中，治疗师培训的相关文献最为成熟，已建立胜任力框架、督导模型和保真度评估工具。然而，将循证心理培训扩展到照护者和教育工作者的实践与公平意义可能更大：这两类人群数量更多，获得结构化培训的可能性更低，且往往与最需要帮助的儿童保持更持续的日常接触。面向照护者和教育工作者的心理方法培训属于心理教育干预，参与者无需持有临床资质即可习得支持儿童心理健康的结构化知识和实践技能，其理论基础源于强调行为建模、演练和强化的社会学习理论，以及将自我效能作为核心中介机制的自调节框架；治疗师培训则以胜任力导向教育为核心理论基础，刻意练习、结构化反馈和保真度监测是技能获取的核心要素。

1.2 培训可及性问题与可扩展方案的必要性

尽管支持面向三类人群的培训证据广泛，高质量培训的获取仍面临深刻且持续的不平等。传统培训模式（包括小组工作坊、个体督导、现场示范和认证培训项目）属于资源密集型，需要专家培训师、物理空间、固定时间和地理邻近性，这些并非次要不便，而是结构性排斥标准，系统性地将最需要培训的照护者、教育工作者和从业者排除在外。对于从事多份工作、居住在农村或偏远地区、处于贫困和社会不利地位的照护者而言，这些要求往往难以逾越。对于教育工作者，心理方法的持续职业发展培训很少纳入初始培养体系，且往往是预算削减的首要牺牲品。在中低收入国家，专科心理健康专业知识集中在城市中心，人力队伍严重不足以满足人口需求；在高收入国家，循证培训项目的等待名单可长达数月，获取机会在社会经济、种族和地理维度分布不均。这种最需要培训的人群最不可能获得培训的结构性不平等，迫切需要可扩展的解决方案。数字交付已在多种育儿干预形式中证实可行性和可接受性，也为面向患者的心理健康支持带来前景。但迄今为止大多数数字工具仅提供静态或低交互内容（如心理教育视频和自导模块），无法实现复杂心理技能发展所需的主动、富含反馈的学习。真正自适应、交互式的人工智能培训的发展可能代表阶跃式变化：一种能够同时向大量参与者提供个性化、响应式实践的模态，且无需按比例增加专家时间投入。

1.3 作为培训模态的人工智能

广义上定义为能够执行通常需要人类智能的任务的计算系统的AI技术，自2017年左右以来快速发展，深度学习进步以及近期能够开展复杂自然对话的LLM的出现是主要驱动力。针对临床和心理教育培训，相关AI模态包括：用于结构化对话练习的基于NLP的聊天机器人；具备自适应、开放式交互能力的生成式AI系统；结合沉浸式模拟与AI驱动化身行为的集成AI的VR环境；提供受训者表现自动反馈的智能辅导系统；以及结合人类引导与AI中介练习的混合平台。这些技术的共同特征是区别于静态数字内容的交互性、自适应性和按需可用性。重要的是，这些模态不仅在技术架构上存在差异，在教学功能上也各有侧重：部分最佳理解为模拟工具，提供安全环境下的临床情境演练；部分作为反馈引擎，分析受训者表现并生成改进信号；部分作为心理教育伙伴，交互式传递结构化知识；部分作为自适应导师，根据每位受训者的水平校准挑战与内容。这种教学功能的差异（而非单纯技术复杂度）直接决定了不同AI工具可实际服务的培训目标。

这些特征为培训三类人群提供了特定优势：AI工具可提供重复性刻意练习而不消耗人类督导资源；能提供根据受训者反应校准的即时个性化反馈；可在不同场景中安全、一致地模拟复杂临床情境；关键是可在任何时间、任何地点以极低的单用户边际成本实现规模化，这是任何专科人力队伍都无法复制的。在系统层面，这为将循证心理知识扩展到当前完全无法获得高质量培训的数百万照护者、教育工作者和从业者提供了可能。为说明这类工具的实际运作逻辑，本综述纳入的研究中典型的基于LLM的培训会话遵循通用流程：受训者独立访问平台，选择与目标任务匹配的场景；AI代理以预设人格运行，在更先进的系统中还具备结构化临床知识库，呈现开场提示并对受训者的自由文本输入做出自适应响应；AI的响应由其底层模型的训练数据和开发者提供的系统级指令共同塑造；表现反馈可实时提供、在会话结束时提供，或由项目层面的督导进行审阅。不同工具的人类参与程度差异显著：部分完全自导，每次会话无需临床医生投入；其他则采用混合形式，将AI中介练习嵌入包含人类引导的更广泛项目中。这种人力投入的差异本身是关键设计参数，对可扩展性、成本和可实现培训的深度均有影响。

1.4 本研究概述

针对数字交付育儿支持的系统综述已证实其可行性和可接受性，尤其对于结构化、交互式项目，但未专门聚焦具备真实AI成分的研究。例如，一项针对育儿领域数字对话代理的系统综述报告了高留存率和总体积极的接受度，同时指出疗效证据有限。一项电子交付与面对面认知行为疗法的Meta分析发现，数字交付对抑郁障碍的效果为小到中等。另有研究进一步强调了LLM对行为健康照护培训的变革潜力，呼吁建立负责任的开发与评估框架。尽管已有这些贡献，目前尚无已发表的系统综述专门综合关于AI工具用于培训照护者、教育工作者或治疗师掌握儿童和青少年心理健康循证心理方法的证据。现有综述要么关注无真实AI成分的数字工具，要么关注直接面向患者的AI干预，要么关注不限制AI技术的专科临床培训。本综述在三个重要方面区别于现有研究：将资格限定为具备真实AI成分的工具；专门聚焦培训人群而非直接治疗交付；要求所传递的内容构成明确的循证心理方法。在此背景下，本综述旨在首次系统综合关于面向照护者、教育工作者和治疗师/从业者的基于AI的培训工具的实证证据，具体指导目标包括四个：第一，识别并表征所有评估用于培训三类人群掌握儿童青少年循证心理方法的AI工具的实证研究；第二，描述纳入研究中采用的AI技术、其特征及发展轨迹；第三，综合基于AI的培训工具的可行性和可接受性证据；第四，评估基于AI的培训工具在改善知识、技能、自我效能和临床行为改变结局方面的有效性。这些目标共同为儿童青少年心理健康领域AI工具在心理培训中的开发、评估和负责任实施决策提供证据基础。正如研究结果所示，贯穿证据的核心张力是：拥有最强对照证据的工具有效性最差，而最具可扩展潜力的工具实证支持最弱——这一可信度-可及性悖论对AI培训工具的公平部署具有直接意义。
2.
方法

2.1 检索策略

本系统综述依据系统综述和Meta分析优先报告条目（Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA）指南开展，研究方案已在数据收集前前瞻性注册于国际系统综述前瞻性注册库（International Prospective Register of Systematic Reviews, PROSPERO）（注册号：CRD420261336167）。检索覆盖MEDLINE（Ovid）、PsycINFO（Ovid）、Embase（Ovid）、Web of Science核心合集和ERIC（EBSCO）五个电子数据库，时间跨度为建库至2026年3月，无日期限制，限定为英文出版物。检索策略围绕三个核心概念域构建，使用布尔运算符AND组合：第一域为人群术语，涵盖承担儿童青少年照护、教育和治疗角色的成年人，包括父母、照护者、母亲、父亲、寄养照料者、儿童工作者、教师、教育工作者、学校工作人员、治疗师、咨询师、心理学家、社会工作者、从业者、临床医生及相关变体；第二域为干预术语，涵盖AI和技术赋能的培训模态，包括人工智能、聊天机器人、LLM、生成式AI、对话代理、NLP、VR、智能辅导系统、模拟、化身、严肃游戏、可穿戴设备及相关变体；第三域为心理方法和培训结局术语，涵盖循证心理方法和培训内容，包括心理干预、循证实践、育儿项目、认知行为疗法（Cognitive Behavioural Therapy, CBT）、动机访谈、创伤聚焦疗法、心智化、心理教育、心理健康培训、胜任力、技能培训、知识、自我效能、保真度及相关变体；各域内术语使用OR组合。除数据库检索外，还检索了ProQuest全球博硕士论文库、Google Scholar（限定前200条结果）并通过Google Scholar对纳入研究进行引文正向追踪，同时手工检索纳入研究和相关系统综述的参考文献列表。

2.2 纳入标准

纳入标准包括以下四方面。第一，合格人群为年满18岁、承担0–18岁儿童青少年照护、教育或治疗角色的成年人，具体包括三类：照护者（亲生、收养、寄养和亲属父母、监护人及其他家庭成员）；教育工作者和教育相关从业者（教师、助教、早教从业者、学校咨询师、学校心理学家、辅助专业人员、儿童工作者、寄宿照料工作者）；以及面向儿童青少年的治疗师和从业者（受训治疗师、临床心理学家、教育心理学家）。排除非面向儿童角色成年人的研究。第二，合格干预为任何用于培训、辅导或向合格人群传递心理教育的基于AI的工具，内容需为明确的心理方法或循证策略；合格AI模态包括基于NLP的聊天机器人、LLM、生成式AI平台、对话代理、虚拟代理、智能辅导系统、带AI组件的VR/增强现实（Augmented Reality, AR）系统、基于化身的模拟平台和带AI生成内容或反馈的自适应严肃游戏；合格内容包括结构化循证心理方法培训（如CBT、心智化基础方法、依恋基础育儿项目、情绪调节策略、正念、动机访谈、创伤知情实践、亲子互动治疗、不可思议的年代项目、三重P、父母管理训练、积极行为支持、功能性沟通训练），以及面向合格人群的直接传递心理概念、儿童发展和循证策略的AI心理教育，还包括针对儿童照护、教育或治疗实践任何方面的辅导；排除无真实AI成分的静态数字工具（如静态网站、PDF、预录视频、无NLP的短信、人工电话交付）。第三，研究需报告至少一项与培训或心理教育相关的可测量结局，包括心理方法的知识、技能或胜任力，自我效能，培训工具的可接受性或可行性，参与度指标，以及作为培训研究次要结局报告的儿童青少年心理健康或行为结局。第四，所有实证研究设计均合格，包括RCT、准实验研究、非随机对照研究、单臂前后测研究、试点与可行性研究、质性研究、混合方法研究和单案例实验设计；少量描述AI系统但无独立实证评估的开发类和概念类论文也被保留，仅用于描述AI开发生态的背景信息，不作为评估证据的一部分，在全文中被视为领域背景信息而非评估数据；排除系统综述、社论、观点文章、无原始数据的方案和会议摘要。第五，仅纳入英文出版物，不对国家、场景、收入水平或发表日期设限。

2.3 研究筛选

去重后由两名独立评审员分两阶段筛选记录：第一阶段进行题目和摘要筛选（纳入/不确定/排除），若资格不明确则进入全文评审；第二阶段根据纳入标准评估全文，记录所有排除研究的排除原因，分歧通过讨论解决，必要时参考纳入标准。此外，还检查纳入研究的参考文献列表和相关Meta分析与综述文章以识别更多合格文献，最终资格决定在有需要时经详细讨论达成共识。

2.4 数据提取

从每项纳入研究中提取以下信息：研究标识（第一作者、年份、国家、研究设计）；人群特征（人群类型、场景、样本量、人口学特征）；干预特征（AI工具类型、工具名称、心理方法或内容领域、交付模式、时长、强度、人类引导程度）；比较对象（如适用）；结局指标（工具、心理测量学属性、评估时间点）；定量发现和效应量（如报告）；可行性和可接受性数据；资金来源和利益冲突声明。

2.5 质量评价

根据研究设计选用相应工具进行方法学质量评价：针对RCT使用Cochrane偏倚风险工具第2版（Risk of Bias 2, RoB 2）；针对非随机干预研究使用ROBINS-I（2016版）；针对质性研究使用批判性评估技能项目（Critical Appraisal Skills Programme, CASP）质性核查表；针对混合方法研究使用混合方法评价工具（Mixed Methods Appraisal Tool, MMAT，2018版）。质量评价分两次开展以保证评分一致性，质量评分用于解释和语境化研究发现，但不单独作为排除研究的依据，评分差异通过讨论解决。

2.6 数据合成

采用叙述性综合作为证据整合的主要方法，按AI工具类型和模态、培训的心理方法、目标人群、可行性和可接受性以及有效性结局组织结果。选择该结构是为了适应纳入研究在设计、人群、干预和结局测量上的异质性。由于共享可比人群、干预和结局指标的研究数量不足以生成有临床意义的合并估计，且结局指标在不同研究中差异显著，因此未进行定量Meta分析。
3.
结果

3.1 研究筛选

五个电子数据库的检索共识别出9866条记录，去重后剩余5959条进入筛选；题目和摘要筛选排除了5904条不相关记录，55条进入全文评审；全文评估排除了35条记录（原因包括无AI成分12条、直接面向儿童治疗10条、无明确心理方法5条、AI仅用于评估3条、非实证研究类型5条）；通过参考文献筛查和引文正向追踪额外识别出4项合格研究，最终24项研究符合纳入标准。研究筛选过程严格遵循PRISMA指南，评审员通过迭代讨论解决不确定性，确保纳入标准应用的一致性。

3.2 研究特征

24项纳入研究覆盖9个国家或国家组合，美国贡献最多（12项），其次为阿根廷（4项）、英国（3项）、智利（1项）、荷兰（1项）、澳大利亚（1项），另有3项为跨国合作研究（阿根廷/美国、美国/澳大利亚、美国/乌克兰）。发表日期范围为2019年至2026年，2024年后发表数量显著增加。为便于综合，研究按主要培训目标分为三组：A组为照护者培训（5项），B组为教育工作者培训（3项），C组为治疗师和从业者培训（16项）。

3.2.1 识别的人工智能技术

纳入研究识别出五类AI工具：第一类是基于NLP和规则型聊天机器人，包括使用NLP或脚本决策树的结构化对话工具，如TESS/X2AI、基于治疗转录本训练的ClientBot、采用BDI认知代理架构的Lilobot、Client101、带预编程场景的ERIC；第二类是生成式AI和LLM系统，支持自适应对话模拟，如采用代理架构和检索增强生成（Retrieval-Augmented Generation, RAG）的ParenteAI/Pat、作为虚拟CBT来访者的GPT-4、基于ChatGPT的平台、使用GPT-4o的TherapyTrainer、采用带认知个案模型的GPT-4的PATIENT-Ψ、使用Claude 3.5 Sonnet的多语言自杀风险模拟器、用于生态心理辅导培训的Claude 3.5 Sonnet；第三类是集成AI的VR平台，包括沉浸式模拟系统，如采用Google NLP API和Oculus Quest 2的Smart VR、采用MASCARET多代理架构的3D课堂IVT-T、使用GPT-4o-mini、Whisper语音转文本（Speech-to-Text, STT）和AWS Polly文本转语音（Text-to-Speech, TTS）的AI赋能社工培训VR平台；第四类是AI反馈和分析工具，用于分析受训者表现并生成自动反馈，包括使用深度学习和NLP提供动机访谈反馈的ReadMI，以及基于Roth-Pilling框架提供胜任力映射反馈的CBT Trainer；第五类是少量开发类和概念类论文，描述了AI系统开发但无独立实证评估，用于理解AI培训工具的发展轨迹和实施生态。

3.2.2 培训的心理方法

A组研究全部聚焦于行为育儿方法：3项研究考察不可思议的年代表扬技能模块，1项描述从父母管理训练演进的AI开发迭代，1项评估8模块的父母管理训练项目。B组研究包括2项培训职前教师功能性沟通训练（一种应用行为分析基础策略，用于教导儿童以沟通需求替代挑战行为）的论文，以及1项评估在职教师课堂行为管理策略的研究。C组涵盖更广泛的心理方法，包括动机访谈、CBT、书面暴露疗法、通用咨询和以人为本技能、自杀风险评估、临床社工培训和生态心理辅导。

3.3 分组研究结果

3.3.1 A组：照护者培训

5项A组论文均评估了在美洲开展的聊天机器人或对话AI工具传递的行为育儿培训。2项研究报告了TESS聊天机器人（X2AI；基于NLP）培训父母掌握不可思议的年岁的5项表扬技能的结果，1项报告了通过Facebook Messenger交付的AI聊天机器人的结果。可行性试点研究的完成率为78.8%（26/33），平均交换消息数为54.24（标准差13.05），知识回忆得分为均值3.07/5（标准差1.73），净推荐值（Net Promoter Score, NPS）为7.44/10（标准差2.31），未获得前后测疗效数据。随后的等待列表对照RCT未发现24小时随访时父母报告的表扬知识、自我效能或感知儿童行为存在统计学显著的组间效应，完成者的开放式技能保留率为均值77.96%。配套用户体验论文报告完成率66.3%，满意度均值4.19/5，所有可接受性维度评分均在4.51/5及以上（易用性4.66、舒适度4.76、技术功能4.69、交互性4.51、有用性4.75）。该RCT的无效主要结局需结合多项设计限制解读：天花板效应（干预前知识均值4.16/5）、干预时长过短（约15分钟）、因Facebook平台政策单方面变更导致计划7天随访丢失，这些限制严重削弱了无效发现的可解释性，不能排除更长、效力更高的项目可能产生有意义效应的可能性。

Escoredo等的开发类论文描述了PAT倡议，概述了对话AI演进的三个阶段：从规则型NLP（阶段1）、混合LLM集成（阶段2）到带RAG和安全护栏的代理架构（阶段3），未报告新的实证结局数据，阶段1的有效性证据来自Entenberg系列研究，该论文因详细描述育儿工具的AI发展轨迹被保留。

Rivera-Cepeda等评估了ParenteAI.V1（生成式AI；代理架构；智利；纳入22人，17人完成方案），照护者为6–12岁伴外化问题的儿童，完成了基于Barkley框架的8模块父母管理训练，采用混合模式：4次由实习治疗师和学生Pat共同引导的现场会话，4次由照护者独立完成与Pat的模块。模块平均完成率86.8%，照护者与AI平均交换消息数376（范围228–617），显著高于早期规则型TESS研究的54.24条，提示生成式AI可能维持显著更高的参与度。照护者与Pat的治疗联盟评分较高，工作联盟量表（Working Alliance Inventory, WAI）条目得分均值在6.53至6.59/7之间。前后测结局（采用儿童行为量表、抑郁焦虑压力量表21项版本等验证工具评估）显示：儿童外化行为效应量d=1.00（p<0.001），内化行为d=0.63（p=0.019），攻击行为d=0.99（p<0.001）；照护者抑郁r=0.68（p=0.005），焦虑r=0.79（p=0.002），压力d=0.74（p=0.008），均为中到大效应量。作为由AI商业开发者实施的非对照试点，不能得出因果推断，观察到的改善可能反映受试者选择、回归均值、共同引导者贡献或测量期望效应，但这些发现提供了有前景的信号，需在独立、样本量充足的对照设计中复现。

3.3.2 B组：教育工作者培训

King等报告了Smart VR（集成AI的VR平台；Google NLP；Oculus 2；Unity引擎）的开发和初步可行性，该平台用于培训职前教师候选人掌握功能性沟通训练，自动绩效评分与人类观察者编码的一致性达88–96%，确立了自动保真度评估的技术可行性。King等随后开展了一项RCT（美国中西部大学本科生，分层区组随机化，分析样本量49：VR组24人，对照组25人），干预为期三周共三次会话，VR组在功能性沟通训练程序技能上产生显著的大效应：后测总掌握百分比（Overall Mastery Percentage, OMP）为78.70% vs 33.55%（d=2.45），维持期OMP为61.34% vs 31.77%（d=1.58），泛化维持期为67.31% vs 50.15%（d=0.52；时间×组交互η²_p=0.527）；至关重要的是，两组在陈述性知识和自我感知上未出现组间差异，表明AI-VR主要提升程序技能执行而非概念理解，组间接触时间不等是公认的设计局限。

Delamarre等评估了IVT-T（采用MASCARET多代理架构的3D课堂行为管理模拟器，含30个自主化身学生和两种课堂年级水平，为美澳合作研究），该研究为开发和可用性研究而非对照疗效试验，通过迭代顾问委员会评估优化情景真实性和化身质量。对在职K–8教师的使用研究显示定性证据表明学习可迁移到真实课堂，教师认为IVT-T比传统培训更具交互性，但未实施前后测技能或知识评估，作者明确指出计划的准实验评估尚未开展，还报告了原型阶段的排程障碍和技术限制。

3.3.3 C组：治疗师和从业者培训

C组是三组中最庞大且异质性最高的组别，共16篇论文，涵盖五个主题领域。与聚焦单一心理框架面向非专业人群的A组和B组不同，C组研究面向具备不同先验专业水平的合格和受训临床医生，覆盖动机访谈、CBT、以人为本咨询、自杀风险评估、生态心理辅导等多种循证方法，AI模态同样多样，包括基于NLP的聊天机器人、通用LLM的角色扮演配置，以及具备胜任力映射反馈的专用平台。多数研究处于可行性或概念验证阶段，定性发现的共同主题是AI模拟的可及性和感知安全性与其复制真实临床接触的 emotional authenticity和关系复杂性之间的张力。

3.3.4 动机访谈

Tanana等开展了一项RCT（美国亚马逊Mechanical Turk样本，N=151），比较模拟动机访谈来访者的NLP聊天机器人ClientBot与无实时反馈的同款聊天机器人。培训期间，干预组产生的反思性倾听反应（动机访谈核心技术，指从业者镜像或复述来访者表达的意义）高出91%（21.4% vs 11.2%，p<0.001）；反馈移除后的测试阶段，干预组在聊天机器人测试阶段的反思性反应仍高出76%（14.1% vs 8.0%，p<0.001）；在单独的固定反应后测中，干预组也使用了显著更多的反思性反应（d=0.58，p<0.01），表明技能获取具有持久性；开放性问题在反馈移除后无显著差异（p=0.16）。参与者对模拟来访者的不满意比例相对较高：73%认为其乏味，仅46%愿意再次使用该工具，MTurk样本限制了临床适用性，且三位合著者是Lyssn.io的联合创始人，存在商业利益关联。

Hershberger等评估了ReadMI（一种通过自动转录分析生成动机访谈相关反馈的AI工具），采用准实验群组随机设计（N=125名医疗受训者）。总体组间比较显示ReadMI在准备开放式问题方面占优：71.3% vs 60.5%（p=0.0005；d≈0.5）；封闭式问题：2.8 vs 5.0（d=0.8；p<0.0001）；开闭比：4.8 vs 2.5（d=0.7；p=0.0004）。主要方法学威胁在于群组层面而非个体随机化，以及潜在的基线队列混杂。

3.3.5 认知行为疗法

四项论文评估了CBT培训的AI工具。Zhang等开展了一项预注册混合方法试点（英国；iOS端；邀请101人，59人参与，31–33人完成调查），评估提供Roth-Pilling胜任力映射反馈的AI虚拟患者应用CBT Trainer，所有预设可行性阈值均达标，79.7%的参与者使用时长≥10分钟，可用性优异（系统可用性量表均值82.2），自我报告技能改善均值73.67/100，平均自愿参与时长95分钟；胜任力发展在评估技能（96.8%）和信息收集（67.7%）方面最高，但在伦理决策（0%）和文化胜任力（3.2%）方面完全缺失或极低，表明其在关系和伦理培训领域存在结构性局限。

Wang等评估了PATIENT-Ψ（采用带认知概念化图的GPT-4；N=33：20名专家，13名受训者；美国；被试内设计），与原始GPT-4基线相比，专家评分在保真度（μ=1.3，p<10^-4）和培训有效性（μ=1.4，p<10^-4）上均支持PATIENT-Ψ（量表范围-2至+2）；80%–88%的模拟患者达到反映参考认知模型的“非常到极其准确”评级，100%的专家偏好将参考认知模型作为反馈展示。一个关键方法学发现是：作为自动评估器的GPT-4和Llama 3对原始GPT-4的评分高于PATIENT-Ψ，方向与人类专家相反。这不仅是众多局限之一：它表明基于LLM的自动评估不仅不精确，还可能系统性偏离人类专家判断。如果该发现具有普遍性，那么未来将自动LLM评估作为专家评估的可扩展替代方案的研究，可能产生虚假的有效性验证表象，随着领域规模扩大和自动评估因成本和实用性吸引力上升，这对领域发展具有严重影响。

Stade等评估了TherapyTrainer（GPT-4o；三个阶段；美国），在第二阶段（n=14名具有不同程度书面暴露疗法暴露的治疗师）中，71%认为AI患者真实，71%报告准备好交付书面暴露疗法，且该亚组中无咨询经历的71%在约一个月内开始用书面暴露疗法治疗患者；但该阶段AI顾问偶尔偏离书面暴露疗法协议，提供与手册化方法不一致的引导。

Fung和Laing发表了一项无人类参与者的概念验证研究，证明GPT-4能以约1.12美元/角色扮演会话的成本模拟抑郁CBT来访者，并在不同CBT技术中保持一致的表现。一项贯穿CBT研究的结构性局限值得明确：商业LLM平台常规应用安全护栏，限制与自杀风险、自伤和危机表现等高风险的临床内容互动，而这些恰恰是需要练习且督导实践机会最少的胜任力领域。研究者记录了直接后果——无法培训治疗师进行自杀风险评估，但该限制并非研究特有：它反映了通用LLM的系统性特征，对临床培训设计具有直接意义。

3.3.6 通用咨询和以人为本技能

六项论文涉及该领域。Maurya描述了ChatGPT来访者模拟模型，这是一个四级教学框架，无正式实证评估。Maurya对美国10份ChatGPT模拟咨询转录本的质性内容分析显示，AI来访者反应总体真实且情感表达充分，但在文化细微差别和过度理想化反应方面存在局限。Akkurt等报告了质性发现（美国，9名受训咨询师），参与者认为ChatGPT心理安全但过度认同且情感浅薄，部分指出复杂呈现问题在几个对话回合内就过快解决。Schmidt等评估了Client101（GPT-4；澳大利亚，N=15），100%参与者同意该工具可提升技能，80%认为可补充培训，53%认为其真实；质性主题（“几乎太好”“没有阻力”“缺乏复杂性”）与本综述所有质性研究一致。Prescott等评估了ERIC（预编程NLP聊天机器人，用于以人为本治疗；英国，N=28名咨询学生），100%参与者认为是有用的学习工具，97%报告其促使反思技能；质性主题突出了感知真实性和嵌入式导师反馈的价值。

Grundmann等评估了Lilobot（基于BDI的认知代理，用于儿童热线咨询师；荷兰；预注册交叉设计，N=28），报告Lilobot培训后自我效能显著降低（时间×条件F(1,78)=6.52，p=0.01；前测均值3.72→后测均值1.71），文本培训后无显著变化；79%参与者报告Lilobot无法自然对话。这是唯一报告阴性主要结果的预注册研究，该降低最可能归因于校准效应（咨询师通过交互模拟更意识到儿童中心技能的复杂性）、工具本身的局限（BDI架构在自然对话方面的约束），或两者兼有。

3.4 专科临床领域

Elyoseph等评估了多语言AI自杀风险评估模拟器（Claude 3.5 Sonnet），自我效能显著改善（t(26)=-3.31；p=0.01；前测均值6.7→后测均值7.6），临床工作年限与自我效能增益呈负相关（r=-0.54，p=0.01），表明模拟器对职业生涯早期的从业者获益最大；该系统能在20种语言运行，是全球可扩展性的具体概念验证。

Lushyn和Sukhenko开展了一项试点混合方法研究，使用Claude 3.5 Sonnet的三种角色扮演格式（AI作为顾问、AI作为来访者、AI作为督导）培训心理学家掌握生态中心心理辅导方法（乌克兰/美国；2个月在线项目，N=40），识别出专业发展的三因子模型（个人-职业取向、技术掌握、沟通能力；解释方差80.83%；问卷α=0.878），总体

热点排行