《AI》:Machine Learning Approaches for Filtering Organometallic Reactions: A Comparative Study of Molecular Descriptors
编辑推荐:
背景:最接近儿童的成年人,包括父母和照护者、教师以及治疗师,是儿童心理健康结果的主要决定因素。然而,这些群体获得高质量心理培训的机会仍然严重受限且不公平。人工智能(AI)工具可能为培训交付提供一条可扩展、可获取且低成本的道路。本综述旨在提供关于AI工具用于培训
背景:最接近儿童的成年人,包括父母和照护者、教师以及治疗师,是儿童心理健康结果的主要决定因素。然而,这些群体获得高质量心理培训的机会仍然严重受限且不公平。人工智能(AI)工具可能为培训交付提供一条可扩展、可获取且低成本的道路。本综述旨在提供关于AI工具用于培训照护者、教育者和治疗师/从业者(涉及与儿童和青少年心理健康相关的心理方法)的首次系统性证据综合。方法:按照PRISMA指南(PROSPERO:CRD420261336167)进行系统综述。检索了五个数据库(MEDLINE、PsycINFO、Embase、Web of Science和ERIC),从建库到2026年3月,并辅以参考文献手动检索和前瞻性引文追踪。研究纳入标准为:评估基于AI的培训工具,用于与0–18岁儿童或青少年有关的照护、教育或治疗角色的成年人;交付定义的心理方法;并报告至少一项培训结果。由于方法和结果的高度异质性,研究结果以叙述性综合呈现,未进行荟萃分析。结果:来自九个国家的24项研究(发表于2019年至2026年)符合纳入标准。研究分为照护者培训(A组,5篇)、教育者培训(B组,3篇)和治疗师/从业者培训(C组,16篇)。识别的AI模态包括基于自然语言处理(NLP)的聊天机器人、生成式AI/大语言模型(LLM)系统、AI集成虚拟现实(VR)以及基于AI的反馈和分析工具。各组在可行性和可接受性方面的总体结果积极。然而,证据基础受到普遍的方法学弱点的限制,包括小样本(大多数研究招募少于30名参与者)、依赖未经验证的自我报告结果以及缺乏超过一个月的随访数据。结论:AI工具作为可扩展的心理培训方法显示出早期前景,特别是在程序性技能获取和提高从业者自我效能感方面。然而,当前的证据基础不足以支持有效性的主张。该领域存在一个结构性的可信度-可及性悖论:具有最强对照证据的工具最不可扩展,而最可及的工具则具有最弱的实证支持。需要在这三个人群组中进行充分把握度、独立的随机对照试验(RCT),使用经过验证的结果、主动比较组以及持续多个月的随访。
本系统综述对AI工具在心理方法培训中的实证证据进行了首次综合,涵盖了照护者、教育者和治疗师三个群体。
1. 引言(Introduction)部分指出,最接近儿童的成年人(照护者、教师、治疗师)是儿童心理健康结果的关键中介。全球范围内,这些群体获得高质量心理培训的机会严重不平等。AI工具提供了一种可能变革性的可扩展培训途径,但尚无系统性综述综合这一领域证据。研究背景包括儿童青少年心理健康的全球负担(约七分之一受影响,90%以上中低收入国家儿童未获循证治疗);照护者(如基于依恋理论和循证育儿项目)、教育者(如课堂行为管理策略)和治疗师(如认知行为疗法CBT、动机性访谈MI等证据基础疗法)各自的关键作用;以及传统培训模式(如工作坊、个别督导)的资源密集性和结构性排斥问题。AI作为培训模态,涉及基于自然语言处理(NLP)的聊天机器人、生成式AI/大语言模型(LLM)系统、AI集成虚拟现实(VR)以及智能化辅导系统等,具备交互性、适应性和按需可用性。本综述旨在识别和描述所有评估AI工具用于培训这三个群体的实证研究,描述AI技术及其特征,综合可行性和可接受性证据,并评估有效性。
2. 方法(Method)部分描述了系统综述流程:按照PRISMA指南进行,方案前瞻注册(PROSPERO: CRD420261336167)。检索五个电子数据库(MEDLINE、PsycINFO、Embase、Web of Science、ERIC)至2026年3月,辅以参考文献手动检索和引文追踪。纳入标准:成年照护者、教育者或治疗师/从业者(服务0-18岁儿童);基于AI的培训工具交付定义的心理方法或循证策略;至少报告一个培训结果(知识、技能、自我效能、可接受性等);所有实证研究设计。排除静态数字工具、直接面向患者的AI干预及非英文文献。两名独立评审员进行两阶段筛选(标题/摘要和全文),提取数据包括研究特征、人群、干预、结局、效应量等。采用相应的质量评价工具(Cochrane RoB 2、ROBINS-I、CASP、MMAT)。由于异质性,采用叙述性综合,未进行荟萃分析。
3. 结果(Results)部分详述了研究选择过程(初始识别9866条记录,最终纳入24项研究,来自九个国家,发表于2019-2026年,美国贡献最多)。研究分为三组:A组照护者培训(5篇),B组教育者培训(3篇),C组治疗师/从业者培训(16篇)。识别的AI技术五类:基于NLP/规则的聊天机器人(如TESS/X2AI、ClientBot)、生成式AI/LLM系统(如ParenteAI/Pat、ChatGPT平台、TherapyTrainer等)、AI集成VR平台(如Smart VR、IVT-T)、AI反馈与分析工具(如ReadMI、CBT Trainer)以及开发/概念论文。心理方法范围包括:A组聚焦行为育儿(如“不可思议的年华”表扬技能、家长管理培训PMT);B组涉及功能性沟通训练(FCT)和课堂行为管理;C组涵盖动机性访谈(MI)、认知行为疗法(CBT)、人本咨询、自杀风险评估等。各组结果:
- A组:所有五项研究评估聊天机器人或对话AI。TESS聊天机器人(NLP)的可行性研究显示完成率78.8%,知识回忆M=3.07/5,但后续随机对照试验未发现组间显著差异(知识、自我效能、儿童行为),受天花板效应、干预短(约15分钟)和平台政策变化限制。Escoredo等描述开发论文(无新数据)。Rivera-Cepeda等评估ParenteAI.V1(生成式AI,智体架构,N=22),八模块PMT混合格式(真人+AI),模块完成率86.8%,平均消息交换376条,工作联盟评分高(WAI M=6.53-6.59/7),前后效应量大(儿童外化行为d=1.00,抑郁r=0.68等),但为非对照试验。
- B组:King等评估Smart VR(AI集成VR),技术可行性(自动评分与人类88-96%一致)。RCT(N=49)显示VR组比对照组在后测整体掌握百分比(OMP)有极大效应(d=2.45),维持OMP d=1.58,泛化维持d=0.52,但陈述性知识无差异。Delamarre等评价IVT-T(3D课堂模拟器),定性显示学习迁移,但无前后评估。
- C组最大且异质。动机性访谈:Tanana等RCT(N=151)显示ClientBot组(NLP聊天机器人)产生更多反思性倾听(21.4% vs 11.2%),去除反馈后保留76%更多反思(d=0.58),但73%认为乏味。Hershberger等准实验(N=125)中ReadMI改善开放性提问比例(d≈0.5)。认知行为疗法:Zhang等混合方法试点(N=59)中CBT Trainer(AI虚拟患者应用)满足可行性阈值,自我报告技能改善M=73.67/100,胜任力发展在评估技能最高(96.8%),但在伦理决策(0%)和文化胜任力(3.2%)缺失。Wang等评估PATIENT-Ψ(GPT-4+认知概念化图,N=33),专家评分优于普通GPT-4,但LLM自动评估与人类专家方向相反。Stade等评价TherapyTrainer(GPT-4o),71%认为AI患者逼真,但AI顾问偶尔偏离WET协议。Fung和Laing概念验证无人类参与。一般咨询与人本技能:六篇论文,定性主题一致——AI过度顺从、情感浅薄、缺乏复杂性。Lilobot(BDI认知代理)在交叉设计中导致自我效能显著下降(时间×条件F=1.78,p=0.01),79%认为无法自然对话。专业临床领域:Elyoseph等多语言自杀风险评估模拟器(Claude 3.5 Sonnet)显示自我效能提升(t=-3.31,p=0.01),经验年限负相关。Lushyn和Sukhenko评估Claude 3.5 Sonnet在生态中心心理促进(ECPF)培训中,顾问角色最有效(90%报告实践信心增加)。Kenny和Parsons提出概念框架,Lanzieri等描述VR/AI社会工作平台开发(成本超10万美元)。
综合可行性与可接受性积极,但关注AI模拟缺乏情感真实性和关系深度,过度顺从、文化中立默认、安全壁垒限制高风险内容。有效性:仅三个RCT结果异质(最有力证据来自Tanana等MI技能d=0.58和King等VR程序性技能d=2.45),一个RCT(照护者组)无显著效应。前后设计的信号包括儿童外化行为d=1.00、自杀自我效能g=0.62等,但无对照。唯一负面结果是自我效能下降。
4. 讨论(Discussion)部分总结主要发现:证据基础主要为可行性和概念验证,对照证据仅三个RCT,结果不一。不同人群证据质量差异:照护者组唯一RCT无显著效应,但有前景的非对照数据;教育者组RCT显示极大效应但仅限于程序性技能;治疗师组主要为可行性阶段。剂量-效应差距:最简短干预可接受性最高,但临床改善来自更密集格式。AI被视为补充而非替代人类培训,现有局限性(过度顺从、情感浅薄、文化偏见、安全限制)定义了AI的适当教学边界。可扩展性:LLM工具边际成本低,但VR工具要求硬件。可信度-可及性悖论:最强证据的工具最不可及,最可及的工具最弱证据。伦理考量包括安全壁垒与培训需求矛盾、开发者利益冲突、数据隐私、文化偏见。方法学局限:小样本、自我报告、无长期随访、开发者参与、未标准化结果、LLM自动评估与人类专家不一致。
5. 局限性与未来方向(Limitations and Directions for Future Research):综述局限包括搜索时效、异质性导致无法荟萃分析、仅英文文献。未来研究优先:充分把握度独立RCT、多会话设计、非开发者独立评估、经济评价、低收入和多样性人群、理论引导结果选择。
6. 结论(Conclusions)重申AI工具可行且可接受,但对照证据有限。最强证据支持AI-VR用于程序性技能和NLP模拟用于MI技能。AI补充人类培训,存在剂量-效应差距和开发者利益冲突。假设AI培训在结构化、基于标准的技能领域最有效。