《Cogent Mental Health》:Exploring the application of large language models in coding the experiencing scale (EXP)
编辑推荐:
为解决传统心理治疗过程量表编码耗时费力的问题,研究人员开展了一项探索性研究,测试了使用ChatGPT等大语言模型(LLMs)对体验性量表(EXP)进行自动化编码的可行性。通过不同的少样本学习(few-shot learning)提示工程策略,研究发现ChatGPT在特定配置下(o3-mini模型,5-shot提示)与人工专家评分达到了中等程度的一致,为自动化和扩展心理治疗过程研究提供了概念验证。这项工作展示了人工智能工具在提高研究效率和一致性方面的潜力,同时强调了隐私、伦理和模型可靠性等仍需应对的挑战。
在心理治疗研究领域,理解治疗过程中的互动至关重要。像体验性量表(Experiencing Scale, EXP)这样的工具,能够评估来访者在会话中情感处理的深度,是评估治疗质量和预测疗效的“金标准”之一。然而,传统的EXP评分工作高度依赖经过专门训练的人类评估员,他们需要投入大量时间(一个50分钟的会话可能花费约2小时来编码)和精力,才能达到可靠的评分标准。这种劳动密集型的性质不仅限制了研究的规模,也使得研究容易受到评估者主观偏见、注意力漂移和疲劳效应的影响。那么,能否借助近年来飞速发展的人工智能技术,特别是大语言模型(Large Language Models, LLMs),来优化这一过程,让机器学会“阅读”治疗记录,从而解放研究者的双手,并提高研究的可扩展性和一致性呢?
这项发表在《Cogent Mental Health》上的研究,正是对这一问题的一次前沿探索。它旨在提供一个概念验证,看看像ChatGPT这样的强大LLM,是否能够通过巧妙的“指令”(即提示工程),学会对治疗记录进行EXP编码,并与人类专家的评分保持一致。如果可行,这或许能为心理治疗过程研究打开一扇新的大门,让分析海量治疗数据、为受训治疗师提供即时反馈成为可能。
为了验证这个想法,研究人员采用了多阶段、系统化的方法。首先,他们从EXP手册中选取了79个治疗记录文本作为数据集。研究的关键技术方法主要包括:1)数据集准备:将所有治疗师的话语移除,仅保留来访者的陈述,并将文件分割以适应模型的输入限制。2)提示工程:设计了包含量表定义、少样本学习示例和具体编码指令的三套结构化提示,以引导ChatGPT执行评分任务。3)模型与协议测试:研究分为三个阶段,依次测试了不同数量示例(0-shot, 3-shot, 7-shot等)的提示对ChatGPT-4o模型性能的影响,比较了不同ChatGPT模型(如GPT-4o, GPT-4.5, o3-mini等)的性能,并最终在选定的o3-mini模型上系统测试了从0-shot到10-shot的不同提示策略。4)可靠性评估:使用组内相关系数(ICC(3,1))和平均绝对差(MAD)作为主要指标,将ChatGPT生成的EXP评分(包括最常见的模态分数和最高的峰值分数)与专家的人工参考评分进行比较,以衡量自动化编码的可靠性。
初步测试:研究首先测试了不同示例数量对ChatGPT-4o模型表现的影响。结果发现,使用7个示例(7-shot)的提示策略,相比0-shot和3-shot,取得了更高的评分者间信度(ICC值)和更低的平均误差。这表明,为模型提供具体的评分范例,能有效提升其编码表现。
模型比较:随后,研究将表现较好的7-shot策略应用于四个不同的ChatGPT模型。结果显示,推理优化模型(如o3-mini和o3-mini-high)在模态分数评分上表现出一定优势,其中o3-mini模型在保持中等信度的同时,展现出较好的效率-性能平衡。
协议测试:最后,研究聚焦于o3-mini模型,详细测试了从0到10个示例的不同提示策略。研究发现,少样本学习通常优于零样本学习,但性能在达到5-shot或7-shot后似乎趋于稳定甚至略有下降,表明可能存在收益递减效应。其中,5-shot协议在信度(模态ICC(3,1)=0.68,峰值ICC(3,1)=0.71)和误差控制(MAD值较低)方面取得了较好的平衡,被认为是效率与性能兼顾的较优配置。
总的来说,这项研究得出结论:在精心设计的提示工程策略下,ChatGPT能够与人类专家在EXP编码上达到中等程度的一致性。这意味着,在某些条件下,大语言模型有潜力作为人类编码者的补充或替代工具,从而提升心理治疗过程研究的效率。研究讨论部分进一步强调了这一发现的意义与挑战。一方面,这为扩展研究规模、保持评分一致性以及辅助临床培训(例如为受训治疗师提供自动化的来访者投入度反馈)提供了新的可能性。研究也将自身与先前应用LLM进行动机性访谈行为编码、微咨询技能分类等工作进行了对比,指出EXP编码因其对情感体验深度进行连续序数判断的特性,可能对模型的上下文语义整合能力提出了更高要求。
然而,研究也清醒地指出了多个重要的局限性和未来方向。首先,存在预训练数据暴露的威胁,即模型可能在训练中“见过”EXP手册的内容,这限制了将当前结果直接推广到新数据的能力。其次,使用基于云的专有模型(如ChatGPT)引发了严重的隐私、伦理和可复现性担忧,因为敏感的治疗记录可能被传输到外部服务器。未来的研究需要验证模型在独立于手册的真实世界治疗记录上的表现,并探索使用可本地部署的开源模型(如LLaMA)以解决隐私问题。此外,模型的“黑箱”特性、输出随机性(或称不稳定性)以及“幻觉”(产生流畅但不准确的输出)风险,都是实际应用中需要谨慎对待的挑战。
最后,研究展望了未来方向,包括在独立数据集上进行验证、采用更系统的提示设计评估方法(如预注册提示协议)、探索检索增强生成(Retrieval-Augmented Generation, RAG)、模型微调(fine-tuning)以及多智能体系统等互补性技术路径,以期进一步提高自动化编码的稳健性和可靠性。这项研究作为该领域的初步探索,为大语言模型赋能心理治疗过程研究迈出了重要的第一步,但前路依然需要在技术创新与伦理安全之间审慎前行。