《Neuropsychologia》:Automated Detection of Referential Features in Schizophrenic Speech Using Large Language Models
编辑推荐:
跨语言研究表明,精神分裂症患者——尤其是伴有形式思维障碍(FTD)者——在自发言语中表现出独特的名词短语(NPs)分布模式。名词短语(如“那幅画”“一位丈夫”)用于组织意义的指称结构,但此类指称特征的提取传统上依赖人工标注。本研究采用当前最先进的大语言模型(L
跨语言研究表明,精神分裂症患者——尤其是伴有形式思维障碍(FTD)者——在自发言语中表现出独特的名词短语(NPs)分布模式。名词短语(如“那幅画”“一位丈夫”)用于组织意义的指称结构,但此类指称特征的提取传统上依赖人工标注。本研究采用当前最先进的大语言模型(LLMs),基于一个已有人工标注数据集,对英语受试者在描述连环漫画时的言语进行自动特征提取。数据集包含30名精神分裂症患者(其中15名为中度或重度FTD患者[SZ+FTD],15名为轻度或无FTD患者[SZ?FTD])及15名神经典型对照组(NC)。研究人员首先证实,基于LLM的分析结果能够复现人工标注的发现,尤其突出显示SZ+FTD组显著少用与先前话语相关的定指名词短语,这类短语是语法与认知复杂性及叙事连贯性的标志。其次,研究表明,LLM尤其在结合上下文学习(少样本学习)时,为指称特征的自动提取提供了可行路径。上述结果表明,这一经跨语言验证且在临床上重要的语言偏离模式,能够通过自然语言处理技术实现自动化评估。
研究背景方面,精神分裂症谱系障碍(SSD)的核心表现之一是语言功能受损,涵盖从声学—韵律特征到句法、语义及语用层面的多维障碍。已有证据表明,SSD患者的语言困难反映了语境依赖整合机制的广泛受损,这种机制对随时间构建、维持和更新意义至关重要,并与形式思维障碍(FTD)等临床特征密切相关。在句法与语义接口层面,SSD患者在语境敏感型语言特征上存在缺陷,影响指称效率,并随着结构复杂性增加而更为明显,这与工作记忆限制及层级表征维持能力下降有关。神经生物学研究显示,外侧裂周围语言网络(LN)与默认模式网络(DMN)、中央执行网络(CEN)及突显网络(SN)之间的交互异常可能导致指称能力减弱,表现为更少使用需要共享话语表征的定指名词短语(NPs),更多使用语境依赖性较低的指称形式。跨语言研究已在多种语言中验证了SSD患者NP分布模式的改变,但这些研究多依赖耗时耗力的人工标注,限制了规模化应用。
本研究由Derya ?okal、Massimo Poesio等学者合作完成,发表于《Neuropsychologia》。研究人员采用理论驱动的LLM方法,利用LLaMA 3.1模型进行上下文学习,对指称特征进行灵活且语言学上可解释的自动标注,并在有限样本条件下避免了过拟合与数据泄露风险。此外,为进行比较,还测试了需微调的较小模型(如BERT与LLaMA 3.1)。
关键技术方法方面,研究人员使用来自英语母语受试者的既有标注数据集,包含30名精神分裂症患者(按PANSS P2评分分为SZ+FTD与SZ?FTD亚组)及15名神经典型对照。采用LLaMA 3.1进行少样本上下文学习,实现话语层面的指称特征提取,并通过与人工标注结果对比验证准确性。微调实验仅作为方法学比较,详细流程见补充材料。
研究结果部分,首先在“Participants”小节中,研究介绍了受试者的人口学与临床特征,确保伦理审批与数据隐私合规。在“In-context learning model”分析中,单因素方差分析显示三组间定指NP比例差异显著(F(2, 42) = 3.75, p-adj = .032, η2= .15)。事后检验表明,SZ+FTD组的定指NP比例显著低于NC组(估计值 = 0.095, p-adj = .027),而SZ?FTD组与NC组或SZ+FTD组间无显著差异。
讨论部分指出,语言障碍尤其是影响话语连贯性与指称效率的特征,是精神分裂症的重要临床表现,且在FTD患者中尤为突出。本研究证明,LLM可在无需大规模监督训练的情况下,准确提取复杂的指称特征,并复现跨语言验证的临床语言模式。研究同时承认局限,如FTD仅使用PANSS P2单项评分,未覆盖其全部维度。
结论翻译为:本研究证实,基于大语言模型的上下文学习可实现对精神分裂症患者言语中指称特征的高效、准确自动提取,并能复现既往人工标注发现的定指NP减少模式,尤其在伴有形式思维障碍的患者中表现显著。该方法为临床语言分析提供了稳健且生态有效的框架,有望推动精神病语言生物标志物的自动化评估与应用。