《Frontiers in Artificial Intelligence》:On the interface between linguistics, computer science and psychiatry: analyzing textual key-factors affecting BERT-based classification of schizophrenia in social media texts
编辑推荐:
本研究旨在通过对基于Transformer的模型在区分精神分裂症(Schizophrenia, SZ)患者与非患者所产文本时的决策过程进行分析,以探究SZ相关的语言损伤。研究将语言学研究与计算方法相结合,采用BERT-base-cased模型,探索如何通过自然
本研究旨在通过对基于Transformer的模型在区分精神分裂症(Schizophrenia, SZ)患者与非患者所产文本时的决策过程进行分析,以探究SZ相关的语言损伤。研究将语言学研究与计算方法相结合,采用BERT-base-cased模型,探索如何通过自然语言处理(Natural Language Processing, NLP)技术识别SZ的语言标记,重点强调通过数据集精细化提升性能可靠性,并通过主题内容的统计分析深化对深度学习输出可解释性的理解。
研究报道了基于BERT模型的微调实验,用于对31,278条Reddit帖子(15,639条SZ帖,15,639条对照帖)进行文本分类。实验评估了该模型区分SZ患者与非患者所产语言的能力。
模型取得了中等水平的性能(准确率Accuracy = 0.6969;曲线下面积AUC = 0.78),且在超参数配置变化下保持稳定,这表明基础模型(Foundation Models)如BERT能够较好地拟合数据,因此进一步的性能提升更可能源于数据集精细化而非额外的超参数优化。影响模型性能的关键文本因素有三:文本长度、讨论主题和词汇选择。被正确分类的帖子往往显著更长(p < 0.001,均值M = 37.30),集中于特定主题(如r/Christianity),且包含更多与精神健康状况相关的词汇,尤其是与SZ语义相关的词汇。
本研究立足于精神分裂症(Schizophrenia, SZ)语言损伤研究的学科交叉背景,整合语言学、计算机科学与精神病学三大领域,探讨基于Transformer架构的大规模语言模型在社交媒体文本中分类SZ患者语言时的关键影响因素,以期为计算精神病学(Computational Psychiatry)的方法论改进与理论解释提供实证依据。
SZ是一种以阳性症状(如幻觉、妄想、言语紊乱)、阴性症状(如情感平淡、意志减退)及认知功能障碍为特征的严重精神疾病。数十年来,临床语言学研究表明,SZ患者在句法、语义及语用层面均存在系统性语言异常,包括句法结构简化、指称异常、话语连贯性下降等。然而,传统研究多基于小规模、控制严格的临床访谈或实验任务,存在样本量受限、生态效度不足等问题。近年来,随着自然语言处理(Natural Language Processing, NLP)技术的发展,基于社交媒体数据的计算研究方法为大规模、高生态效度的SZ语言分析提供了新途径。但此类研究面临数据集质量参差不齐、模型决策机制黑箱化、以及模型易依赖表面词汇线索而非深层语法结构等挑战。基于此,本研究旨在通过精细筛选的Reddit数据集,微调BERT-base-cased模型,系统评估文本内在属性(文本长度、讨论主题、词汇偏倚)对SZ分类任务的影响,并探讨提升模型可靠性与可解释性的途径。
研究人员采用Python的PRAW库从Reddit平台采集数据,通过用户自我标识、正则表达式(Regex)验证及人工复核等方式确认SZ组用户(
n = 183),并排除共病声明、非英语使用者及心理健康专区帖子。对照组(Non-SZ, NSZ)来自与SZ组相同的114个子版块(Subreddit),采用一对一匹配策略平衡样本量,最终获得31,278条帖子(每组15,639条)。所有帖子经规范化处理(Unicode NFKD标准化、ASCII编码转换、去除链接、去重、保留停用词和标点,并剔除少于5词的短帖)。
模型构建方面,研究人员采用Hugging Face Transformers库中的BERT-base-cased模型,在其最终隐藏层上添加分类头进行微调。为避免超参数选择的随意性,研究运用Optuna框架进行贝叶斯优化,在15次试验中搜索最优学习率(1×10
?5至5×10
?5的对数均匀分布)和训练轮数(2至5轮),最终以验证准确率最高的配置(学习率1.41×10
?5,3轮训练)重新训练模型。训练与测试按80:20分割,使用NVIDIA A100 GPU在Google Colab Pro环境完成。
为探究关键文本因素的影响,研究人员开展了三项探索性分析:其一,采用单因素方差分析(One-way ANOVA)检验文本长度(词数)在不同预测类别(真阳性TP、真阴性TN、假阳性FP、假阴性FN)间的差异,并以Kruskal-Wallis检验作为非参数稳健性检验;其二,从训练集中随机抽取r/AskDocs子版块的18条帖子进行人工审查,标记其中提及精神病症状、疾病名称(如"schizophrenia")或相关药物(如"Olanzapine")的词汇,并通过优势比检验(Odds Ratio Tests)评估SZ相关词汇与正确预测间的关联;其三,运用卡方检验(Chi-Squared Tests)分析子版块隶属(即讨论主题)与预测结果的关联性,并以r/AskReddit为参考类别建立逻辑回归模型,进一步识别与正确预测显著相关的特定子版块,同时采用L1正则化逻辑回归(LASSO)处理高维类别变量。
模型微调结果显示,Optuna优化后的最优模型验证准确率为0.7022,最终测试集表现如下:损失值(Loss)为0.5933,准确率(Accuracy)为0.697,精确率(Precision)为0.686,召回率(Recall)为0.717,F1值为0.701,受试者工作特征曲线下面积(AUC)为0.78。在183名SZ用户中,124名(67.76%)有明确诊断自我声明,该子样本的准确率(0.6972)与全样本近乎一致,表明模型性能稳定。
文本长度分析表明,正确预测组(TP、TN)的平均文本长度显著高于错误预测组(FP、FN)。方差分析显示四组间存在显著差异(
F = 38.486,
p < 0.001,η2 = 0.018),事后比较表明TP与FN的差异最大(均值差 = 19.312)。Kruskal-Wallis检验确认了该模式的稳健性(
p < 0.001)。尽管效应量较小,但结果一致表明较长的文本为模型提供了更丰富的语境信息,有利于准确分类。
词汇偏倚分析聚焦于r/AskDocs子版块的18条帖子。优势比检验发现,包含SZ相关词汇的帖子更可能获得正确分类(TP),但该关联的置信区间较宽且接近无效应线,提示样本量受限带来的不确定性。值得注意的是,此类词汇对真阴性(TN)预测无显著贡献,表明模型可能依赖这些词汇作为SZ类别的诊断线索,而非中性的语言结构特征。
讨论主题分析通过卡方检验发现子版块隶属与预测结果存在显著关联(χ2(113) = 194.680,
p < 0.001,Cramer's
V = 0.176)。逻辑回归模型(伪R2 = 0.026,
p < 0.001)进一步揭示:r/Advice、r/AskWomen、r/Christianity、r/ftm和r/suggestmeabook等子版块与正确预测显著正相关;而r/CasualConversation、r/PublicFreakout、r/RoastMe、r/mildlyinfuriating和r/pics则与正确预测显著负相关。LASSO正则化结果与之一致,保留了所有非零系数子版块。研究人员推测,文本导向型子版块(如建议咨询、读书推荐)可能提供更多结构化语言和话语连贯性线索,而视觉导向或娱乐性子版块的语言更为碎片化,限制了模型的有效信息提取。
讨论部分,研究人员首先指出模型性能在超参数优化中表现稳定(准确率集中于0.69–0.70区间),证实Transformer架构在充分数据条件下对微调不敏感,未来改进应优先关注数据集质量而非超参数调优。与Guerra(2023)等使用较少过滤数据集获得F1 > 0.91的研究相比,本研究经过严格筛选后的中等性能(~70%准确率)更可能反映真实的语言分类潜力,而非词汇表面线索带来的虚假提升。
研究人员强调,文本长度是促进准确分类的重要因素,这与临床语言学中"较长话语更易暴露SZ相关语言损伤"的经典发现相呼应。Andreasen(1979a,b)指出较长言语产出增加观察SZ语言模式的机会;Docherty等(1996, 1997)认为至少需要10分钟语料捕捉交际失败;Chaves(2022)则发现30秒叙述(平均37.6词)不足以揭示SZ特异性语法标记。本研究的计算结果与之一致,提示未来研究应设定最低文本长度阈值以确保分析的有效性。
关于词汇偏倚,尽管数据集经过严格过滤,模型仍对SZ相关词汇表现出一定依赖。这与McManus等(2015)及Kayi等(2017)关于心理健康NLP模型易过度依赖词汇线索的担忧相符。研究人员认为,虽然完全消除此类偏倚困难,但必须量化控制其影响,以避免对模型性能的高估和误读。
主题效应方面,文本导向型子版块与更高准确率相关,可能源于其提供更多句法结构和 discourse coherence(话语连贯性)线索。然而,r/CasualConversation虽非视觉导向且文本长度与正确预测组相当,却与较低准确率相关,提示文本长度与主题可能以相加而非交互方式影响预测。研究人员呼吁未来研究深入探究不同主题 genres(语类)的语言结构差异,以及模型对语法结构vs.词汇线索的注意力分配机制。
研究结论部分,研究人员综合指出:基于BERT的模型在严格筛选的Reddit数据上呈现出中等且稳定的SZ分类性能,证实了Transformer架构捕捉SZ相关语言模式的能力,但也暴露了模型对词汇表面线索的残余依赖。文本长度、讨论主题和词汇选择三个数据内在属性显著影响分类结果:较长文本提供更多信息量,促进准确预测;特定主题子版块因语言 register(语域)和 discourse structure(话语结构)差异而影响模型表现;SZ相关词汇的存在虽有助于正确分类,却损害了模型的可推广性和临床适用性。研究人员强调,未来研究应进一步精细化数据集策展(Dataset Curation),纳入句法和形态学分析,并在多样化语境(如临床访谈、跨语言数据)中验证模型鲁棒性。总体而言,本研究为语言学、计算机科学与精神病学的交叉研究提供了方法论启示,凸显了数据质量控制与模型可解释性在计算精神病学中的核心地位。