ContextMental:用于阿拉伯语心理健康理解的社会文化基准

《Electronics》:ContextMental: A Sociocultural Benchmark for Arabic Mental Health Understanding

【字体: 时间:2026年06月11日 来源:Electronics 2.6

编辑推荐:

  心理健康话语可能反映塑造个体表达与解释痛苦方式的社会关系、文化规范和宗教因素。现有自然语言处理(NLP)关于心理健康的研究,已经利用文本挖掘、神经分类、基于Transformer的模型,以及近年来的大语言模型(LLMs),推动了对抑郁、焦虑、自杀风险及相关临床

  
心理健康话语可能反映塑造个体表达与解释痛苦方式的社会关系、文化规范和宗教因素。现有自然语言处理(NLP)关于心理健康的研究,已经利用文本挖掘、神经分类、基于Transformer的模型,以及近年来的大语言模型(LLMs),推动了对抑郁、焦虑、自杀风险及相关临床信号的检测。然而,大多数系统主要将文本视为临床信号,而不是考察痛苦表达所处的社会与文化语境。阿拉伯语NLP研究的局限性更为明显,相关工作大多聚焦于临床状况检测,却忽视了塑造心理健康问题表达方式的语境因素。本研究提出ContextMental,这是一种用于建模阿拉伯语心理健康问题社会文化语境的多标签标注模式与基准数据集。该数据集包含2677个问题,其中552个实例带有语境标签,从而能够对社会、文化和宗教维度开展细粒度分析。研究进一步构建了一个基于AraBERT的分类框架,采用不平衡感知优化、半监督伪标注(pseudo-labeling)和自适应阈值校准。实验结果表明,伪标注增强提升了总体分类性能,说明半监督学习能够支持面向语境感知的阿拉伯语心理健康分类。本研究提供了一个语境感知标注框架、一个基准数据集,以及一条基于AraBERT的基线建模流程,用于阿拉伯语心理健康NLP,从而支持未来面向社会、文化和宗教语境扎根的语言技术研究。
该论文发表于《Electronics》,聚焦阿拉伯语心理健康自然语言处理(NLP)中长期存在的一个关键缺口:既有研究虽然在抑郁、焦虑、自杀意念等临床信号识别方面取得进展,但多数方法将文本当作去语境化(decontextualized)的症状载体,未能充分处理个体如何在社会关系、文化规范与宗教框架中表达痛苦。对于阿拉伯语语境而言,这一问题尤其突出,因为阿拉伯语心理健康表达不仅受到复杂形态结构、方言差异的影响,还深受家庭角色、婚姻期待、社会评价及宗教信念等因素塑造。研究人员因此开展本研究,旨在建立一个能够显式刻画社会、文化、宗教维度的阿拉伯语心理健康问题分析框架,以弥补单纯临床标签体系在语境理解上的不足,并为未来构建更具文化适配性(cultural alignment)的心理健康语言技术提供基础资源。

围绕这一目标,研究人员提出了ContextMental框架,并将语境建模表述为多标签分类任务。研究首先构建了一套面向阿拉伯语心理健康问题的多层级标注体系,将语境信息划分为社会、文化、宗教三类主维度,并进一步细分为若干子类,如社会维度下的关系、人口统计学特征与生活满意度,文化维度下的信息、价值观以及规范与道德,宗教维度则用于表示宗教推理、灵性应对和基于信仰的解释框架。随后,研究人员基于Altibbi.com这一阿拉伯语医疗平台中2020年至2021年间收集的2677条心理健康问答对,提取患者撰写的问题文本作为研究对象,排除医生回复,以聚焦患者如何以社会文化和宗教方式组织其心理困扰表达。研究通过人工标注建立金标准子集,并在此基础上引入伪标注策略扩展训练样本,再使用AraBERT进行多标签分类建模,并通过类别加权二元交叉熵(weighted BCE)、类别特异阈值校准等机制缓解类别不平衡问题。最终,研究得出结论:在阿拉伯语心理健康问题中,语境性表达具有显著重要性,尤其以社会关系相关语境最为常见;伪标注能够有效提升高支持度标签的识别性能,但对稀有的文化和宗教标签帮助有限。该研究的重要意义在于,它不仅提供了阿拉伯语心理健康语境建模的首个较系统基准之一,也推动了心理健康NLP从“症状识别”迈向“语境理解”。

在技术方法上,研究主要采用了以下几类关键方法。其一,基于Altibbi.com来源的2677条阿拉伯语心理健康患者问题构建语料,并由3名阿拉伯语母语标注者依据书面指南开展双人独立标注与分歧裁决,形成500条金标准样本。其二,设计两阶段多标签标注模式,先判断是否存在语境因素,再细分为社会、文化、宗教主类及其子类。其三,采用AraBERT作为骨干模型,以[CLS]表征接入线性分类头,通过sigmoid输出各标签概率,并结合类别加权二元交叉熵处理类别失衡。其四,利用基于验证集的类别特异阈值校准,将预测概率转化为最终标签。其五,引入半监督伪标注,对其余2177条未标注问题生成弱监督标签,以增强模型训练。

在研究结果部分,论文首先在“Impact of Pseudo-Labeled Data on Model Performance”中比较了仅使用金标准数据与加入伪标注数据两种训练配置的整体效果。结果显示,伪标注训练明显提升了总体性能:Micro-F1由0.72升至0.84,Macro-F1由0.19升至0.22,Subset Accuracy由0.70升至0.84,Jaccard Index由0.72升至0.84,Hamming Loss由0.07降至0.04。研究人员据此认为,半监督伪标注能够增强模型对高频语境模式的学习,并改善整体预测一致性。

在“Per-Class Performance Analysis”中,研究进一步考察各标签层面的表现差异。结果表明,伪标注对高支持度标签帮助最明显,尤其是“No”和“Social|Relationship”。其中,Social|Relationship的F1值由0.55提升至0.68,说明模型更容易学习频繁出现的社会关系语境模式。然而,低支持度类别的表现依然受限,如Social|Life Satisfaction、Culture|Information和Culture|Values在留出测试折中各仅有1个正例,F1值在两种配置下均为0.00。Culture|Norms and Morals虽有一定改善,但总体仍偏低;Religion标签在加入伪标注后F1反而从0.20降至0.13。该部分结果明确揭示,类别不平衡仍是文化和宗教语境识别的主要瓶颈。

在“Error Analysis”中,研究人员总结了三类主要错误来源。第一,一些实际具有语境信息的问题被预测为“No”,尤其是在语境线索以隐含方式出现时,模型难以捕捉间接表达的社会、文化或宗教信号。第二,文化类样本常与Social|Relationship混淆,因为文化期待往往通过家庭、婚姻、人际责任或社会压力表述,模型容易只识别表层社会关系含义,而遗漏更深层的文化框架。第三,宗教类样本可能被误判为“No”或Social|Relationship,这是因为宗教线索较稀疏、间接,或嵌入更广泛的情绪和社会困扰叙述之中。

在“Ablation Study”中,研究人员检验了类别加权优化和伪标注增强的独立与联合作用。标准AraBERT基线的Micro-F1为0.78,Macro-F1为0.19;加入weighted BCE后,Macro-F1提升至0.21,提示其有助于提升对少数类的敏感性,但同时会降低Micro-F1、Subset Accuracy和Jaccard等整体稳定性指标。单独使用伪标注则使Micro-F1从0.78升至0.83,Subset Accuracy从0.76升至0.82,说明增加伪标注样本可显著改善表示学习效果。性能最佳的是weighted BCE与伪标注联合配置,其Micro-F1达到0.84,Macro-F1为0.22,Subset Accuracy和Jaccard均为0.84。由此可见,伪标注是主要性能增益来源,而类别加权在与扩增数据结合时可进一步改善少数类敏感性。

在“Binary Annotation”中,论文报告了语境有无的二元分布。500条人工标注样本中,131条为“Yes”,369条为“No”;对其余2177条未标注样本实施伪标注后,又得到421条“Yes”和1756条“No”。合并后,全体2677条问题中共有552条“Yes”、2125条“No”,即约20.6%的问题包含至少一个文化、社会或宗教扎根维度。这说明在阿拉伯语心理健康问题中,虽然非语境化问题数量更多,但具有明确社会文化背景的问题占比并不低。

在“Distribution of Cultural, Social, and Religious Annotations”中,研究分析了主类别的分布及重叠。131条人工标注阳性样本中,社会维度最常见,出现在108条问题中;文化维度出现在19条,宗教维度出现在14条。若按互斥组合统计,单独社会标签样本最多,共98条;单独文化为14条,单独宗教为9条;社会与文化共现5条,社会与宗教共现5条,没有同时具备三类主标签的人工样本。421条伪标注阳性样本中,社会维度同样占绝对主导,达到417条,而文化和宗教分别仅为9条和5条。该结果表明,阿拉伯语心理健康提问中的语境信息主要以社会关系叙事为核心,而文化与宗教语境更多起补充性作用。

在“Sub-Category Distribution and Overlap Analysis”中,研究对更细粒度的子类进行分析。Social|Relationship是最频繁的子标签,社会子类之间的重叠总体有限,其中Social|Relationship与Social|Demographics的重叠最明显,而涉及Social|Life Satisfaction的重叠较少,且没有样本同时包含3个社会子类。在文化维度中,Culture|Norms and Morals最常见,Culture|Information和Culture|Values出现较少,且只有Norms and Morals与Values之间存在重叠,Information不与其他文化子类重叠。跨类别分析显示,Social|Relationship与Culture|Norms and Morals之间的共现最突出,提示家庭、人际关系困扰常与社会规范、道德约束共同出现。

在“Representative Examples”中,论文通过代表性实例展示阿拉伯语心理困扰表达中的社会文化扎根特征。宗教框架可表现为患者将强迫性重复言语通过灵性视角进行解释,并借助记念或祈求宽恕等宗教应对方式处理。社会维度则体现在婚姻、家庭期待、情感依恋、污名与责任交织的问题中,也体现在“物质稳定却长期悲伤”这类与生活满意度相关的表述中。文化维度常出现在身体意象、他人比较、自我呈现和母职相关担忧等问题中,揭示价值观、社会目光和家庭角色规范如何塑造心理脆弱性。这些例证共同说明,若仅依赖临床范畴,难以充分解释阿拉伯语心理健康表达的真实含义。

讨论部分指出,本研究所提出的ContextMental框架证明了语境因素在阿拉伯语心理健康问题理解中的核心作用,特别是社会性叙事和人际顾虑在表达心理痛苦时最为常见。标签重叠分析表明,社会、文化、宗教维度并非完全割裂,而是在部分问题中相互交织,尤以社会与文化维度之间的联系最为明显,因此未来语境感知模型可能需要显式建模标签依赖关系,而非将其视为完全独立的类别。半监督实验进一步表明,伪标注主要改善高频模式识别,对低频文化和宗教类别提升有限,这与自训练方法更偏向强化常见模式的已知局限一致。标注一致性分析支持该框架在主类别层面的可靠性,但细粒度、低频子类的一致性较低,反映出心理健康语境解释本身的模糊性与主观性。论文同时指出若干限制,包括少数类样本规模偏小、伪标注可能引入噪声、研究对象限于阿拉伯语心理健康提问而不必然适用于更广泛的话语场景,以及当前框架尚未建模层级性或时间性语境关系。

研究结论部分指出,ContextMental构建了一个融入文化、社会和宗教维度的阿拉伯语心理健康问题分类框架,将结构化社会文化标注与半监督学习结合起来,在主类别与子类别两个粒度上支持多标签分析。基于AraBERT并结合类别不平衡感知优化、伪标注和自适应阈值校准的基线模型表明,对于高支持度标签,语境因素分类具有可行性;但对于稀有的文化和宗教类别,仍需要更多人工标注数据以及更强的类别不平衡处理方法。研究结果进一步强调,阿拉伯语心理健康话语中的患者表达往往深受人际、文化和宗教因素影响,这些因素无法被传统临床分类充分覆盖。总体而言,该研究提供了一个结构化资源和基线建模路径,为未来发展更加重视社会、文化和宗教维度的阿拉伯语心理健康NLP系统奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号