基于可解释人工智能(Explainable AI, XAI)驱动的BERT变体对社交媒体中摩洛哥达尔贾语(Moroccan Darija)有毒评论的透明检测

《Scientific African》：XAI-Driven BERT Variants for Transparent Moroccan Darija Toxic Comments Detection in Social Media

【字体：大中小】 时间：2026年06月21日 来源：Scientific African 3.3

编辑推荐：

　　摘要：在当今全球化背景下，社交媒体已成为日常生活的重要组成部分，但网络欺凌导致有害及有毒内容蔓延，因此识别与分类有毒内容以营造安全网络环境十分必要。本研究旨在识别摩洛哥方言达尔贾语(Darija)在社交媒体（特别是Instagram平台）上的恶意言论。研究人员

摘要：在当今全球化背景下，社交媒体已成为日常生活的重要组成部分，但网络欺凌导致有害及有毒内容蔓延，因此识别与分类有毒内容以营造安全网络环境十分必要。本研究旨在识别摩洛哥方言达尔贾语(Darija)在社交媒体（特别是Instagram平台）上的恶意言论。研究人员从Instagram采集包含91,559条样本的数据集，均衡划分为积极(Positive)、中性(Neutral)和有毒(Toxic)三类，每类约30,000条评论。随后对阿拉伯语及摩洛哥方言预训练模型进行微调以提升分类准确率与性能。借助BERT(Bidirectional Encoder Representations from Transformers)在情感分类方面的优势，研究人员采用多分类框架对若干BERT变体（包括DarijaBERT、DarijaBERT-mix、ARBERT、MarBERT及CAMeLBERT-DA）进行微调，并结合可解释人工智能(Explainable AI, XAI)方法——尤其是SHapley Additive exPlanations(SHAP)图——用以描述模型行为及各特征对最终预测的贡献度。所提方法效果显著，准确率达93.91%，F1分数达93.9%。

论文解读：《XAI-Driven BERT Variants for Transparent Moroccan Darija Toxic Comments Detection in Social Media》（发表于Scientific African）

一、研究背景与意义

阿拉伯语存在现代标准阿拉伯语(Modern Standard Arabic, MSA)与众多地域方言，其中摩洛哥达尔贾语(Moroccan Darija)受柏柏尔语、法语及西班牙语影响，属低资源语言且无标准正字法，在社交媒体上大量以非规范拼写出现。现有阿拉伯语自然语言处理(Natural Language Processing, NLP)模型多基于MSA或英语语料训练，难以捕捉达尔贾语的码转换(code-switching)、非标准化拼写及外来词影响。此前缺乏大规模标注的摩洛哥达尔贾语有毒评论检测数据集，且已有达尔贾语NLP工作集中于情感极性分析而非毒性检测，亦未引入可解释性机制以支持实际内容审核部署。为此，Rabia Rachidi、Mouaad Errami等来自Chouaib Doukkali大学LaROSERI实验室的研究人员构建了大规模Instagram摩洛哥达尔贾语三分类（有毒/积极/中性）标注语料，系统比较多种BERT架构变体在该任务上的表现，并引入SHapley Additive exPlanations(SHAP)进行模型决策可解释性分析，填补了低资源阿拉伯方言毒性检测的资源与方法空白。

二、主要关键技术方法

研究人员通过Selenium自动化爬取公开Instagram用户主页及话题标签下评论，经去表情符、去标点与数字、去非阿拉伯文字符、去除停用词、词形还原与归一化等预处理后获得91,559条摩洛哥达尔贾语评论，由两名母语者为达尔贾语流利者按毒性和非毒性指南独立标注，通过Cohen's Kappa评估标注者间一致性（κ=0.860）。数据集按分层5折交叉验证划分为约70%训练、15%验证、15%测试。研究人员对五种预训练模型——DarijaBERT（摩洛哥方言阿拉伯字母）、DarijaBERT-mix（阿拉伯字母+Arabizi拉丁化字母混合）、ARBERT（MSA为主）、MARBERT（MSA+多方言阿拉伯语推特语料）、CAMeLBERT-DA（方言阿拉伯语Dialectal Arabic, DA）——进行微调，超参数经网格搜索确定（优化器Adam、epochs=10、各模型最优batch size与learning rate不同），损失函数为交叉熵。性能评估采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、宏平均F₁分数(Macro-averaged F₁-score)、混淆矩阵、受试者工作特征曲线(Receiver Operating Characteristic, ROC)及95%置信区间(Confidence Interval, CI)，并以配对t检验(Paired T-Test)检验模型间差异显著性。可解释性分析选用TreeExplainer与DeepExplainer计算SHAP值，绘制力图(Force Plot)、均值条形图(Mean Bar Plot)、小提琴图(Violin Plot)、瀑布图(Waterfall Plot)、蜂群图(Beeswarm Plot)及决策图(Decision Plot)。

三、研究结果

数据收集与标注：最终保留91,559条评论（有毒31,051条、积极30,441条、中性30,067条），总词数641,182，独特词59,607个。标注者间Cohen's Kappa各类分别为毒性0.882、积极0.858、中性0.853，表明标注质量可靠。

模型设置与训练：五模型均经分层5折交叉验证微调，DarijaBERT最佳超参数为batch size=64、learning rate=2e-5；DarijaBERT-mix为batch size=32、learning rate=1e-4；ARBERT为batch size=32、learning rate=1e-4；MARBERT为batch size=32、learning rate=1e-4；CAMeLBERT-DA为batch size=16、learning rate=1e-4；均采用Adam优化器与10轮训练。

定量指标结果(Macro-averaged)：DarijaBERT-mix准确率93.92%、F₁=93.91%；CAMeLBERT-DA准确率93.91%、F₁=93.90%；DarijaBERT准确率93.82%、F₁=93.81%；MARBERT准确率93.75%、F₁=93.74%；ARBERT准确率93.50%、F₁=93.49%。所有模型宏精确率、宏召回与宏F₁均高度接近对应准确率，显示类别平衡良好。

k折交叉验证结果：各模型5折均值标准差较小（DarijaBERT ±0.18%、DarijaBERT-mix ±0.17%、ARBERT ±0.29%、MARBERT ±0.17%、CAMeLBERT-DA ±0.16%），表明性能稳定。CAMeLBERT-DA与DarijaBERT-mix均值最高。

置信区间(CI 95%)研究：逐模型看CAMeLBERT-DA准确率CI [93.75, 94.06]、DarijaBERT-mix CI [93.76, 94.07]，逐类看中性类各类别F₁最高（约94.69% CAMeLBERT-DA），积极类F₁略低（约92.96%~93.28%），表明积极类最难区分。

统计显著性检验：配对t检验显示ARBERT显著弱于其余四模型（p<0.001）；MARBERT显著弱于CAMeLBERT-DA与DarijaBERT-mix但显著强于ARBERT；CAMeLBERT-DA与DarijaBERT-mix无显著差异(p=0.5231)；DarijaBERT-mix显著优于DarijaBERT(p=0.002)。说明方言适配预训练带来实质提升。

性能可视化评估：雷达图显示五模型四项指标均>93%；混淆矩阵表明CAMeLBERT-DA各类真正例最高且误分类最少，DarijaBERT-mix次之，ARBERT误分最多尤其中性与积极类互混；ROC曲线各类别Area Under the ROC Curve(AUC)接近1；柱状图确认CAMeLBERT-DA与DarijaBERT-mix综合最优。

可解释性分析(Explainability Analysis)：SHAP分析显示方言专用模型（DarijaBERT、DarijaBERT-mix）对毒性指示词（如?????、????、???等达尔贾语词汇）赋予更高绝对值SHAP贡献，决策路径更清晰且具方言语义一致性；CAMeLBERT-DA因基于MSA预训练，SHAP分布较集中但对达尔贾语特定词敏感性降低；DarijaBERT-mix因含Arabizi混合语料，对边界模糊的中性类判别略优。Force Plot、Waterfall Plot及Decision Plot均证实方言对齐模型产生更极化、可信度更高的词级归因。

四、讨论与结论总结

研究人员指出，针对摩洛哥达尔贾语有毒评论检测，方言特异性预训练（DarijaBERT-mix）与多方言阿拉伯语预训练中含丰富DA语料的模型（CAMeLBERT-DA）显著优于仅基于MSA预训练的ARBERT及泛阿拉伯多方言但未专门强化DA的MARBERT，统计检验证实此差异具显著性。积极类因与中性类语义相近最难分类。结合SHAP的可解释框架使模型决策透明化，满足内容审核系统部署要求。自建标注数据集弥补了该低资源方言毒性检测基准缺失。研究结论为：在Instagram摩洛哥达尔贾语三分类毒性检测任务上，DarijaBERT-mix与CAMeLBERT-DA可达约93.9%准确率与F₁值，引入SHAP可合理解释模型判定依据；方言适配预训练是低资源阿拉伯方言NLP任务性能提升的关键因素。

热点排行