哪种模型“感觉”更佳？社交媒体中类别不平衡条件下情绪检测计算方法的比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Informatics》：Which Model Feels Better? A Comparison of Computational Approaches to Emotion Detection in Social Media with Imbalanced Data

【字体：大中小】 时间：2026年06月10日 来源：Informatics 2.8

编辑推荐：

　　社交媒体中的情绪检测仍然具有挑战性，尤其是在两极化的公共辩论中，不同情绪类别的表达往往呈现不平衡分布。为应对这一挑战，本研究基于一个关于持续性地缘政治冲突的推文金标准（gold-standard）数据集，比较了多种计算方法的性能。该数据集反映了现实世界在线话语

社交媒体中的情绪检测仍然具有挑战性，尤其是在两极化的公共辩论中，不同情绪类别的表达往往呈现不平衡分布。为应对这一挑战，本研究基于一个关于持续性地缘政治冲突的推文金标准（gold-standard）数据集，比较了多种计算方法的性能。该数据集反映了现实世界在线话语中观察到的真实且偏斜的情绪分布。研究人员评估了基于词典（lexicon-based）的方法、经典机器学习（machine-learning）分类器、深度学习（deep-learning）架构、经过微调（fine-tuned）与零样本（zero-shot）配置的Transformer模型，以及一个零样本大语言模型（large language model, LLM），以评估这些方法在捕捉高频情绪与低频情绪方面的有效性。总体而言，Transformer模型，尤其是针对上下文情绪识别进行微调的模型，表现出最强的综合性能；其中，面向特定情绪的微调在检测稀有情绪类别方面具有特殊优势。这些发现强调，在现实类别不平衡条件下评估情绪检测方法具有重要意义，同时凸显了应用型社交媒体研究中常用建模策略的比较优势与局限性。本研究通过为复杂且类别不平衡的社交媒体情境中选择合适的情绪检测方法提供实践指导，推动了情绪分析与计算社会科学的发展。

该文发表于《Informatics》，聚焦于社交媒体政治话语中离散情绪（discrete emotions）的自动识别问题，核心关切在于：现实社交媒体数据并非均衡分布，而是常呈现中性情绪占主导、少数情绪稀缺的结构，这使得许多计算模型在总体准确率看似可接受的情况下，实际上难以可靠识别恐惧、厌恶、惊讶等低频情绪。研究背景建立在政治传播研究与传播学方法论交叉之上。既有研究已反复证明，情绪会深刻影响政治参与、议题感知、信息分享与集体行动；随着Twitter/X、Facebook、Instagram等平台成为政治讨论的重要场域，识别公众在线表达中的具体情绪，已成为传播学者理解舆论动态的重要基础。然而，以往大量研究仍主要依赖情感分析（sentiment analysis）框架，只区分正面、负面与中性态度，这种二元或三元极性判断难以刻画愤怒、悲伤、恐惧、厌恶、惊讶、快乐等具有不同心理机制与传播效应的离散情绪。因此，作者认为有必要把离散情绪识别与传统情感极性分析明确区分开来，并对现有计算方法展开系统比较。

围绕这一问题，研究人员使用了一个来源于IEEE DataPort的英语Twitter/X帖子二手数据集，数据生成背景为2022年4月的一场持续性国际地缘政治冲突。由于该时期冲突事件引发了强烈的公众反应，数据中包含愤怒、恐惧、悲伤、厌恶、惊讶以及少量快乐等多样情绪，因而适合作为高情绪负荷语境下的检验材料。研究并未人为重新平衡各类标签，也未先行过滤中性类别，而是保留现实在线话语中的自然失衡分布，以增强生态效度（ecological validity，指研究情境与真实世界的一致性）。作者指出，正是在这种贴近真实传播环境的数据条件下，才能更准确检验模型对复杂情绪的识别能力。

在研究设计上，研究人员首先构建了人工标注的金标准。其编码框架基于GoEmotions数据集提出的细粒度情绪分类体系，并结合本研究语境进行了调整，形成25个细粒度情绪类别加1个中性类别的编码方案。两名具有高级研究生学位的英语母语编码员完成四轮标注，并通过讨论解决分歧。初始Cohen’s κ（编码一致性指标）为0.72至0.80，经讨论后超过0.90，说明最终人工标注具有较高可靠性。随后，研究人员将保留下来的相关推文重新聚合为7个粗粒度类别：Joy/Happiness、Sadness、Anger、Fear、Surprise、Disgust与Neutral，其中前六类与Ekman基本情绪理论相对应，Neutral作为非情绪基线类别保留。经过无关内容剔除后，最终分析数据保留了高度不平衡的类别分布，这也是全文方法比较的关键前提。

就主要技术方法而言，研究主要采用五类路径：第一，基于词典的方法，包括NRC Lexicon与Empath，依据预设词汇—情绪映射直接赋予标签；第二，传统机器学习方法，包括朴素贝叶斯（Naive Bayes, NB）与支持向量机（Support Vector Machine, SVM），以TF-IDF词项特征进行分类；第三，深度学习方法，包括基线卷积神经网络（Convolutional Neural Network, CNN）与结合GloVe词向量的CNN；第四，Transformer架构模型，包括BERT、RoBERTa、Twitter-RoBERTa、GoEmotions微调模型、DistilRoBERTa-Emotion与DeBERTa-v3-base；第五，零样本范式，包括GoEmotions零样本模型与Flan-T5-base提示式分类。样本来源为2022年4月英语Twitter/X冲突相关帖子，训练型模型多采用分层70%/15%/15%训练—验证—测试划分，传统机器学习则采用分层5折交叉验证。

研究结果部分表明，不同模型家族之间存在清晰的性能分层。首先，在整体比较层面，经过微调的Transformer模型普遍优于词典法、传统机器学习方法和CNN模型。RoBERTa取得全体模型中最高的总体Accuracy与最高的一致性水平，说明它在与人工金标准保持一致方面表现最强；而DistilRoBERTa-Emotion则获得最高的Macro F1-score，表明它在兼顾低频类别识别方面更具优势。作者据此指出，若研究目标不仅是提升总体正确率，而是希望更均衡地识别少数情绪类别，那么面向情绪任务专门预训练并微调的Transformer模型尤其值得优先考虑。

在“Emotion-wise performance varied substantially across models”这一结果部分，文章进一步比较了各模型对单一情绪的识别差异。研究发现，RoBERTa在Joy与Anger上的表现较强；DistilRoBERTa-Emotion在Sadness、Fear与Surprise等较少见类别上更均衡；Twitter-RoBERTa在Anger与Disgust上表现较好，但在Surprise上相对较弱。这说明，即便是在性能最优的模型群体内部，不同模型对不同情绪类别的敏感性也并不相同。作者借此强调，单一总体指标不足以全面评价模型，必须关注按类别划分的性能结果。

在“Performance Results by Model”部分，作者对各模型作了逐项归纳。NRC与Empath两种词典法总体表现最弱，尤其难以处理需要语境理解的厌恶与惊讶等情绪。其局限在于方法依赖固定词表，无法捕捉上下文含义变化，也难以处理情绪表达中的细微差异。传统机器学习方法略有改善，其中NB虽然总体Accuracy高于词典法，但Macro F1很低，说明其强烈偏向多数类；SVM表现优于NB，在Anger与Joy识别上有所提升，但对稀有情绪依然敏感度不足。就CNN而言，基线CNN主要通过偏向Neutral获得较高Accuracy，而加入预训练GloVe词嵌入并结合过采样与类别权重后，模型在Anger与Disgust等类别上出现更均衡的提升，说明外部语义信息有助于改善非中性情绪识别。

在Transformer模型中，BERT虽然总体Accuracy未超过最佳CNN，但Macro F1与Cohen’s κ更高，显示出比依赖多数类预测更均衡的类别表现。RoBERTa则在所有主要指标中综合最强，是全文总体表现最佳的模型。Twitter-RoBERTa紧随其后，体现了社交媒体领域预训练对推文理解的增益。GoEmotions零样本模型表现中等，说明预训练情绪知识具有一定迁移能力；但GoEmotions在本数据集上微调后，Cohen’s κ提升而Macro F1反而下降，文章解释为：原始28类细粒度情绪输出层被替换成7类粗粒度输出层后，再在小样本且严重失衡的数据上训练，可能削弱了模型对少数类的敏感性，使其更偏向主导类别，这并非简单意义上的过拟合，而是标签空间压缩与类别不平衡共同作用的结果。

值得注意的是，在附录所对应的RoBERTa混淆模式分析中，文章指出最佳模型最主要的错误来源，是将少数情绪误判为Neutral，尤其Fear、Sadness与Joy/Happiness更容易被吸入中性类别；此外，Anger与Disgust之间也存在相互混淆。这一结果提示，在真实社交媒体话语中，低强度、克制表达或语义相近的负面情绪，对模型而言依旧难以明确区分。相比之下，DistilRoBERTa-Emotion虽然整体Accuracy不及RoBERTa，但其在Sadness与Surprise上的F1表现优于所有其他微调模型，在Disgust上也具有竞争力，因此其最高Macro F1具有明确的方法论意义，即面向情绪任务专门优化的模型更适合不平衡多类别场景。DeBERTa-v3-base则未能超过RoBERTa，文章认为这与其架构优势更依赖较长、句法更复杂文本有关，而在被截断为50个token以内的短推文中，这种优势难以充分发挥。Flan-T5-base零样本模型则表现极差，尤其几乎不预测Neutral，导致Neutral类别F1接近于零，说明单纯依靠指令提示而不进行任务适配，难以胜任短文本、类别失衡条件下的情绪分类。

讨论部分主要从理论与方法两个层面归纳意义。理论上，文章再次强调情绪分析不应被视为情感极性分析的简单延伸。离散情绪具有更强的语境依赖性，且常在同一文本中共现，反讽、挖苦、模糊表达都会提高识别难度，因此需要专门的建模与评估框架。方法上，研究表明Transformer模型在复杂、失衡、情绪负荷高的真实社交媒体数据上具有稳定优势，但即便最佳模型仍无法完全逼近人工金标准，说明人工标注在情绪研究中仍不可替代，尤其是在传播学研究需要解释性精度时更是如此。作者因此主张采用互补性的多方法路径：计算模型用于识别大规模模式，关键结论仍需借助人工标注进行校验。

论文结论部分可译述如下：研究结果表明，在社交媒体离散情绪检测任务中，经过微调的Transformer模型整体上优于基于词典的方法、传统机器学习模型与CNN架构；其中，情绪专门化微调模型在识别低频情绪类别方面具有突出优势。与此同时，类别不平衡会显著影响模型评估结果，因此在方法选择时不应仅依赖Accuracy，而应结合Macro F1与Cohen’s κ等指标。总体而言，复杂且不平衡的社交媒体情境下，计算情绪分析工具虽能提供高效的大规模分析能力，但其使用需要保持方法透明与结果审慎解释；对于传播研究而言，最可靠的路径仍是将自动化模型与人工验证结合起来。

联系信箱：

粤ICP备09063491号

热点排行