基于注意力引导知识蒸馏的神经机器翻译可解释AI归因方法评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Natural Language Processing》：Evaluating explainable AI attribution methods in neural machine translation via attention-guided knowledge distillation

【字体：大中小】 时间：2026年05月29日 来源：Natural Language Processing 1.9

编辑推荐：

　　研究将输入特征归因于神经网络模型输出的任务是当前一个活跃的研究领域。尽管已提出众多可解释AI（XAI）技术来解释这些模型，但针对序列到序列（seq2seq）模型的这些方法的系统性和自动化评估研究尚不充分。本研究提出了一种用于评估基于Transformer的se

研究将输入特征归因于神经网络模型输出的任务是当前一个活跃的研究领域。尽管已提出众多可解释AI（XAI）技术来解释这些模型，但针对序列到序列（seq2seq）模型的这些方法的系统性和自动化评估研究尚不充分。本研究提出了一种用于评估基于Transformer的seq2seq模型中可解释性方法的新方法，该方法基于XAI方法的前向模拟。研究人员使用教师模型生成的归因图作为结构化侧向信号来指导学生模型，并通过学生模型模拟能力来量化不同归因方法的有效性。利用Inseq库，研究人员在源-目标序列对上提取归因分数，并通过四种组合算子（加法、乘法、平均和替换）将这些分数注入学生Transformer模型的注意力机制中。在三种语言对（de-en, fr-en, ar-en）以及来自Marian-MT和mBART模型的归因中，注意力、价值归零和层级梯度乘以激活（LG×A）在BLEU（以及相应的chrF改进）上始终产生相对于基线的最大增益。相比之下，其他基于梯度的方法（显著性图、积分梯度、DeepLIFT、输入乘以梯度、梯度SHAP）产生的改善较小且不一致。这些结果表明，不同的归因方法捕获了不同的信号，并且基于注意力的归因能更好地捕获seq2seq模型中源和目标表示之间的对齐。最后，研究人员引入了一个归因器变压器，给定一个源-目标对，学习重建教师的归因图。研究结果表明，归因器重建归因图的准确性越高，注入这些图对于下游任务就越有用。

近年来，自然语言处理（NLP）生成模型发展迅速，并在广泛领域得到应用。这些模型，尤其是基于Transformer的序列到序列（seq2seq）架构，擅长捕捉输入和输出序列之间的复杂关系。然而，它们通常建立在复杂的神经网络架构之上，由于其不透明的内部机制，常被描述为“黑盒”。为应对这一挑战，可解释AI（XAI）领域吸引了众多研究人员，旨在提高模型的透明度和可解释性，并解释模型的行为。XAI的主要目标之一是评估、量化或表征输入特征在塑造这些模型最终输出中的重要性（或归因）。尽管有这些进展，但要确定哪种解释方法能更准确地反映模型推理过程仍然具有挑战性，尤其是在以复杂的编码-解码动态和多对多映射为特征的seq2seq场景中。
目前，用于评估XAI方法的实践大多依赖人工验证，虽然这种方法富有洞察力，但成本高且难以扩展。在计算机视觉中常见的自动化评估框架在NLP和NMT中代表性不足，且现有工作通常只关注少数几种解释方法。这凸显了对能够在seq2seq设置中客观比较多种可解释性技术的系统性、基于模型评估方法的需求。在此背景下，研究人员开展了这项研究。他们提出了一种基于XAI方法可模拟性的自动化评估框架，专门用于评估和比较seq2seq模型中针对机器翻译任务的多种归因方法。其核心思想是：如果一种归因方法捕获了模型的输入-输出依赖关系，它应该能为指导一个学生模型做出更好的预测提供有用的信息。研究人员通过一个教师-学生设置来实现这一思想：归因图从预训练的教师NMT模型中提取，并注入到一个更小的、未经训练的学生模型的注意力机制中。具体而言，他们将归因图视为编码器-解码器架构内的注意力先验，并探索了多种将这些图与学生自身的注意力分数结合的方法。由此产生的学生性能为评估不同解释方法提供了一种自动化的、任务特定的度量。在该框架内，更高质量的解释会产生信息量更大的归因图，从而使学生能够做出更准确的预测，因此可以作为判断XAI归因方法有效性的代理。研究人员在三个语言对上应用了该框架，使用了来自Marian-MT和mBART模型的归因。
研究人员进一步提出了一个归因器（Attributor）网络，这是一个单独的编码器-解码器变压器，用于学习重建教师的归因图。实验表明，归因器重建归因图的能力与学生模型利用这些图在机器翻译任务中的性能表现出强相关性。本研究得出结论：基于注意力的归因和Value Zeroing等方法在指导学生模型时更为有效。一个值得注意的发现是，将归因注入编码器自注意力机制可以显著提升翻译质量，这与归因器更容易再现注意力图的事实相符。这些发现表明，XAI归因方法的质量和类型可以相对于没有归因指导的基线模型，增强或削弱模型输出。研究证明了不同归因方法确实影响了seq2seq模型的性能，为可解释性研究与模型实用性的关联提供了实证依据。论文发表在《Natural Language Processing》期刊。
研究人员为开展本研究主要运用了以下几个关键的技术方法：首先，构建了一个基于知识蒸馏（Knowledge Distillation）的教师-学生评估框架。其次，利用Inseq库从教师模型（Marian-MT, mBART）中提取八种不同的XAI归因图。接着，通过设计的四种组合算子（加法、乘法、平均、替换）将归因分数注入学生模型的注意力机制（包括编码器自注意力和交叉注意力）中进行训练。最后，设计并训练了一个轻量级的归因器（Attributor）Transformer网络，以从源-目标对中重建教师的归因图，从而评估归因方法的可近似性。本研究的样本队列来源于WMT14数据集（德语-英语、法语-英语）和UN平行语料库（阿拉伯语-英语）。
研究结果部分，首先，通过评估归因方法的有效性（编码器注意力注入），研究人员发现，在三种语言对和两个教师模型上，将归因图注入编码器注意力机制通常能提升翻译质量。具体结论是，基于注意力（Attention）和价值归零（Value Zeroing）以及从编码器最后一层提取的层级梯度乘以激活（LG×A）方法能带来最大的BLEU和chrF增益。相比之下，其他基于梯度的方法（如Saliency、IG等）效果较小且不一致。此外，乘法算子（⊙）在所有方法和语言对中通常表现最佳。
其次，关于注入位置的影响（编码器自注意力与交叉注意力），实验表明，将归因注入交叉注意力很少能提升翻译质量，且常常导致性能下降。研究人员推测，这可能是由于自回归解码时，固定的归因序列与模型动态生成的不匹配目标序列产生了干扰。
第三，通过选择性注入（8头与4头注意力头对比），研究人员发现，仅将归因应用于一半（4个）注意力头时，性能变化相对较小。这表明标准注意力机制与基于归因的算子相结合可能是一种“两全其美”的方法。
第四，在忠实性（预测模型输出）实验中，当教师的生成输出作为监督信号时，注入归因图同样能显著提升学生模型模仿教师输出的能力。排名最高的方法仍然是注意力和ValueZeroing，这与使用人类参考翻译的设置相似。
讨论部分，研究人员认为，归因图编码了源与目标对之间经过学习的关系。对归因矩阵的拓扑分析显示，效果较好的方法（如ValueZeroing、Attention、LG×A）具有更低的列熵，表明其归因值更集中于少数关键令牌。通过引入归因器网络，研究证实了一个核心假设：一个归因方法在多大程度上有用，取决于其归因图在几何结构上多么接近Transformer模型能够生成的模式。具体来说，归因器重建源令牌中Top-3显著性分数的能力（通过Overlap@3和Kendall’s τ@3度量）与学生模型使用该归因在下游任务中获得的BLEU提升显示出非常强的正相关。
结论与未来工作部分，研究总结证明，源自教师模型的XAI归因图可以注入学生模型，其产生的翻译行为变化为XAI归因方法的相对质量提供了实际信号。研究通过系统评估表明，注意力和ValueZeroing以及LG×A在提升BLEU和chrF方面表现最稳定且效果最佳。研究进一步表明，注入源-目标归因到编码器自注意力中能带来显著改善。归因器实验证实，那些对于其目标令牌，Transformer模型能够可靠重建Top-3显著源令牌的归因方法，正是那些在学生模型中产生最大增益的方法。研究指出了一些局限性，如整体流程计算成本高，限制了基于扰动的方法比较；研究仅聚焦于编码器侧的归因注入，未来可扩展至解码器侧；以及需要更多消融研究来探索层级注入、头选择策略等。研究结论强调，归因方法的效用与其归因模式的可近似性密切相关，为NLP社区理解归因图的作用提供了合理的解释。

联系信箱：

粤ICP备09063491号

热点排行